493 การอ่าน
493 การอ่าน

Spotify's Secret to Smarter A / B Testing (เคล็ดลับ: มันไม่ได้เป็นเพียงสถิติ)

โดย AB Test5m2025/03/30
Read on Terminal Reader

นานเกินไป; อ่าน

การทดสอบ A/B ขับเคลื่อนการตัดสินใจเกี่ยวกับผลิตภัณฑ์ แต่ตัวชี้วัดหลายตัวทำให้การจัดการความเสี่ยงมีความซับซ้อน Spotify แนะนำกรอบกฎการตัดสินใจเพื่อปรับปรุงการทดลอง รับรองผลลัพธ์ที่เชื่อถือได้ในขณะที่รักษาสมดุลความถูกต้องทางสถิติ
featured image - Spotify's Secret to Smarter A / B Testing (เคล็ดลับ: มันไม่ได้เป็นเพียงสถิติ)
AB Test HackerNoon profile picture
0-item

ผู้เขียน:

(1) Mårten Schultzberg, Experimentation Platform team, Spotify, Stockholm, Sweden;

(2) Sebastian Ankargren, Experimentation Platform team, Spotify, Stockholm, Sweden;

(3) Mattias Frånberg, Experimentation Platform team, Spotify, Stockholm, Sweden.

ผู้เขียน:

ผู้เขียน:

(1) Mårten Schultzberg, ทีมแพลตฟอร์มการทดลอง, Spotify, Stockholm, Sweden;

(2) Sebastian Ankargren, ทีมแพลตฟอร์มการทดลอง, Spotify, Stockholm, Sweden;

(3) Mattias Frånberg, ทีมแพลตฟอร์มการทดลอง, Spotify, Stockholm, Sweden.

ตารางของลิงค์

Abstract และ 1 บทนํา

Abstract และ 1 บทนํา

1.1 จิตวิทยาที่เกี่ยวข้อง

1.1 หนังสือเล่มที่เกี่ยวข้องวัตถุประสงค์ของหลักสูตรนี้จะถูกนํามาใช้เพื่อให้แน่ใจว่าคุณจะได้รับผลตอบแทนจากหลักสูตรนี้โดยเฉพาะอย่างยิ่งในกรณีที่คุณจะได้รับผลตอบแทนจากหลักสูตรนี้โดยเฉพาะอย่างยิ่งในกรณีที่คุณจะได้รับผลตอบแทนจากหลักสูตรนี้โดยเฉพาะอย่างยิ่งในกรณีที่คุณได้รับผลตอบแทนจากหลักสูตรนี้โดยเฉพาะอย่างยิ่งในกรณีที่คุณได้รับผลตอบแทนจากหลักสูตรนี้โดยเฉพาะอย่างยิ่งในกรณีที่คุณได้รับผลตอบแทนจากหลักสูตรนี้โดยเฉพาะอย่างยิ่งในกรณีที่คุณได้รับผลตอบแทนจากหลักสูตรนี้โดยเฉพาะอย่างยิ่งในกรณีที่คุณได้รับผลตอบแทนจากหลักสูตรนี้โดยเฉพาะอย่างยิ่งในกรณีที่คุณได้รับผลตอบแทนจากหลักสูตรนี้
  • ประเภทของเครื่องวัดและ hypothesis ของพวกเขาและ 2.1 ประเภทของเครื่องวัด

    2.2 ประเภทของเครื่องวัด

  • ประเภทของเครื่องวัดและ hypothesis ของพวกเขาและ 2.1 ประเภทของเครื่องวัด

    ประเภทของเครื่องวัดและ hypothesis ของพวกเขาและ 2.1 ประเภทของเครื่องวัด

    2.2 ความคิดสําหรับประเภทที่แตกต่างกันของการวัด

    2.2 ความคิดสําหรับประเภทที่แตกต่างกันของวัด

    ประเภท I และประเภท II อัตราข้อผิดพลาดสําหรับกฎการตัดสินใจรวมถึงการทดสอบความเหนือกว่าและไม่เหนือกว่า

    3.1 ประเภท I และ II อัตราข้อผิดพลาดสําหรับการทดสอบ UI และ IU

    อัตราข้อผิดพลาดประเภท I และประเภท II สําหรับกฎการตัดสินใจรวมถึงการทดสอบความเหนือกว่าและไม่เหนือกว่า


    อัตราข้อผิดพลาดประเภท I และประเภท II สําหรับกฎการตัดสินใจรวมถึงการทดสอบความเหนือกว่าและไม่เหนือกว่า

    3.1 การทดสอบความเหนือกว่าและไม่เหนือกว่า3.1 การทดสอบความเหนือกว่าและ non-inferiority

    3.2 การ จํากัด อัตราข้อผิดพลาดประเภท I และประเภท II สําหรับการทดสอบ UI และ IU

    3.2 การ จํากัด อัตราข้อผิดพลาดประเภท I และประเภท II สําหรับการทดสอบ UI และ IU

    3.3 การ จํากัด อัตราความผิดพลาดสําหรับกฎการตัดสินใจรวมทั้งการประสบความสําเร็จและวัดการป้องกัน

    3.3 การ จํากัด อัตราข้อผิดพลาดสําหรับกฎการตัดสินใจรวมทั้งการประสบความสําเร็จและการวัดการป้องกัน

    3.4 แก้ไขพลังงานสําหรับการทดสอบไม่ต่ําสุด

    3.4 แก้ไขพลังงานสําหรับการทดสอบไม่ต่ําสุด
  • ขยายกฎการตัดสินใจด้วยความเสียหายและมาตรฐานคุณภาพ

  • ขยายกฎการตัดสินใจด้วยความเสียหายและมาตรฐานคุณภาพ

    ขยายกฎการตัดสินใจด้วยความเสียหายและมาตรฐานคุณภาพ
  • Monte Carlo Simulation Study

    5.1 ผล

  • การศึกษาการจําลอง Monte Carlo

    Monte Carlo Simulation Study

    5.1 ผล

    5.1 ผลลัพธ์
  • การสนทนาและข้อสรุป

  • คําพูดและข้อสรุป

    การสนทนาและข้อสรุป


    APPENDIX A: ปรับปรุงประสิทธิภาพของข้อเสนอ 4.1 ด้วยข้อสงสัยเพิ่มเติม

    APPENDIX A:APPENDIX A: ปรับปรุงประสิทธิภาพของข้อเสนอ 4.1 พร้อมข้อสงสัยเพิ่มเติม

    APPENDIX B: ตัวอย่างของ Global FALSE และ TRUE POSITIVE RATES

    APPENDIX B:APPENDIX B: ตัวอย่างของข้อผิดพลาดทั่วโลกและข้อดีจริง

    APPENDIX C: หมายเหตุเกี่ยวกับการทดสอบความเสียหายต่อเนื่อง

    APPENDIX C:APPENDIX C: หมายเหตุเกี่ยวกับการทดสอบความเสียหายต่อเนื่อง

    APPENDIX D:ใช้วิธีการ NYHOLT ของมีประสิทธิภาพจํานวนของการทดสอบอิสระ

    APPENDIX D:APPENDIX D: การใช้วิธีการ NYHOLT ของจํานวนการทดสอบที่เป็นอิสระที่มีประสิทธิภาพ


    การรับรองและการอ้างอิง

    การรับรองและการอ้างอิง


    ในช่วงทศวรรษที่ผ่านมาการทดสอบ A / B ได้กลายเป็นวิธีการมาตรฐานสําหรับการตัดสินใจผลิตภัณฑ์ใน บริษัท เทคโนโลยี พวกเขามีวิธีการทางวิทยาศาสตร์ในการพัฒนาผลิตภัณฑ์โดยใช้การทดสอบ hypothesis สถิติเพื่อควบคุมความเสี่ยงของการตัดสินใจที่ไม่ถูกต้อง โดยปกติแล้วการวัดหลายตัวจะใช้ในการทดสอบ A / B เพื่อให้บริการวัตถุประสงค์ที่แตกต่างกันเช่นการสร้างหลักฐานความสําเร็จป้องกันการล้มเหลวหรือการตรวจสอบความถูกต้องของการทดสอบ เพื่อลดความเสี่ยงในการทดสอบ A / B ที่มีผลลัพธ์หลายตัวจึงเป็นสิ่งสําคัญที่จะปรับการออกแบบและการวิเคราะห์ให้เข้ากับบทบาทที่แตกต่างกันของผลลัพธ์เหล่านี้ กระดาษนี้แนะนําโครงสร้างพื้นฐานทางทฤษฎีสําหรับกฎการตัดสินใจที่แนะนําการประเมินการทดสอบที่ Spotify ครั้งแรกเราแสดงให้เห็นว่าถ้ามีการใช้วัดการป้องกันที่มีการทดสอบ abstract

    1 บทนํา

    การทดลองแบบสุ่มเป็นมาตรฐานทองคําในการให้หลักฐานเกี่ยวกับความสัมพันธ์ทางสาเหตุ บริษัท เทคโนโลยีที่ทันสมัยใช้การทดสอบ A / B, การทดลองแบบสุ่มควบคุมในสภาพแวดล้อมดิจิตอล, เพื่อประเมินประสิทธิภาพของการเปลี่ยนแปลงใหม่ให้กับผลิตภัณฑ์ของพวกเขา ผลิตภัณฑ์เหล่านี้รวมถึงแอปการแชร์การเดินทางเครื่องมือค้นหาบริการสตรีมมิ่งคําแนะนําและอื่น ๆ ในที่สุดเป้าหมายของการทดลองเหล่านี้คือการตัดสินใจว่าควรเปิดเผยการเปลี่ยนแปลงผลิตภัณฑ์ได้หรือไม่


    ส่วนใหญ่ของคณิตศาสตร์เกี่ยวกับการสรุปสถิติสําหรับการทดลองแบบสุ่มมุ่งเน้นไปที่การทดสอบ hypothesis เดียวของผลลัพธ์เดียวและวิธีการเชื่อมโยงอัตราข้อผิดพลาดประเภท I และประเภท II สําหรับการทดสอบนั้น อย่างไรก็ตามการทดลองไม่ได้เป็นการทดสอบแบบสุ่มของผลลัพธ์ที่แยกต่างหาก แทนที่ความเสี่ยงที่สําคัญคือความเสี่ยงของการตัดสินใจที่ไม่ถูกต้องสําหรับผลิตภัณฑ์ ตัวอย่างเช่นใน บริษัท เทคโนโลยีเช่น Spotify เราต้องการ จํากัด บ่อยครั้งที่เราเผยแพร่การเปลี่ยนแปลงผลิตภัณฑ์ที่แสดงให้เห็นถึงการปรับปรุงเมื่อไม่มีการปรับปรุงและบ่อยครั้งที่เราไม่เผยแพร่การเปลี่ยนแปลงที่นําไปสู่การปรับปรุง แต่เราไม่สามารถหา การตัดสินใจประเภทเหล่านี้มักรวมถึงผลลัพธ์จากการทดสอบ hypothesis หลายอย่าง การทดลองมักเกี่ยวข้อง


    ในวรรณกรรมการทดลองออนไลน์แง่มุมเดียวของการตัดสินใจหลายทดสอบที่ครอบคลุมอย่างกว้างขวางคือการแก้ไขการทดสอบหลายตัว การแก้ไขการทดสอบหลายตัวเช่น Bonferroni, Holm [7] และ Hommel [8] มีข้อ จํากัด อัตราความผิดพลาดประเภท I ของกฎการตัดสินใจแบบอ้างอิงที่ประกาศว่าคุณจะตัดสินใจตามผลการทดสอบ hypothesis ส่วนบุคคล ดังที่เราจะกล่าวถึงอย่างกว้างขวางในบทความนี้หากกฎการตัดสินใจที่คุณต้องการไม่ตรงกับกฎที่อ้างอิงโดยการแก้ไขการทดสอบหลายตัวก็มักจะไม่ถูกต้อง


    ในบทความนี้เราแสดงให้เห็นว่ามันเป็นไปได้ที่จะจัดระเบียบกระบวนการตัดสินใจของการทดลองโดยไม่ต้องออกจากกรอบการทดสอบ hypothesis มาตรฐาน คีย์เพื่อให้แน่ใจว่าคุณได้รับขีด จํากัด ความเสี่ยงที่ต้องการสําหรับการตัดสินใจผลิตภัณฑ์คือการระบุกฎการตัดสินใจอย่างชัดเจน กฎการตัดสินใจกําหนดอย่างเต็มที่ว่าคุณจะตัดสินใจผลิตภัณฑ์ใดขึ้นอยู่กับผลการทดลองของคุณ สิ่งสําคัญคือเพื่อเชื่อมโยงความเสี่ยงของการตัดสินใจผิดการออกแบบและการวิเคราะห์การทดลองของคุณต้องตรงกับกฎการตัดสินใจอย่างใกล้ชิด


    การอธิบายกฎการตัดสินใจมีความสําคัญเนื่องจากหลายเหตุผล การไม่ชัดเจนเกี่ยวกับผลลัพธ์ใดที่นําไปสู่การตัดสินใจผลิตภัณฑ์เชิงบวกหมายความว่าไม่มีกลไกในการควบคุมความเสี่ยงของการทดลองอย่างถูกต้องในระดับที่สําคัญกับ บริษัท คือการตัดสินใจที่จะส่งคุณลักษณะหรือไม่ นอกจากนี้การขาดกฎการตัดสินใจที่อธิบายและมาตรฐานอาจหมายความว่าทีมงานหรือส่วนต่าง ๆ ขององค์กรจะยึดมั่นในมาตรฐานที่แตกต่างกัน กรอบกฎการตัดสินใจของเราเป็นวิธีการที่เรียบง่าย แต่มีประสิทธิภาพในการต่อสู้กับปัญหาเหล่านี้


    กรอบกฎการตัดสินใจช่วยมาตรฐานการวิเคราะห์การทดลองและเป็นเครื่องมือที่มีประโยชน์สําหรับแพลตฟอร์มการทดลอง สิ่งที่กฎการตัดสินใจรวมสามารถทําให้มีความยืดหยุ่นมากขึ้นหรือน้อยลง ตัวอย่างเช่นการทดลองใหม่สามารถบังคับให้พิสูจน์ให้เห็นว่าเมตริกของ บริษัท ที่สําคัญไม่ได้รับผลกระทบเชิงลบในขณะที่เลือกชุดของเมตริกที่ควรแสดงให้เห็นถึงการปรับปรุงนั้นขึ้นอยู่กับผู้ทดลอง แม้ว่าการเลือกเมตริกจะผิดปกติอย่างสมบูรณ์โดยไม่มีเมตริกที่กําหนดโดยแพลตฟอร์มวิธีการกฎการตัดสินใจจะส่งเสริมความเข้าใจร่วมกันเกี่ยวกับสิ่งที่เป็นการทดลองที่ประสบความสําเร็จ


    ตลอดกระดาษนี้และโดยไม่ต้องสูญเสียความสม่ําเสมอเราจะพิจารณาการทดลองที่มีสองกลุ่มเพื่อความง่ายดายในการหมายเลข นอกจากนี้เรายังพิจารณาการทดลองแบบหนึ่งด้านเท่านั้น แม้ว่าการทดลองแบบหนึ่งด้านอาจใช้กับแต่ละเมตริก เรา จํากัด ตัวเราเองให้การทดลองแบบหนึ่งด้านเนื่องจากต้องมีทิศทางที่ต้องการสําหรับการเปลี่ยนแปลงในเมตริกเพื่อให้สามารถวัดการปรับปรุงผลิตภัณฑ์ได้ สําหรับความง่ายดายเราคิดว่าเมตริกทั้งหมดจะปรับปรุงเมื่อเพิ่มขึ้น นอกจากนี้เรายังพิจารณาว่าการทดสอบการคาดการณ์ทางสถิติแต่ละแบบมีผลบังคับและบรรลุอัตราความผิดพลาดประเภท I และประเภท II โดยเฉพาะอย่างยิ่งหากการทดลองได้รับการออกแบบอย่างเหมาะสม


    บทความนี้เป็น สามารถใช้ได้ใน arxiv ภายใต้ใบอนุญาต CC BY 4.0 DEED

    บทความนี้เป็น สามารถใช้ได้ใน arxiv ภายใต้ใบอนุญาต CC BY 4.0 DEED

    สามารถใช้ได้ใน arxivสามารถใช้ได้ใน arxiv


    Trending Topics

    blockchaincryptocurrencyhackernoon-top-storyprogrammingsoftware-developmenttechnologystartuphackernoon-booksBitcoinbooks