Spotify's Secret to Smarter A / B Testing (เคล็ดลับ: มันไม่ได้เป็นเพียงสถิติ)

ผู้เขียน:

(1) Mårten Schultzberg, Experimentation Platform team, Spotify, Stockholm, Sweden;

(2) Sebastian Ankargren, Experimentation Platform team, Spotify, Stockholm, Sweden;

(3) Mattias Frånberg, Experimentation Platform team, Spotify, Stockholm, Sweden.

ผู้เขียน:

(1) Mårten Schultzberg, ทีมแพลตฟอร์มการทดลอง, Spotify, Stockholm, Sweden;

(2) Sebastian Ankargren, ทีมแพลตฟอร์มการทดลอง, Spotify, Stockholm, Sweden;

(3) Mattias Frånberg, ทีมแพลตฟอร์มการทดลอง, Spotify, Stockholm, Sweden.

ตารางของลิงค์

Abstract และ 1 บทนํา

1.1 จิตวิทยาที่เกี่ยวข้อง

1.1 หนังสือเล่มที่เกี่ยวข้องวัตถุประสงค์ของหลักสูตรนี้จะถูกนํามาใช้เพื่อให้แน่ใจว่าคุณจะได้รับผลตอบแทนจากหลักสูตรนี้โดยเฉพาะอย่างยิ่งในกรณีที่คุณจะได้รับผลตอบแทนจากหลักสูตรนี้โดยเฉพาะอย่างยิ่งในกรณีที่คุณจะได้รับผลตอบแทนจากหลักสูตรนี้โดยเฉพาะอย่างยิ่งในกรณีที่คุณได้รับผลตอบแทนจากหลักสูตรนี้โดยเฉพาะอย่างยิ่งในกรณีที่คุณได้รับผลตอบแทนจากหลักสูตรนี้โดยเฉพาะอย่างยิ่งในกรณีที่คุณได้รับผลตอบแทนจากหลักสูตรนี้โดยเฉพาะอย่างยิ่งในกรณีที่คุณได้รับผลตอบแทนจากหลักสูตรนี้โดยเฉพาะอย่างยิ่งในกรณีที่คุณได้รับผลตอบแทนจากหลักสูตรนี้โดยเฉพาะอย่างยิ่งในกรณีที่คุณได้รับผลตอบแทนจากหลักสูตรนี้

ประเภทของเครื่องวัดและ hypothesis ของพวกเขาและ 2.1 ประเภทของเครื่องวัด

2.2 ประเภทของเครื่องวัด

ประเภทของเครื่องวัดและ hypothesis ของพวกเขาและ 2.1 ประเภทของเครื่องวัด

2.2 ความคิดสําหรับประเภทที่แตกต่างกันของการวัด

2.2 ความคิดสําหรับประเภทที่แตกต่างกันของวัด
ประเภท I และประเภท II อัตราข้อผิดพลาดสําหรับกฎการตัดสินใจรวมถึงการทดสอบความเหนือกว่าและไม่เหนือกว่า

3.1 ประเภท I และ II อัตราข้อผิดพลาดสําหรับการทดสอบ UI และ IU
อัตราข้อผิดพลาดประเภท I และประเภท II สําหรับกฎการตัดสินใจรวมถึงการทดสอบความเหนือกว่าและไม่เหนือกว่า

อัตราข้อผิดพลาดประเภท I และประเภท II สําหรับกฎการตัดสินใจรวมถึงการทดสอบความเหนือกว่าและไม่เหนือกว่า
3.1 การทดสอบความเหนือกว่าและไม่เหนือกว่า 3.1 การทดสอบความเหนือกว่าและ non-inferiority
3.2 การ จํากัด อัตราข้อผิดพลาดประเภท I และประเภท II สําหรับการทดสอบ UI และ IU
3.2 การ จํากัด อัตราข้อผิดพลาดประเภท I และประเภท II สําหรับการทดสอบ UI และ IU
3.3 การ จํากัด อัตราความผิดพลาดสําหรับกฎการตัดสินใจรวมทั้งการประสบความสําเร็จและวัดการป้องกัน
3.3 การ จํากัด อัตราข้อผิดพลาดสําหรับกฎการตัดสินใจรวมทั้งการประสบความสําเร็จและการวัดการป้องกัน
3.4 แก้ไขพลังงานสําหรับการทดสอบไม่ต่ําสุด
3.4 แก้ไขพลังงานสําหรับการทดสอบไม่ต่ําสุด

ขยายกฎการตัดสินใจด้วยความเสียหายและมาตรฐานคุณภาพ

ขยายกฎการตัดสินใจด้วยความเสียหายและมาตรฐานคุณภาพ
ขยายกฎการตัดสินใจด้วยความเสียหายและมาตรฐานคุณภาพ

Monte Carlo Simulation Study

5.1 ผล

การศึกษาการจําลอง Monte Carlo
Monte Carlo Simulation Study
5.1 ผล
5.1 ผลลัพธ์

การสนทนาและข้อสรุป

คําพูดและข้อสรุป
การสนทนาและข้อสรุป

APPENDIX A: ปรับปรุงประสิทธิภาพของข้อเสนอ 4.1 ด้วยข้อสงสัยเพิ่มเติม
APPENDIX A:APPENDIX A: ปรับปรุงประสิทธิภาพของข้อเสนอ 4.1 พร้อมข้อสงสัยเพิ่มเติม
APPENDIX B: ตัวอย่างของ Global FALSE และ TRUE POSITIVE RATES
APPENDIX B:APPENDIX B: ตัวอย่างของข้อผิดพลาดทั่วโลกและข้อดีจริง
APPENDIX C: หมายเหตุเกี่ยวกับการทดสอบความเสียหายต่อเนื่อง
APPENDIX C:APPENDIX C: หมายเหตุเกี่ยวกับการทดสอบความเสียหายต่อเนื่อง
APPENDIX D:ใช้วิธีการ NYHOLT ของมีประสิทธิภาพจํานวนของการทดสอบอิสระ
APPENDIX D:APPENDIX D: การใช้วิธีการ NYHOLT ของจํานวนการทดสอบที่เป็นอิสระที่มีประสิทธิภาพ

การรับรองและการอ้างอิง
การรับรองและการอ้างอิง

ในช่วงทศวรรษที่ผ่านมาการทดสอบ A / B ได้กลายเป็นวิธีการมาตรฐานสําหรับการตัดสินใจผลิตภัณฑ์ใน บริษัท เทคโนโลยี พวกเขามีวิธีการทางวิทยาศาสตร์ในการพัฒนาผลิตภัณฑ์โดยใช้การทดสอบ hypothesis สถิติเพื่อควบคุมความเสี่ยงของการตัดสินใจที่ไม่ถูกต้อง โดยปกติแล้วการวัดหลายตัวจะใช้ในการทดสอบ A / B เพื่อให้บริการวัตถุประสงค์ที่แตกต่างกันเช่นการสร้างหลักฐานความสําเร็จป้องกันการล้มเหลวหรือการตรวจสอบความถูกต้องของการทดสอบ เพื่อลดความเสี่ยงในการทดสอบ A / B ที่มีผลลัพธ์หลายตัวจึงเป็นสิ่งสําคัญที่จะปรับการออกแบบและการวิเคราะห์ให้เข้ากับบทบาทที่แตกต่างกันของผลลัพธ์เหล่านี้ กระดาษนี้แนะนําโครงสร้างพื้นฐานทางทฤษฎีสําหรับกฎการตัดสินใจที่แนะนําการประเมินการทดสอบที่ Spotify ครั้งแรกเราแสดงให้เห็นว่าถ้ามีการใช้วัดการป้องกันที่มีการทดสอบ abstract
1 บทนํา
การทดลองแบบสุ่มเป็นมาตรฐานทองคําในการให้หลักฐานเกี่ยวกับความสัมพันธ์ทางสาเหตุ บริษัท เทคโนโลยีที่ทันสมัยใช้การทดสอบ A / B, การทดลองแบบสุ่มควบคุมในสภาพแวดล้อมดิจิตอล, เพื่อประเมินประสิทธิภาพของการเปลี่ยนแปลงใหม่ให้กับผลิตภัณฑ์ของพวกเขา ผลิตภัณฑ์เหล่านี้รวมถึงแอปการแชร์การเดินทางเครื่องมือค้นหาบริการสตรีมมิ่งคําแนะนําและอื่น ๆ ในที่สุดเป้าหมายของการทดลองเหล่านี้คือการตัดสินใจว่าควรเปิดเผยการเปลี่ยนแปลงผลิตภัณฑ์ได้หรือไม่

ส่วนใหญ่ของคณิตศาสตร์เกี่ยวกับการสรุปสถิติสําหรับการทดลองแบบสุ่มมุ่งเน้นไปที่การทดสอบ hypothesis เดียวของผลลัพธ์เดียวและวิธีการเชื่อมโยงอัตราข้อผิดพลาดประเภท I และประเภท II สําหรับการทดสอบนั้น อย่างไรก็ตามการทดลองไม่ได้เป็นการทดสอบแบบสุ่มของผลลัพธ์ที่แยกต่างหาก แทนที่ความเสี่ยงที่สําคัญคือความเสี่ยงของการตัดสินใจที่ไม่ถูกต้องสําหรับผลิตภัณฑ์ ตัวอย่างเช่นใน บริษัท เทคโนโลยีเช่น Spotify เราต้องการ จํากัด บ่อยครั้งที่เราเผยแพร่การเปลี่ยนแปลงผลิตภัณฑ์ที่แสดงให้เห็นถึงการปรับปรุงเมื่อไม่มีการปรับปรุงและบ่อยครั้งที่เราไม่เผยแพร่การเปลี่ยนแปลงที่นําไปสู่การปรับปรุง แต่เราไม่สามารถหา การตัดสินใจประเภทเหล่านี้มักรวมถึงผลลัพธ์จากการทดสอบ hypothesis หลายอย่าง การทดลองมักเกี่ยวข้อง

ในวรรณกรรมการทดลองออนไลน์แง่มุมเดียวของการตัดสินใจหลายทดสอบที่ครอบคลุมอย่างกว้างขวางคือการแก้ไขการทดสอบหลายตัว การแก้ไขการทดสอบหลายตัวเช่น Bonferroni, Holm [7] และ Hommel [8] มีข้อ จํากัด อัตราความผิดพลาดประเภท I ของกฎการตัดสินใจแบบอ้างอิงที่ประกาศว่าคุณจะตัดสินใจตามผลการทดสอบ hypothesis ส่วนบุคคล ดังที่เราจะกล่าวถึงอย่างกว้างขวางในบทความนี้หากกฎการตัดสินใจที่คุณต้องการไม่ตรงกับกฎที่อ้างอิงโดยการแก้ไขการทดสอบหลายตัวก็มักจะไม่ถูกต้อง

ในบทความนี้เราแสดงให้เห็นว่ามันเป็นไปได้ที่จะจัดระเบียบกระบวนการตัดสินใจของการทดลองโดยไม่ต้องออกจากกรอบการทดสอบ hypothesis มาตรฐาน คีย์เพื่อให้แน่ใจว่าคุณได้รับขีด จํากัด ความเสี่ยงที่ต้องการสําหรับการตัดสินใจผลิตภัณฑ์คือการระบุกฎการตัดสินใจอย่างชัดเจน กฎการตัดสินใจกําหนดอย่างเต็มที่ว่าคุณจะตัดสินใจผลิตภัณฑ์ใดขึ้นอยู่กับผลการทดลองของคุณ สิ่งสําคัญคือเพื่อเชื่อมโยงความเสี่ยงของการตัดสินใจผิดการออกแบบและการวิเคราะห์การทดลองของคุณต้องตรงกับกฎการตัดสินใจอย่างใกล้ชิด

การอธิบายกฎการตัดสินใจมีความสําคัญเนื่องจากหลายเหตุผล การไม่ชัดเจนเกี่ยวกับผลลัพธ์ใดที่นําไปสู่การตัดสินใจผลิตภัณฑ์เชิงบวกหมายความว่าไม่มีกลไกในการควบคุมความเสี่ยงของการทดลองอย่างถูกต้องในระดับที่สําคัญกับ บริษัท คือการตัดสินใจที่จะส่งคุณลักษณะหรือไม่ นอกจากนี้การขาดกฎการตัดสินใจที่อธิบายและมาตรฐานอาจหมายความว่าทีมงานหรือส่วนต่าง ๆ ขององค์กรจะยึดมั่นในมาตรฐานที่แตกต่างกัน กรอบกฎการตัดสินใจของเราเป็นวิธีการที่เรียบง่าย แต่มีประสิทธิภาพในการต่อสู้กับปัญหาเหล่านี้

กรอบกฎการตัดสินใจช่วยมาตรฐานการวิเคราะห์การทดลองและเป็นเครื่องมือที่มีประโยชน์สําหรับแพลตฟอร์มการทดลอง สิ่งที่กฎการตัดสินใจรวมสามารถทําให้มีความยืดหยุ่นมากขึ้นหรือน้อยลง ตัวอย่างเช่นการทดลองใหม่สามารถบังคับให้พิสูจน์ให้เห็นว่าเมตริกของ บริษัท ที่สําคัญไม่ได้รับผลกระทบเชิงลบในขณะที่เลือกชุดของเมตริกที่ควรแสดงให้เห็นถึงการปรับปรุงนั้นขึ้นอยู่กับผู้ทดลอง แม้ว่าการเลือกเมตริกจะผิดปกติอย่างสมบูรณ์โดยไม่มีเมตริกที่กําหนดโดยแพลตฟอร์มวิธีการกฎการตัดสินใจจะส่งเสริมความเข้าใจร่วมกันเกี่ยวกับสิ่งที่เป็นการทดลองที่ประสบความสําเร็จ

ตลอดกระดาษนี้และโดยไม่ต้องสูญเสียความสม่ําเสมอเราจะพิจารณาการทดลองที่มีสองกลุ่มเพื่อความง่ายดายในการหมายเลข นอกจากนี้เรายังพิจารณาการทดลองแบบหนึ่งด้านเท่านั้น แม้ว่าการทดลองแบบหนึ่งด้านอาจใช้กับแต่ละเมตริก เรา จํากัด ตัวเราเองให้การทดลองแบบหนึ่งด้านเนื่องจากต้องมีทิศทางที่ต้องการสําหรับการเปลี่ยนแปลงในเมตริกเพื่อให้สามารถวัดการปรับปรุงผลิตภัณฑ์ได้ สําหรับความง่ายดายเราคิดว่าเมตริกทั้งหมดจะปรับปรุงเมื่อเพิ่มขึ้น นอกจากนี้เรายังพิจารณาว่าการทดสอบการคาดการณ์ทางสถิติแต่ละแบบมีผลบังคับและบรรลุอัตราความผิดพลาดประเภท I และประเภท II โดยเฉพาะอย่างยิ่งหากการทดลองได้รับการออกแบบอย่างเหมาะสม

บทความนี้เป็น สามารถใช้ได้ใน arxiv ภายใต้ใบอนุญาต CC BY 4.0 DEED

บทความนี้เป็น สามารถใช้ได้ใน arxiv ภายใต้ใบอนุญาต CC BY 4.0 DEED
สามารถใช้ได้ใน arxivสามารถใช้ได้ใน arxiv

Spotify's Secret to Smarter A / B Testing (เคล็ดลับ: มันไม่ได้เป็นเพียงสถิติ)

นานเกินไป; อ่าน

ตารางของลิงค์

1 บทนํา

About Author

แขวนแท็ก

บทความนี้ถูกนำเสนอใน...

Categories

Trending Topics

Spotify's Secret to Smarter A / B Testing (เคล็ดลับ: มันไม่ได้เป็นเพียงสถิติ)

นานเกินไป; อ่าน

ตารางของลิงค์

1 บทนํา

About Author

แขวนแท็ก

บทความนี้ถูกนำเสนอใน...

เรื่องราวที่เกี่ยวข้อง

Categories

Trending Topics