ผู้เขียน:
(1) Mårten Schultzberg, Experimentation Platform team, Spotify, Stockholm, Sweden;
(2) Sebastian Ankargren, Experimentation Platform team, Spotify, Stockholm, Sweden;
(3) Mattias Frånberg, Experimentation Platform team, Spotify, Stockholm, Sweden.
ผู้เขียน:
ผู้เขียน:(1) Mårten Schultzberg, ทีมแพลตฟอร์มการทดลอง, Spotify, Stockholm, Sweden;
(2) Sebastian Ankargren, ทีมแพลตฟอร์มการทดลอง, Spotify, Stockholm, Sweden;
(3) Mattias Frånberg, ทีมแพลตฟอร์มการทดลอง, Spotify, Stockholm, Sweden.
ตารางของลิงค์
Abstract และ 1 บทนํา1.1 หนังสือเล่มที่เกี่ยวข้องวัตถุประสงค์ของหลักสูตรนี้จะถูกนํามาใช้เพื่อให้แน่ใจว่าคุณจะได้รับผลตอบแทนจากหลักสูตรนี้โดยเฉพาะอย่างยิ่งในกรณีที่คุณจะได้รับผลตอบแทนจากหลักสูตรนี้โดยเฉพาะอย่างยิ่งในกรณีที่คุณจะได้รับผลตอบแทนจากหลักสูตรนี้โดยเฉพาะอย่างยิ่งในกรณีที่คุณได้รับผลตอบแทนจากหลักสูตรนี้โดยเฉพาะอย่างยิ่งในกรณีที่คุณได้รับผลตอบแทนจากหลักสูตรนี้โดยเฉพาะอย่างยิ่งในกรณีที่คุณได้รับผลตอบแทนจากหลักสูตรนี้โดยเฉพาะอย่างยิ่งในกรณีที่คุณได้รับผลตอบแทนจากหลักสูตรนี้โดยเฉพาะอย่างยิ่งในกรณีที่คุณได้รับผลตอบแทนจากหลักสูตรนี้โดยเฉพาะอย่างยิ่งในกรณีที่คุณได้รับผลตอบแทนจากหลักสูตรนี้ประเภทของเครื่องวัดและ hypothesis ของพวกเขาและ 2.1 ประเภทของเครื่องวัด
ประเภทของเครื่องวัดและ hypothesis ของพวกเขาและ 2.1 ประเภทของเครื่องวัด
ประเภทของเครื่องวัดและ hypothesis ของพวกเขาและ 2.1 ประเภทของเครื่องวัด2.2 ความคิดสําหรับประเภทที่แตกต่างกันของการวัด
2.2 ความคิดสําหรับประเภทที่แตกต่างกันของวัดประเภท I และประเภท II อัตราข้อผิดพลาดสําหรับกฎการตัดสินใจรวมถึงการทดสอบความเหนือกว่าและไม่เหนือกว่า
3.1 ประเภท I และ II อัตราข้อผิดพลาดสําหรับการทดสอบ UI และ IU
อัตราข้อผิดพลาดประเภท I และประเภท II สําหรับกฎการตัดสินใจรวมถึงการทดสอบความเหนือกว่าและไม่เหนือกว่า
3.1 การทดสอบความเหนือกว่าและไม่เหนือกว่า3.1 การทดสอบความเหนือกว่าและ non-inferiority 3.2 การ จํากัด อัตราข้อผิดพลาดประเภท I และประเภท II สําหรับการทดสอบ UI และ IU
3.3 การ จํากัด อัตราความผิดพลาดสําหรับกฎการตัดสินใจรวมทั้งการประสบความสําเร็จและวัดการป้องกัน
3.3 การ จํากัด อัตราข้อผิดพลาดสําหรับกฎการตัดสินใจรวมทั้งการประสบความสําเร็จและการวัดการป้องกัน3.4 แก้ไขพลังงานสําหรับการทดสอบไม่ต่ําสุด
3.4 แก้ไขพลังงานสําหรับการทดสอบไม่ต่ําสุดขยายกฎการตัดสินใจด้วยความเสียหายและมาตรฐานคุณภาพ
ขยายกฎการตัดสินใจด้วยความเสียหายและมาตรฐานคุณภาพ
APPENDIX A: ปรับปรุงประสิทธิภาพของข้อเสนอ 4.1 ด้วยข้อสงสัยเพิ่มเติม
APPENDIX A:APPENDIX A: ปรับปรุงประสิทธิภาพของข้อเสนอ 4.1 พร้อมข้อสงสัยเพิ่มเติมAPPENDIX B: ตัวอย่างของ Global FALSE และ TRUE POSITIVE RATES
APPENDIX B:APPENDIX B: ตัวอย่างของข้อผิดพลาดทั่วโลกและข้อดีจริงAPPENDIX C: หมายเหตุเกี่ยวกับการทดสอบความเสียหายต่อเนื่อง
APPENDIX C:APPENDIX C: หมายเหตุเกี่ยวกับการทดสอบความเสียหายต่อเนื่องAPPENDIX D:ใช้วิธีการ NYHOLT ของมีประสิทธิภาพจํานวนของการทดสอบอิสระ
APPENDIX D:APPENDIX D: การใช้วิธีการ NYHOLT ของจํานวนการทดสอบที่เป็นอิสระที่มีประสิทธิภาพ
1 บทนํา
การทดลองแบบสุ่มเป็นมาตรฐานทองคําในการให้หลักฐานเกี่ยวกับความสัมพันธ์ทางสาเหตุ บริษัท เทคโนโลยีที่ทันสมัยใช้การทดสอบ A / B, การทดลองแบบสุ่มควบคุมในสภาพแวดล้อมดิจิตอล, เพื่อประเมินประสิทธิภาพของการเปลี่ยนแปลงใหม่ให้กับผลิตภัณฑ์ของพวกเขา ผลิตภัณฑ์เหล่านี้รวมถึงแอปการแชร์การเดินทางเครื่องมือค้นหาบริการสตรีมมิ่งคําแนะนําและอื่น ๆ ในที่สุดเป้าหมายของการทดลองเหล่านี้คือการตัดสินใจว่าควรเปิดเผยการเปลี่ยนแปลงผลิตภัณฑ์ได้หรือไม่
ส่วนใหญ่ของคณิตศาสตร์เกี่ยวกับการสรุปสถิติสําหรับการทดลองแบบสุ่มมุ่งเน้นไปที่การทดสอบ hypothesis เดียวของผลลัพธ์เดียวและวิธีการเชื่อมโยงอัตราข้อผิดพลาดประเภท I และประเภท II สําหรับการทดสอบนั้น อย่างไรก็ตามการทดลองไม่ได้เป็นการทดสอบแบบสุ่มของผลลัพธ์ที่แยกต่างหาก แทนที่ความเสี่ยงที่สําคัญคือความเสี่ยงของการตัดสินใจที่ไม่ถูกต้องสําหรับผลิตภัณฑ์ ตัวอย่างเช่นใน บริษัท เทคโนโลยีเช่น Spotify เราต้องการ จํากัด บ่อยครั้งที่เราเผยแพร่การเปลี่ยนแปลงผลิตภัณฑ์ที่แสดงให้เห็นถึงการปรับปรุงเมื่อไม่มีการปรับปรุงและบ่อยครั้งที่เราไม่เผยแพร่การเปลี่ยนแปลงที่นําไปสู่การปรับปรุง แต่เราไม่สามารถหา การตัดสินใจประเภทเหล่านี้มักรวมถึงผลลัพธ์จากการทดสอบ hypothesis หลายอย่าง การทดลองมักเกี่ยวข้อง
ในวรรณกรรมการทดลองออนไลน์แง่มุมเดียวของการตัดสินใจหลายทดสอบที่ครอบคลุมอย่างกว้างขวางคือการแก้ไขการทดสอบหลายตัว การแก้ไขการทดสอบหลายตัวเช่น Bonferroni, Holm [7] และ Hommel [8] มีข้อ จํากัด อัตราความผิดพลาดประเภท I ของกฎการตัดสินใจแบบอ้างอิงที่ประกาศว่าคุณจะตัดสินใจตามผลการทดสอบ hypothesis ส่วนบุคคล ดังที่เราจะกล่าวถึงอย่างกว้างขวางในบทความนี้หากกฎการตัดสินใจที่คุณต้องการไม่ตรงกับกฎที่อ้างอิงโดยการแก้ไขการทดสอบหลายตัวก็มักจะไม่ถูกต้อง
ในบทความนี้เราแสดงให้เห็นว่ามันเป็นไปได้ที่จะจัดระเบียบกระบวนการตัดสินใจของการทดลองโดยไม่ต้องออกจากกรอบการทดสอบ hypothesis มาตรฐาน คีย์เพื่อให้แน่ใจว่าคุณได้รับขีด จํากัด ความเสี่ยงที่ต้องการสําหรับการตัดสินใจผลิตภัณฑ์คือการระบุกฎการตัดสินใจอย่างชัดเจน กฎการตัดสินใจกําหนดอย่างเต็มที่ว่าคุณจะตัดสินใจผลิตภัณฑ์ใดขึ้นอยู่กับผลการทดลองของคุณ สิ่งสําคัญคือเพื่อเชื่อมโยงความเสี่ยงของการตัดสินใจผิดการออกแบบและการวิเคราะห์การทดลองของคุณต้องตรงกับกฎการตัดสินใจอย่างใกล้ชิด
การอธิบายกฎการตัดสินใจมีความสําคัญเนื่องจากหลายเหตุผล การไม่ชัดเจนเกี่ยวกับผลลัพธ์ใดที่นําไปสู่การตัดสินใจผลิตภัณฑ์เชิงบวกหมายความว่าไม่มีกลไกในการควบคุมความเสี่ยงของการทดลองอย่างถูกต้องในระดับที่สําคัญกับ บริษัท คือการตัดสินใจที่จะส่งคุณลักษณะหรือไม่ นอกจากนี้การขาดกฎการตัดสินใจที่อธิบายและมาตรฐานอาจหมายความว่าทีมงานหรือส่วนต่าง ๆ ขององค์กรจะยึดมั่นในมาตรฐานที่แตกต่างกัน กรอบกฎการตัดสินใจของเราเป็นวิธีการที่เรียบง่าย แต่มีประสิทธิภาพในการต่อสู้กับปัญหาเหล่านี้
กรอบกฎการตัดสินใจช่วยมาตรฐานการวิเคราะห์การทดลองและเป็นเครื่องมือที่มีประโยชน์สําหรับแพลตฟอร์มการทดลอง สิ่งที่กฎการตัดสินใจรวมสามารถทําให้มีความยืดหยุ่นมากขึ้นหรือน้อยลง ตัวอย่างเช่นการทดลองใหม่สามารถบังคับให้พิสูจน์ให้เห็นว่าเมตริกของ บริษัท ที่สําคัญไม่ได้รับผลกระทบเชิงลบในขณะที่เลือกชุดของเมตริกที่ควรแสดงให้เห็นถึงการปรับปรุงนั้นขึ้นอยู่กับผู้ทดลอง แม้ว่าการเลือกเมตริกจะผิดปกติอย่างสมบูรณ์โดยไม่มีเมตริกที่กําหนดโดยแพลตฟอร์มวิธีการกฎการตัดสินใจจะส่งเสริมความเข้าใจร่วมกันเกี่ยวกับสิ่งที่เป็นการทดลองที่ประสบความสําเร็จ
ตลอดกระดาษนี้และโดยไม่ต้องสูญเสียความสม่ําเสมอเราจะพิจารณาการทดลองที่มีสองกลุ่มเพื่อความง่ายดายในการหมายเลข นอกจากนี้เรายังพิจารณาการทดลองแบบหนึ่งด้านเท่านั้น แม้ว่าการทดลองแบบหนึ่งด้านอาจใช้กับแต่ละเมตริก เรา จํากัด ตัวเราเองให้การทดลองแบบหนึ่งด้านเนื่องจากต้องมีทิศทางที่ต้องการสําหรับการเปลี่ยนแปลงในเมตริกเพื่อให้สามารถวัดการปรับปรุงผลิตภัณฑ์ได้ สําหรับความง่ายดายเราคิดว่าเมตริกทั้งหมดจะปรับปรุงเมื่อเพิ่มขึ้น นอกจากนี้เรายังพิจารณาว่าการทดสอบการคาดการณ์ทางสถิติแต่ละแบบมีผลบังคับและบรรลุอัตราความผิดพลาดประเภท I และประเภท II โดยเฉพาะอย่างยิ่งหากการทดลองได้รับการออกแบบอย่างเหมาะสม
บทความนี้เป็น
บทความนี้เป็น