Autori:
(1) Mårten Schultzberg, team Experimentation Platform, Spotify, Stoccolma, Svezia;
(2) Sebastian Ankargren, team Experimentation Platform, Spotify, Stoccolma, Svezia;
(3) Mattias Frånberg, team Experimentation Platform, Spotify, Stoccolma, Svezia.
Autori:
Autori di:(1) Mårten Schultzberg, team di Experimentation Platform, Spotify, Stoccolma, Svezia;
(2) Sebastian Ankargren, team di Experimentation Platform, Spotify, Stoccolma, Svezia;
(3) Mattias Frånberg, team di Experimentation Platform, Spotify, Stoccolma, Svezia.
Tabella dei collegamenti
Abstract e 1 Introduzione1.1 Literatura correlata2.2 Ipoteze per diversi tipi di metriche
2.2 Ipoteze per diversi tipi di metriche3.1 Le ipotesi composite di test di superiorità e di non inferiorità
Tipo I e Tipo II Tasso di errore per le regole di decisione tra cui i test di superiorità e di non inferiorità3.1 Le ipotesi composite dei test di superiorità e di non inferiorità
3.1 Le ipotesi composite dei test di superiorità e di non inferiorità3.2 Limitare i tassi di errore di tipo I e tipo II per i test UI e IU
3.2 Limitare i tassi di errore di tipo I e tipo II per i test UI e IU3.3 Limitare i tassi di errore per una regola di decisione tra cui sia il successo che le metriche di guardrail3.4 Correzioni di potenza per il test di non-inferiorità
3.4 Correzioni di potenza per il test di non inferioritàExtending the Decision Rule with Deterioration and Quality Metrics
Extending the Decision Rule with Deterioration and Quality Metrics
Extending the Decision Rule with Deterioration and Quality Metrics
APPENDIX A: IMPROVARE L'efficacia DELLA PROPOSTAZIONE 4.1 CON ASSUNZIONI ADDITIVI
APPENDIX A:APPENDIX A: IMPROVARE L'EFICIENZA DELLA PROPOSTAZIONE 4.1 CON ASSUNZIONI ADDITIVIAPPENDIX B: ESAMPLES DI GLOBALE FALSO E VERITA' POSITIVE RATTE
APPENDIX B:APPENDIX B: ESAMPLES DI GLOBALE FALSE E VERITA' POSITIVE RATTEAPPENDIX C: ATTENZIONE SU UN TESTO SEVENTALE DI DETERIORAZIONE
APPENDIX C:APPENDIX C: ATTENZIONE SU UN TESTO SEVENTALE DI DETERMINAZIONEAPPENDIX D: UTILIZZO DEL METODO DI NYHOLT DEL NUMERO EFFICIENTE DI TESTI INDIVIDUALI
APPENDIX D:APPENDIX D: UTILIZZO DEL METODO DI NYHOLT DEL NUMERO EFICIENTE DI TESTI INDEPENDENTI
1 Introduzione
Gli esperimenti randomizzati sono lo standard d'oro per fornire prove di relazioni causali.Le moderne aziende tecnologiche usano i test A/B, un esperimento randomizzato controllato in un ambiente digitale, per valutare ampiamente l'efficacia dei nuovi cambiamenti nei loro prodotti.Questi prodotti includono app di ride-sharing, motori di ricerca, servizi di streaming, raccomandazioni e altro ancora.In ultima analisi, l'obiettivo di questi esperimenti è decidere se rilasciare o meno un cambiamento di prodotto più ampiamente.
La maggior parte della letteratura sulla inferenza statistica per esperimenti randomizzati si concentra su un singolo test ipotesi di un singolo risultato, e su come legare i tassi di errore di tipo I e di tipo II per quel test. Tuttavia, gli esperimenti non sono test univariati di risultati isolati. Invece, i rischi che contano sono i rischi di prendere la decisione sbagliata per il prodotto. Ad esempio, in una società tecnologica come Spotify, vogliamo limitare la frequenza con cui rilasciamo cambiamenti di prodotto che mostrano un miglioramento quando non c'è veramente nessun, e la frequenza con cui ci asteniamo dal rilasciare cambiamenti che portano a miglioramenti ma non troviamo. Questi tipi di decisioni includono tipicamente i risultati di diversi test ipotetici. Gli esperimenti
Nella letteratura di sperimentazione online, l'unico aspetto della decisione multi-test che è ampiamente coperto è la correzione multi-testing. Correzioni multi-testing, come Bonferroni, Holm [7] e Hommel [8], legato il tasso di errore di tipo I di una regola di decisione implicita che dichiara quale decisione si prenderà sulla base dei risultati dei singoli test ipotesi. Come discuteremo ampiamente in questo articolo, a meno che la regola di decisione desiderata non corrisponda alla regola implicita dalla correzione multi-testing, è di solito errato.
In questo documento, mostriamo come è possibile formalizzare il processo decisionale degli esperimenti senza lasciare il quadro di test di ipotesi standard. La chiave per garantire che si ottengono i limiti di rischio intesi per la decisione del prodotto è quello di specificare esplicitamente una regola di decisione. Una regola di decisione specifica in modo esaustivo quale decisione del prodotto si farà sulla base dei risultati del vostro esperimento.
Articolare la regola di decisione è importante per diversi motivi. Essere incerti su quali risultati portano a una decisione positiva del prodotto significa che non esiste un meccanismo per controllare correttamente i rischi dell'esperimento al livello che conta per l'azienda, vale a dire la decisione di inviare la caratteristica o meno.Inoltre, la mancanza di una regola di decisione articolata e standardizzata può significare che diversi team o parti dell'organizzazione si attengono a standard diversi.
Il quadro delle regole di decisione aiuta a standardizzare l'analisi degli esperimenti ed è uno strumento utile per le piattaforme di sperimentazione. Ciò che la regola di decisione include può essere reso più o meno flessibile. Ad esempio, i nuovi esperimenti possono essere costretti a dimostrare che le importanti metriche aziendali non sono influenzate negativamente mentre la selezione del set di metriche che dovrebbero mostrare un miglioramento è completamente fatta al sperimentatore. Anche se la scelta delle metriche è completamente arbitraria con nessuna metrica resa obbligatoria dalla piattaforma, l'approccio delle regole di decisione promuove una comprensione condivisa di cosa sia un esperimento di successo.
Nel corso di questo documento, e senza perdita di generalità, consideriamo solo esperimenti con due gruppi per semplificare la notazione. Inoltre, consideriamo solo test unilaterali, anche se più di un test unilaterale potrebbe essere applicato a ciascuna metrica. Ci limitiamo a test unilaterali poiché deve esserci una direzione intenzionale per un cambiamento nella metrica per mappare un miglioramento misurabile nel prodotto. Per semplicità, presumiamo che tutte le metriche migliorino quando aumentano. Inoltre, presumiamo che ogni test di ipotesi statistica sia valido e raggiunga i suoi tassi di errore di tipo I e di tipo II esattamente se l'esperimento è progettato di conseguenza.
Questo documento è
Questo documento è