493 letture
493 letture

Il segreto di Spotify per un test A/B più intelligente (Suggerimento: non è solo statistica)

di AB Test5m2025/03/30
Read on Terminal Reader

Troppo lungo; Leggere

I test A/B guidano le decisioni sui prodotti, ma più metriche complicano la gestione del rischio. Spotify introduce un framework di regole decisionali per perfezionare la sperimentazione, garantendo risultati affidabili e bilanciando l'accuratezza statistica.
featured image - Il segreto di Spotify per un test A/B più intelligente (Suggerimento: non è solo statistica)
AB Test HackerNoon profile picture
0-item

Autori:

(1) Mårten Schultzberg, team Experimentation Platform, Spotify, Stoccolma, Svezia;

(2) Sebastian Ankargren, team Experimentation Platform, Spotify, Stoccolma, Svezia;

(3) Mattias Frånberg, team Experimentation Platform, Spotify, Stoccolma, Svezia.

Autori:

Autori di:

(1) Mårten Schultzberg, team di Experimentation Platform, Spotify, Stoccolma, Svezia;

(2) Sebastian Ankargren, team di Experimentation Platform, Spotify, Stoccolma, Svezia;

(3) Mattias Frånberg, team di Experimentation Platform, Spotify, Stoccolma, Svezia.

Tabella dei collegamenti

Abstract e 1 Introduzione

Abstract e 1 Introduzione

1.1 Letteratura correlata

1.1 Literatura correlata
  • Tipi di metriche e la loro ipotesi e 2.1 Tipi di metriche

    2.2 Ipoteze per diversi tipi di metriche

  • Tipi di metriche e la loro ipotesi e 2.1 Tipi di metriche

    Tipi di metriche e la loro ipotesi e 2.1 Tipi di metriche

    2.2 Ipoteze per diversi tipi di metriche

    2.2 Ipoteze per diversi tipi di metriche
  • Tipo I e Tipo II Tasso di errore per le regole di decisione tra cui i test di superiorità e di non inferiorità

    3.1 Le ipotesi composite di test di superiorità e di non inferiorità

    Tipo I e Tipo II Tasso di errore per le regole di decisione tra cui i test di superiorità e di non inferiorità

    Tipo I e Tipo II Tasso di errore per le regole di decisione tra cui i test di superiorità e di non inferiorità

    3.1 Le ipotesi composite dei test di superiorità e di non inferiorità

    3.1 Le ipotesi composite dei test di superiorità e di non inferiorità

    3.2 Limitare i tassi di errore di tipo I e tipo II per i test UI e IU

    3.2 Limitare i tassi di errore di tipo I e tipo II per i test UI e IU

    3.3 Limitare i tassi di errore per una regola decisionale tra cui sia il successo che le metriche di guardrail

    3.3 Limitare i tassi di errore per una regola di decisione tra cui sia il successo che le metriche di guardrail

    3.4 Correzioni di potenza per il test di non-inferiorità

    3.4 Correzioni di potenza per il test di non inferiorità
  • Extending the Decision Rule with Deterioration and Quality Metrics

  • Extending the Decision Rule with Deterioration and Quality Metrics

    Extending the Decision Rule with Deterioration and Quality Metrics
  • Monte Carlo Simulation Study

    5.1 Risultati

  • Monte Carlo Simulation Study

    Monte Carlo Simulation Study

    5.1 Risultati

    5.1 Risultati
  • Discussioni e conclusioni

  • Discussioni e conclusioni

    Discussioni e conclusioni


    APPENDIX A: IMPROVARE L'efficacia DELLA PROPOSTAZIONE 4.1 CON ASSUNZIONI ADDITIVI

    APPENDIX A:APPENDIX A: IMPROVARE L'EFICIENZA DELLA PROPOSTAZIONE 4.1 CON ASSUNZIONI ADDITIVI

    APPENDIX B: ESAMPLES DI GLOBALE FALSO E VERITA' POSITIVE RATTE

    APPENDIX B:APPENDIX B: ESAMPLES DI GLOBALE FALSE E VERITA' POSITIVE RATTE

    APPENDIX C: ATTENZIONE SU UN TESTO SEVENTALE DI DETERIORAZIONE

    APPENDIX C:APPENDIX C: ATTENZIONE SU UN TESTO SEVENTALE DI DETERMINAZIONE

    APPENDIX D: UTILIZZO DEL METODO DI NYHOLT DEL NUMERO EFFICIENTE DI TESTI INDIVIDUALI

    APPENDIX D:APPENDIX D: UTILIZZO DEL METODO DI NYHOLT DEL NUMERO EFICIENTE DI TESTI INDEPENDENTI


    Riconoscimenti e riferimenti

    Riconoscimenti e riferimenti


    Negli ultimi dieci anni, i test A/B sono diventati il metodo standard per prendere decisioni sui prodotti nelle aziende tecnologiche. Offrono un approccio scientifico allo sviluppo del prodotto, utilizzando i test ipotetici statistici per controllare i rischi di decisioni errate. Di solito, le metriche multiple vengono utilizzate nei test A/B per servire a scopi diversi, come stabilire prove di successo, proteggere dalle regressioni o verificare la validità dei test. Per mitigare i rischi nei test A/B con risultati multipli, è cruciale adattare il design e l'analisi ai vari ruoli di questi risultati. Questo documento introduce il quadro teorico per le regole che guidano la valutazione degli esperimenti su Spotify. In primo luogo, mostriamo che se vengono utilizzate metriche di guardia con test di non inferiorità,Abstract

    1 Introduzione

    Gli esperimenti randomizzati sono lo standard d'oro per fornire prove di relazioni causali.Le moderne aziende tecnologiche usano i test A/B, un esperimento randomizzato controllato in un ambiente digitale, per valutare ampiamente l'efficacia dei nuovi cambiamenti nei loro prodotti.Questi prodotti includono app di ride-sharing, motori di ricerca, servizi di streaming, raccomandazioni e altro ancora.In ultima analisi, l'obiettivo di questi esperimenti è decidere se rilasciare o meno un cambiamento di prodotto più ampiamente.


    La maggior parte della letteratura sulla inferenza statistica per esperimenti randomizzati si concentra su un singolo test ipotesi di un singolo risultato, e su come legare i tassi di errore di tipo I e di tipo II per quel test. Tuttavia, gli esperimenti non sono test univariati di risultati isolati. Invece, i rischi che contano sono i rischi di prendere la decisione sbagliata per il prodotto. Ad esempio, in una società tecnologica come Spotify, vogliamo limitare la frequenza con cui rilasciamo cambiamenti di prodotto che mostrano un miglioramento quando non c'è veramente nessun, e la frequenza con cui ci asteniamo dal rilasciare cambiamenti che portano a miglioramenti ma non troviamo. Questi tipi di decisioni includono tipicamente i risultati di diversi test ipotetici. Gli esperimenti


    Nella letteratura di sperimentazione online, l'unico aspetto della decisione multi-test che è ampiamente coperto è la correzione multi-testing. Correzioni multi-testing, come Bonferroni, Holm [7] e Hommel [8], legato il tasso di errore di tipo I di una regola di decisione implicita che dichiara quale decisione si prenderà sulla base dei risultati dei singoli test ipotesi. Come discuteremo ampiamente in questo articolo, a meno che la regola di decisione desiderata non corrisponda alla regola implicita dalla correzione multi-testing, è di solito errato.


    In questo documento, mostriamo come è possibile formalizzare il processo decisionale degli esperimenti senza lasciare il quadro di test di ipotesi standard. La chiave per garantire che si ottengono i limiti di rischio intesi per la decisione del prodotto è quello di specificare esplicitamente una regola di decisione. Una regola di decisione specifica in modo esaustivo quale decisione del prodotto si farà sulla base dei risultati del vostro esperimento.


    Articolare la regola di decisione è importante per diversi motivi. Essere incerti su quali risultati portano a una decisione positiva del prodotto significa che non esiste un meccanismo per controllare correttamente i rischi dell'esperimento al livello che conta per l'azienda, vale a dire la decisione di inviare la caratteristica o meno.Inoltre, la mancanza di una regola di decisione articolata e standardizzata può significare che diversi team o parti dell'organizzazione si attengono a standard diversi.


    Il quadro delle regole di decisione aiuta a standardizzare l'analisi degli esperimenti ed è uno strumento utile per le piattaforme di sperimentazione. Ciò che la regola di decisione include può essere reso più o meno flessibile. Ad esempio, i nuovi esperimenti possono essere costretti a dimostrare che le importanti metriche aziendali non sono influenzate negativamente mentre la selezione del set di metriche che dovrebbero mostrare un miglioramento è completamente fatta al sperimentatore. Anche se la scelta delle metriche è completamente arbitraria con nessuna metrica resa obbligatoria dalla piattaforma, l'approccio delle regole di decisione promuove una comprensione condivisa di cosa sia un esperimento di successo.


    Nel corso di questo documento, e senza perdita di generalità, consideriamo solo esperimenti con due gruppi per semplificare la notazione. Inoltre, consideriamo solo test unilaterali, anche se più di un test unilaterale potrebbe essere applicato a ciascuna metrica. Ci limitiamo a test unilaterali poiché deve esserci una direzione intenzionale per un cambiamento nella metrica per mappare un miglioramento misurabile nel prodotto. Per semplicità, presumiamo che tutte le metriche migliorino quando aumentano. Inoltre, presumiamo che ogni test di ipotesi statistica sia valido e raggiunga i suoi tassi di errore di tipo I e di tipo II esattamente se l'esperimento è progettato di conseguenza.


    Questo documento è disponibile su arxiv sotto la licenza CC BY 4.0 DEED.

    Questo documento è disponibile su arxiv sotto la licenza CC BY 4.0 DEED.

    disponibile su arxivdisponibile su arxiv


    Trending Topics

    blockchaincryptocurrencyhackernoon-top-storyprogrammingsoftware-developmenttechnologystartuphackernoon-booksBitcoinbooks