493 lectures
493 lectures

Le secret de Spotify pour un test A / B plus intelligent (Souci: Ce n'est pas seulement des statistiques)

par AB Test5m2025/03/30
Read on Terminal Reader

Trop long; Pour lire

Les tests A/B conduisent les décisions sur les produits, mais les mesures multiples compliquent la gestion des risques.Spotify introduit un cadre de règles de décision pour améliorer l'expérimentation, assurant des résultats fiables tout en équilibrant l'exactitude statistique.
featured image - Le secret de Spotify pour un test A / B plus intelligent (Souci: Ce n'est pas seulement des statistiques)
AB Test HackerNoon profile picture
0-item

Auteurs:

(1) Mårten Schultzberg, équipe de la Plateforme d'expérimentation, Spotify, Stockholm, Suède;

(2) Sebastian Ankargren, équipe de la Plateforme d'expérimentation, Spotify, Stockholm, Suède;

(3) Mattias Frånberg, équipe de la Plateforme d'expérimentation, Spotify, Stockholm, Suède.

Auteur :

Auteurs :

(1) Mårten Schultzberg, équipe de la Plateforme d’expérimentation, Spotify, Stockholm, Suède;

(2) Sebastian Ankargren, équipe de la Plateforme d’expérimentation, Spotify, Stockholm, Suède;

(3) Mattias Frånberg, équipe de Experimentation Platform, Spotify, Stockholm, Suède.

Table des liens

Abstract et 1 Introduction

Abstract et 1 Introduction

1.1 Littérature connexe

1.1 Littérature connexe

a href="https://hackernoon.com/preview/wBWrdWHanIIz2yQ4jdAr">2.2 Hypothèses pour différents types de métriques et leur hypothèse

2.2 Hypothèses pour différents types de métriques et leur hypothèse

2.2 Hypothèses pour différents types de méthodes de décision y compris HTTP et HTTP avec HTTP et HTTP>HTTP et H

  • Types de mesures et leur hypothèse et 2.1 Types de mesures

    2.2 Hypothèses pour différents types de mesures

  • Types de métriques et leur hypothèse et 2.1 Types de métriques

    Types de métriques et leur hypothèse et 2.1 Types de métriques

    2.2 Hypothèses pour différents types de mesures

    2.2 Hypothèses pour différents types de mesures
  • Type I et Type II taux d'erreur pour les règles de décision y compris les tests de supériorité et de non-infériorité

    3.1 Les hypothèses composites des tests de supériorité et de non-infériorité
  • Type I et Type II Taux d'erreur pour les règles de décision y compris les tests de supériorité et de non-infériorité

    Type I et Type II Taux d'erreur pour les règles de décision y compris les tests de supériorité et de non-infériorité

    3.1 Les hypothèses composites des tests de supériorité et de non-infériorité

    3.1 Les hypothèses composites des tests de supériorité et de non-infériorité

    3.2 Limitation des taux d'erreur de type I et de type II pour les tests d'UI et d'UI

    3.2 Limitation des taux d'erreur de type I et de type II pour les tests d'UI et d'UI

    3.3 Limitation des taux d'erreur pour une règle de décision comprenant à la fois la réussite et les métriques de garde-roues

    3.3 Limiter les taux d'erreur pour une règle de décision comprenant à la fois la réussite et les métriques de garde-roues

    3.4 Corrections de puissance pour les tests de non-infériorité

    3.4 Corrections de puissance pour les tests de non-infériorité
  • Étendre la règle de décision avec détérioration et mesures de qualité

  • Étendre la règle de décision avec détérioration et mesures de qualité

    Étendre la règle de décision avec la détérioration et les mesures de qualité
  • Monte Carlo Simulation Study

    5.1 Résultats

  • Étude de simulation de Monte Carlo

    Monte Carlo Simulation Study

    5.1 Résultats

    5.1 Résultats
  • Discussion et conclusions

  • Discussion et conclusions

    Discussion et conclusions


    APPENDIX A: IMPROVER L'ÉFFICACITÉ DE LA PROPOSITION 4.1 AVEC DES ASSUMTIONS ADDITIONNES

    APPENDIX A:APPENDIX A: IMPROVER L'ÉFFICACITÉ DE LA PROPOSITION 4.1 AVEC DES ASSUMTIONS ADDITIONNELLES

    APPENDIX B: EXEMPLES DE FAUX ET DE VRAIS RATES POSITIVES GLOBALES

    APPENDIX B:APPENDIX B: EXEMPLES DE FAUX ET DE VRAI POITIF COURSE

    APPENDIX C: UNE NOTE SUR LE TEST DE LA DÉTERMINATION

    APPENDIX C:APPENDIX C: UNE NOTE SUR LE TEST DE LA DÉFINITION

    APPENDIX D: UTILISER LA METHODE DE NYHOLT DE NOMBRE ÉFFICIENT DE TESTS INDEPENDANTS

    APPENDIX D:APPENDIX D: UTILISER LA METHODE DE NYHOLT DE NOMBRE EFICIENT DE TESTS INDEPENDANTS


    Connaissances et références

    Connaissances et références


    Au cours de la dernière décennie, les tests A/B sont devenus la méthode standard pour la prise de décisions de produits dans les entreprises de technologie. Ils offrent une approche scientifique au développement de produits, en utilisant des tests hypothétiques statistiques pour contrôler les risques de décisions incorrectes. Typiquement, des métriques multiples sont utilisées dans les tests A/B pour servir à des fins différentes, telles que l'établissement de preuves de succès, la protection contre les régressions ou la vérification de la validité des tests. Pour atténuer les risques dans les tests A/B avec des résultats multiples, il est crucial d'adapter la conception et l'analyse aux rôles variés de ces résultats. Ce document introduit le cadre théorique pour les règles de décision guidantAbstraction

    1 Introduction

    Les expériences randomisées sont la norme d'or pour fournir des preuves de relations de causalité.Les sociétés technologiques modernes utilisent des tests A/B, un essai contrôlé randomisé dans un environnement numérique, pour évaluer largement l'efficacité des nouveaux changements apportés à leurs produits.Ces produits comprennent des applications de partage de courses, des moteurs de recherche, des services de streaming, des recommandations, et plus encore.En fin de compte, l'objectif de ces expériences est de décider si ou non de publier un changement de produit plus largement.


    La plupart de la littérature sur la conclusion statistique pour les expériences randomisées se concentre sur un seul test d'hypothèse d'un seul résultat, et sur la façon de lier les taux d'erreur de type I et de type II pour ce test. Cependant, les expériences ne sont pas des tests univariés de résultats isolés. Au lieu de cela, les risques qui comptent sont les risques de prendre la mauvaise décision pour le produit. Par exemple, chez une société technologique comme Spotify, nous voulons limiter la fréquence à laquelle nous libérons des changements de produit qui montrent une amélioration lorsqu'il n'y en a pas vraiment, et la fréquence à laquelle nous nous abstenons de publier des changements qui conduisent à des améliorations mais que nous ne


    Dans la littérature d'expérimentation en ligne, le seul aspect de la prise de décision multi-test qui est largement couvert est la correction multi-testing. Corrections multi-testing, telles que Bonferroni, Holm [7] et Hommel [8], lient le taux d'erreur de type I d'une règle de décision implicite qui déclare quelle décision vous prendrez en fonction des résultats des tests d'hypothèse individuels. Comme nous allons discuter largement dans ce document, à moins que votre règle de décision souhaitée correspond à la règle impliquée par la correction multi-testing, il est généralement incorrect.


    Dans ce document, nous montrons comment il est possible de formaliser le processus de prise de décision d'expériences sans quitter le cadre de test d'hypothèse standard. La clé pour vous assurer que vous obtenez les limites de risque prévues pour la décision de produit est de spécifier explicitement une règle de décision. Une règle de décision spécifie de manière exhaustive quelle décision de produit vous allez prendre en fonction des résultats de votre expérience.


    L'articulation de la règle de décision est importante pour plusieurs raisons. Être incertain sur les résultats qui conduisent à une décision de produit positive signifie qu'il n'y a pas de mécanisme pour contrôler correctement les risques de l'expérience au niveau qui importe pour l'entreprise, à savoir la décision d'envoyer la fonctionnalité ou non. En outre, l'absence d'une règle de décision articulée et normalisée peut signifier que différentes équipes ou parties de l'organisation adhèrent à des normes différentes.


    Le cadre de règles de décision aide à normaliser l'analyse des expériences et est un outil utile pour les plates-formes d'expérimentation. Ce que la règle de décision comprend peut être rendu plus ou moins flexible. Par exemple, de nouvelles expériences peuvent être forcées de démontrer que les mesures importantes de l'entreprise ne sont pas affectées négativement tout en sélectionnant l'ensemble des mesures qui devraient montrer une amélioration est entièrement à la charge de l'expérimentateur. Même si le choix des mesures est complètement arbitraire avec aucune mesure rendue obligatoire par la plate-forme, l'approche de la règle de décision favorise une compréhension partagée de ce qu'est une expérience réussie.


    Tout au long de ce document, et sans perte de généralité, nous ne considérons que des expériences avec deux groupes pour simplifier la notation. En outre, nous ne considérons que des tests unilatéraux, bien que plus d'un test unilatéral puisse être appliqué à chaque métrique. Nous nous limitons à des tests unilatéraux car il doit y avoir une direction prévue pour un changement dans la métrique pour cartographier une amélioration mesurable dans le produit. Pour la simplicité, nous supposons que toutes les métriques s'améliorent quand elles augmentent. En outre, nous supposons que chaque test hypothèse statistique est valide et atteint ses taux d'erreur de type I et de type II exactement si l'expérience est conçue en conséquence


    Ce document est disponible sur arxiv sous licence CC BY 4.0 DEED.

    Ce document est disponible sur arxiv sous licence CC BY 4.0 DEED.

    disponible sur arxivdisponible sur arxiv


    Trending Topics

    blockchaincryptocurrencyhackernoon-top-storyprogrammingsoftware-developmenttechnologystartuphackernoon-booksBitcoinbooks