Auteurs:
(1) Mårten Schultzberg, équipe de la Plateforme d'expérimentation, Spotify, Stockholm, Suède;
(2) Sebastian Ankargren, équipe de la Plateforme d'expérimentation, Spotify, Stockholm, Suède;
(3) Mattias Frånberg, équipe de la Plateforme d'expérimentation, Spotify, Stockholm, Suède.
Auteur :
Auteurs :(1) Mårten Schultzberg, équipe de la Plateforme d’expérimentation, Spotify, Stockholm, Suède;
(2) Sebastian Ankargren, équipe de la Plateforme d’expérimentation, Spotify, Stockholm, Suède;
(3) Mattias Frånberg, équipe de Experimentation Platform, Spotify, Stockholm, Suède.
Table des liens
Abstract et 1 Introduction1.1 Littérature connexea href="https://hackernoon.com/preview/wBWrdWHanIIz2yQ4jdAr">2.2 Hypothèses pour différents types de métriques et leur hypothèse
2.2 Hypothèses pour différents types de métriques et leur hypothèse 2.2 Hypothèses pour différents types de méthodes de décision y compris HTTP et HTTP avec HTTP et HTTP>HTTP et H Types de métriques et leur hypothèse et 2.1 Types de métriques
3.1 Les hypothèses composites des tests de supériorité et de non-infériorité
3.1 Les hypothèses composites des tests de supériorité et de non-infériorité3.2 Limitation des taux d'erreur de type I et de type II pour les tests d'UI et d'UI
3.2 Limitation des taux d'erreur de type I et de type II pour les tests d'UI et d'UI3.3 Limiter les taux d'erreur pour une règle de décision comprenant à la fois la réussite et les métriques de garde-roues3.4 Corrections de puissance pour les tests de non-infériorité
3.4 Corrections de puissance pour les tests de non-inférioritéÉtendre la règle de décision avec détérioration et mesures de qualité
Étendre la règle de décision avec détérioration et mesures de qualité
Étendre la règle de décision avec la détérioration et les mesures de qualitéÉtude de simulation de Monte Carlo
Monte Carlo Simulation Study5.1 Résultats
APPENDIX A: IMPROVER L'ÉFFICACITÉ DE LA PROPOSITION 4.1 AVEC DES ASSUMTIONS ADDITIONNES
APPENDIX A:APPENDIX A: IMPROVER L'ÉFFICACITÉ DE LA PROPOSITION 4.1 AVEC DES ASSUMTIONS ADDITIONNELLESAPPENDIX B: EXEMPLES DE FAUX ET DE VRAIS RATES POSITIVES GLOBALES
APPENDIX B:APPENDIX B: EXEMPLES DE FAUX ET DE VRAI POITIF COURSEAPPENDIX C: UNE NOTE SUR LE TEST DE LA DÉTERMINATION
APPENDIX C:APPENDIX C: UNE NOTE SUR LE TEST DE LA DÉFINITIONAPPENDIX D: UTILISER LA METHODE DE NYHOLT DE NOMBRE ÉFFICIENT DE TESTS INDEPENDANTS
APPENDIX D:APPENDIX D: UTILISER LA METHODE DE NYHOLT DE NOMBRE EFICIENT DE TESTS INDEPENDANTS
1 Introduction
Les expériences randomisées sont la norme d'or pour fournir des preuves de relations de causalité.Les sociétés technologiques modernes utilisent des tests A/B, un essai contrôlé randomisé dans un environnement numérique, pour évaluer largement l'efficacité des nouveaux changements apportés à leurs produits.Ces produits comprennent des applications de partage de courses, des moteurs de recherche, des services de streaming, des recommandations, et plus encore.En fin de compte, l'objectif de ces expériences est de décider si ou non de publier un changement de produit plus largement.
La plupart de la littérature sur la conclusion statistique pour les expériences randomisées se concentre sur un seul test d'hypothèse d'un seul résultat, et sur la façon de lier les taux d'erreur de type I et de type II pour ce test. Cependant, les expériences ne sont pas des tests univariés de résultats isolés. Au lieu de cela, les risques qui comptent sont les risques de prendre la mauvaise décision pour le produit. Par exemple, chez une société technologique comme Spotify, nous voulons limiter la fréquence à laquelle nous libérons des changements de produit qui montrent une amélioration lorsqu'il n'y en a pas vraiment, et la fréquence à laquelle nous nous abstenons de publier des changements qui conduisent à des améliorations mais que nous ne
Dans la littérature d'expérimentation en ligne, le seul aspect de la prise de décision multi-test qui est largement couvert est la correction multi-testing. Corrections multi-testing, telles que Bonferroni, Holm [7] et Hommel [8], lient le taux d'erreur de type I d'une règle de décision implicite qui déclare quelle décision vous prendrez en fonction des résultats des tests d'hypothèse individuels. Comme nous allons discuter largement dans ce document, à moins que votre règle de décision souhaitée correspond à la règle impliquée par la correction multi-testing, il est généralement incorrect.
Dans ce document, nous montrons comment il est possible de formaliser le processus de prise de décision d'expériences sans quitter le cadre de test d'hypothèse standard. La clé pour vous assurer que vous obtenez les limites de risque prévues pour la décision de produit est de spécifier explicitement une règle de décision. Une règle de décision spécifie de manière exhaustive quelle décision de produit vous allez prendre en fonction des résultats de votre expérience.
L'articulation de la règle de décision est importante pour plusieurs raisons. Être incertain sur les résultats qui conduisent à une décision de produit positive signifie qu'il n'y a pas de mécanisme pour contrôler correctement les risques de l'expérience au niveau qui importe pour l'entreprise, à savoir la décision d'envoyer la fonctionnalité ou non. En outre, l'absence d'une règle de décision articulée et normalisée peut signifier que différentes équipes ou parties de l'organisation adhèrent à des normes différentes.
Le cadre de règles de décision aide à normaliser l'analyse des expériences et est un outil utile pour les plates-formes d'expérimentation. Ce que la règle de décision comprend peut être rendu plus ou moins flexible. Par exemple, de nouvelles expériences peuvent être forcées de démontrer que les mesures importantes de l'entreprise ne sont pas affectées négativement tout en sélectionnant l'ensemble des mesures qui devraient montrer une amélioration est entièrement à la charge de l'expérimentateur. Même si le choix des mesures est complètement arbitraire avec aucune mesure rendue obligatoire par la plate-forme, l'approche de la règle de décision favorise une compréhension partagée de ce qu'est une expérience réussie.
Tout au long de ce document, et sans perte de généralité, nous ne considérons que des expériences avec deux groupes pour simplifier la notation. En outre, nous ne considérons que des tests unilatéraux, bien que plus d'un test unilatéral puisse être appliqué à chaque métrique. Nous nous limitons à des tests unilatéraux car il doit y avoir une direction prévue pour un changement dans la métrique pour cartographier une amélioration mesurable dans le produit. Pour la simplicité, nous supposons que toutes les métriques s'améliorent quand elles augmentent. En outre, nous supposons que chaque test hypothèse statistique est valide et atteint ses taux d'erreur de type I et de type II exactement si l'expérience est conçue en conséquence
Ce document est
Ce document est