493 aflæsninger
493 aflæsninger

Spotify's hemmelighed til smartere A / B-testning (Tips: Det er ikke kun statistik)

ved AB Test5m2025/03/30
Read on Terminal Reader

For langt; At læse

A/B-tests driver produktbeslutninger, men flere målinger komplicerer risikostyring.Spotify introducerer en ramme for beslutningsregler for at forfine eksperimentering, der sikrer pålidelige resultater og samtidig balancerer statistisk nøjagtighed.
featured image - Spotify's hemmelighed til smartere A / B-testning (Tips: Det er ikke kun statistik)
AB Test HackerNoon profile picture
0-item

Forfattere:

(1) Mårten Schultzberg, Experimentation Platform team, Spotify, Stockholm, Sverige;

(2) Sebastian Ankargren, Experimentation Platform team, Spotify, Stockholm, Sverige;

(3) Mattias Frånberg, Experimentation Platform team, Spotify, Stockholm, Sverige.

Tabel over links

Abstrakt og 1 introduktion

1.1 Relateret litteratur

  1. Typer af metrikker og deres hypotese og 2.1 Typer af metrikker

    2.2 Hypoteser for forskellige typer metrikker

  2. Type I og Type II fejlrater for beslutningsregler, herunder overlegenheds- og ikke-mindreværdstest

    3.1 De sammensatte hypoteser om overlegenheds- og ikke-mindreværdstest

    3.2 Afgrænsning af type I og type II fejlrater for UI og IU test

    3.3 Afgrænsning af fejlraterne for en beslutningsregel, herunder både succes- og autoværn-metrik

    3.4 Strømkorrektioner til non-inferioritetstest

  3. Udvidelse af beslutningsreglen med forringelse og kvalitetsmålinger

  4. Monte Carlo simuleringsundersøgelse

    5.1 Resultater

  5. Diskussion og konklusioner


BILAG A: FORBEDRING AF EFFEKTIVITETEN AF PROPOSITION 4.1 MED YDERLIGERE FORUDSÆTNINGER

APPENDIKS B: EKSEMPLER PÅ GLOBALE FALSKE OG SANDE POSITIVE PRISER

BILAG C: BEMÆRKNING OM SEKVENTIEL PRØVNING AF FORRINGELSE

APPENDIKS D: BRUG AF NYHOLTS METODE TIL EFFEKTIV ANTAL UAFHÆNGIGE TEST


Anerkendelser og referencer


Abstrakt . I det seneste årti er A/B-test blevet standardmetoden til at træffe produktbeslutninger i teknologivirksomheder. De tilbyder en videnskabelig tilgang til produktudvikling, ved hjælp af statistisk hypotesetestning til at kontrollere risikoen for forkerte beslutninger. Typisk bruges flere metrics i A/B-tests for at tjene forskellige formål, såsom at etablere beviser for succes, beskytte mod regression eller verificere testens gyldighed. For at mindske risici i A/B-tests med flere udfald er det afgørende at tilpasse designet og analysen til de forskellige roller af disse resultater. Dette papir introducerer den teoretiske ramme for beslutningsregler, der styrer evalueringen af eksperimenter på Spotify. For det første viser vi, at hvis der anvendes autoværn-metrikker med non-inferioritetstest, behøver signifikansniveauet ikke at være multiplicitetsjusteret for disse test. For det andet, hvis beslutningsreglen omfatter non-inferioritetstests, forringelsestests eller tests for kvalitet, skal type II fejlprocenten korrigeres for at garantere det ønskede effektniveau for beslutningen. Vi foreslår en beslutningsregel, der omfatter succes, autoværn, forringelse og kvalitetsmålinger, der anvender forskellige tests. Dette er ledsaget af en design- og analyseplan, der mindsker risici på tværs af enhver datagenererende proces. De teoretiske resultater demonstreres ved hjælp af Monte Carlo-simuleringer.

1. INTRODUKTION

Randomiserede eksperimenter er guldstandarden for at give beviser for årsagssammenhænge. Moderne teknologivirksomheder bruger A/B-tests, et randomiseret kontrolleret forsøg i digitale omgivelser, i udstrakt grad til at evaluere effektiviteten af nye ændringer af deres produkter. Disse produkter omfatter ride-sharing apps, søgemaskiner, streamingtjenester, anbefalinger og mere. I sidste ende er målet med disse eksperimenter at beslutte, om en produktændring skal frigives mere bredt eller ej.


Det meste af litteraturen om statistisk inferens for randomiserede eksperimenter fokuserer på en enkelt hypotesetest af et enkelt udfald, og hvordan man binder type I og type II fejlrater for den test. Imidlertid er eksperimenter ikke univariate test af isolerede resultater. I stedet er de risici, der betyder noget, risiciene ved at træffe den forkerte beslutning for produktet. For eksempel ønsker vi hos en teknologivirksomhed som Spotify at begrænse, hvor ofte vi frigiver produktændringer, der viser en forbedring, når der virkelig ikke er nogen, og hvor ofte vi afstår fra at frigive ændringer, der fører til forbedringer, men vi ikke kan finde. Disse typer beslutninger omfatter typisk resultater fra flere hypotesetests. Eksperimenter involverer normalt resultater for flere resultater, og det kan være udfordrende at træffe en enkelt beslutning baseret på disse flere resultater. For eksempel kan nogle af resultaterne, hvad vi vil referere til som 'metrics', vise forbedringer, mens andre viser ingen eller endda negative effekter.


I online-eksperimentlitteraturen er det eneste aspekt af multi-test beslutningstagning, der er dækket omfattende, multiple-test korrektion. Multiple-test-korrektioner, såsom Bonferroni, Holm [7] og Hommel [8], afgrænsede type I-fejlraten for en implicit beslutningsregel, der erklærer, hvilken beslutning du vil træffe baseret på resultaterne af de individuelle hypotesetests. Som vi vil diskutere udførligt i dette papir, er den typisk forkert, medmindre din ønskede beslutningsregel stemmer overens med reglen underforstået af multiple-test-korrektionen.


I dette papir viser vi, hvordan det er muligt at formalisere beslutningsprocessen for eksperimenter uden at forlade standarden for hypotesetestning. Nøglen til at sikre, at du opnår de tilsigtede risikogrænser for produktbeslutningen, er eksplicit at specificere en beslutningsregel. En beslutningsregel specificerer udtømmende, hvilken produktbeslutning du vil træffe baseret på resultaterne af dit eksperiment. Det er vigtigt, at for at begrænse risikoen ved at træffe en fejlagtig beslutning, skal designet og analysen af dit eksperiment være nøje tilpasset beslutningsreglen.


At formulere beslutningsreglen er vigtig af flere årsager. At være uklar om, hvilke resultater der fører til en positiv produktbeslutning betyder, at der ikke er nogen mekanisme til korrekt at kontrollere risiciene ved eksperimentet på det niveau, der betyder noget for virksomheden, nemlig beslutningen om at sende funktionen eller ej. Derudover kan mangel på en artikuleret og standardiseret beslutningsregel betyde, at forskellige teams eller dele af organisationen holder sig til forskellige standarder. Vores beslutningsregelramme er en enkel, men effektiv tilgang til at bekæmpe disse problemer.


Beslutningsregelrammen hjælper med at standardisere analysen af eksperimenter og er et nyttigt værktøj til eksperimenteringsplatforme. Hvad beslutningsreglen omfatter, kan gøres mere eller mindre fleksibelt. For eksempel kan nye eksperimenter tvinges til at demonstrere, at vigtige virksomheds-metrics ikke påvirkes negativt, mens man vælger det sæt af metrics, der skal vise, at en forbedring er helt op til eksperimenteren. Selvom valget af metrics er fuldstændig vilkårligt, og ingen metrics er gjort obligatoriske af platformen, fremmer beslutningsregeltilgangen en fælles forståelse af, hvad et vellykket eksperiment er.


Gennem hele denne artikel, og uden tab af generalitet, overvejer vi kun eksperimenter med to grupper for at forenkle notation. Derudover overvejer vi kun ensidige test, selvom mere end én ensidig test kan anvendes på hver metrik. Vi begrænser os til ensidige tests, da der skal være en tilsigtet retning for, at en ændring i metrikken kan kortlægges til en målbar forbedring af produktet. For nemheds skyld antager vi, at alle metrics forbedres, når de stiger. Desuden antager vi, at hver statistisk hypotesetest er gyldig og opnår dens type I og type II fejlrate nøjagtigt, hvis eksperimentet er designet i overensstemmelse hermed.


Dette papir er tilgængelig på arxiv under CC BY 4.0 DEED-licens.


Trending Topics

blockchaincryptocurrencyhackernoon-top-storyprogrammingsoftware-developmenttechnologystartuphackernoon-booksBitcoinbooks