493 čítania
493 čítania

Spotify tajomstvo pre inteligentnejšie A / B testovanie (Návod: Nie je to len štatistika)

podľa AB Test5m2025/03/30
Read on Terminal Reader

Príliš dlho; Čítať

A/B testovanie vedie k rozhodnutiam o produktoch, ale viaceré ukazovatele komplikujú riadenie rizík.Spotify zavádza rámec pravidiel rozhodovania na zdokonalenie experimentovania, čím zabezpečuje spoľahlivé výsledky a zároveň vyvažuje štatistickú presnosť.
featured image - Spotify tajomstvo pre inteligentnejšie A / B testovanie (Návod: Nie je to len štatistika)
AB Test HackerNoon profile picture
0-item

Autori:

(1) Mårten Schultzberg, tím experimentálnej platformy, Spotify, Štokholm, Švédsko;

(2) Sebastian Ankargren, tím experimentálnej platformy, Spotify, Štokholm, Švédsko;

(3) Mattias Frånberg, tím experimentálnej platformy, Spotify, Štokholm, Švédsko.

Tabuľka odkazov

Abstrakt a 1 Úvod

1.1 Súvisiaca literatúra

  1. Typy metrík a ich hypotéza a 2.1 Typy metrík

    2.2 Hypotézy pre rôzne typy metrík

  2. Chybovosť typu I a typu II pre pravidlá rozhodovania vrátane testov nadradenosti a nepodradenosti

    3.1 Zložené hypotézy testov nadradenosti a nie menejcennosti

    3.2 Ohraničenie chybovosti typu I a typu II pre testovanie UI a IU

    3.3 Ohraničenie chybovosti pre rozhodovacie pravidlo vrátane metrík úspešnosti a mantinelov

    3.4 Výkonové korekcie pre testovanie non-inferiority

  3. Rozšírenie rozhodovacieho pravidla o metriky zhoršenia a kvality

  4. Simulačná štúdia Monte Carlo

    5.1 Výsledky

  5. Diskusia a závery


PRÍLOHA A: ZLEPŠENIE EFEKTÍVNOSTI NÁVRHU 4.1 S ĎALŠÍMI PREDPOKLADMI

PRÍLOHA B: PRÍKLADY GLOBÁLNYCH NEPRAVDIVÝCH A SKUTOČNÝCH POZITÍVNYCH SADZieb

PRÍLOHA C: POZNÁMKA K POSTUPNÉMU TESTOVANIU PORUŠOVANIA

PRÍLOHA D: POUŽITIE NYHOLTOVEJ METÓDY EFEKTÍVNEHO POČTU NEZÁVISLÝCH TESTOV


Poďakovanie a referencie


Abstraktné . V poslednom desaťročí sa A/B testy stali štandardnou metódou rozhodovania o produktoch v technologických spoločnostiach. Ponúkajú vedecký prístup k vývoju produktov pomocou testovania štatistických hypotéz na kontrolu rizík nesprávnych rozhodnutí. Typicky sa v A/B testoch používa viacero metrík, ktoré slúžia na rôzne účely, ako je stanovenie dôkazov o úspechu, ochrana pred regresiou alebo overenie platnosti testu. Na zmiernenie rizík v A/B testoch s viacerými výstupmi je dôležité prispôsobiť dizajn a analýzu rôznym úlohám týchto výsledkov. Tento článok predstavuje teoretický rámec rozhodovacích pravidiel, ktorými sa riadi hodnotenie experimentov na Spotify. Po prvé, ukážeme, že ak sa použijú metriky ochranného zábradlia s testami non-inferiority, nie je potrebné pre tieto testy upravovať úroveň významnosti. Po druhé, ak rozhodovacie pravidlo zahŕňa testy nepodradenosti, testy zhoršenia alebo testy kvality, chybovosť typu II sa musí opraviť, aby sa zaručila požadovaná úroveň výkonu pre rozhodnutie. Navrhujeme rozhodovacie pravidlo zahŕňajúce úspešnosť, mantinely, zhoršenie kvality a metriky, využívajúce rôzne testy. Toto je sprevádzané návrhom a plánom analýzy, ktorý zmierňuje riziká v rámci akéhokoľvek procesu generovania údajov. Teoretické výsledky sú demonštrované pomocou simulácií Monte Carlo.

1. ÚVOD

Randomizované experimenty sú zlatým štandardom na poskytovanie dôkazov o kauzálnych vzťahoch. Moderné technologické spoločnosti používajú A/B testy, randomizovanú kontrolovanú skúšku v digitálnom prostredí, vo veľkej miere na vyhodnotenie účinnosti nových zmien svojich produktov. Tieto produkty zahŕňajú aplikácie na zdieľanie jázd, vyhľadávače, streamovacie služby, odporúčania a ďalšie. V konečnom dôsledku je cieľom týchto experimentov rozhodnúť, či vydať zmenu produktu vo väčšom rozsahu alebo nie.


Väčšina literatúry o štatistickej inferencii pre randomizované experimenty sa zameriava na test jedinej hypotézy jedného výsledku a na to, ako pre daný test prepojiť chybovosť typu I a typu II. Experimenty však nie sú jednorozmernými testami izolovaných výsledkov. Namiesto toho sú dôležité riziká spojené s nesprávnym rozhodnutím o produkte. Napríklad v technologickej spoločnosti, ako je Spotify, chceme obmedziť, ako často vydávame zmeny produktov, ktoré ukazujú zlepšenie, keď v skutočnosti žiadne nie sú, a ako často sa vyhýbame vydávaniu zmien, ktoré vedú k zlepšeniam, ale nedokážeme ich nájsť. Tieto typy rozhodnutí zvyčajne zahŕňajú výsledky niekoľkých testov hypotéz. Experimenty zvyčajne zahŕňajú výsledky pre viaceré výsledky a urobiť jediné rozhodnutie na základe týchto viacerých výsledkov môže byť náročné. Napríklad niektoré výsledky, ktoré budeme označovať ako „metriky“, môžu vykazovať zlepšenia, zatiaľ čo iné nevykazujú žiadne alebo dokonca negatívne účinky.


V online experimentálnej literatúre je jediným aspektom rozhodovania o viacerých testoch, ktorý je široko pokrytý, korekcia viacerých testov. Opravy s viacnásobným testovaním, ako napríklad Bonferroni, Holm [7] a Hommel [8], obmedzujú chybovosť I. typu implicitného rozhodovacieho pravidla, ktoré deklaruje, aké rozhodnutie urobíte na základe výsledkov testov jednotlivých hypotéz. Ako budeme podrobne diskutovať v tomto dokumente, pokiaľ sa vaše požadované rozhodovacie pravidlo nezhoduje s pravidlom vyplývajúcim z opravy viacnásobného testovania, je zvyčajne nesprávne.


V tomto príspevku ukazujeme, ako je možné formalizovať rozhodovací proces experimentov bez opustenia štandardného rámca testovania hypotéz. Kľúčom k tomu, aby ste sa uistili, že získate zamýšľané hranice rizika pre rozhodnutie o produkte, je explicitne špecifikovať rozhodovacie pravidlo. Rozhodovacie pravidlo vyčerpávajúco špecifikuje, aké rozhodnutie o produkte urobíte na základe výsledkov vášho experimentu. Dôležité je, že ak chcete obmedziť riziko chybného rozhodnutia, návrh a analýza vášho experimentu musia byť úzko zosúladené s rozhodovacím pravidlom.


Sformulovanie rozhodovacieho pravidla je dôležité z niekoľkých dôvodov. Nejasnosť v tom, aké výsledky vedú k pozitívnemu rozhodnutiu o produkte, znamená, že neexistuje žiadny mechanizmus na správne riadenie rizík experimentu na úrovni, ktorá je pre spoločnosť dôležitá, konkrétne rozhodnutie dodať funkciu alebo nie. Okrem toho, nedostatok formulovaného a štandardizovaného rozhodovacieho pravidla môže znamenať, že rôzne tímy alebo časti organizácie sa držia rôznych štandardov. Náš rámec rozhodovacích pravidiel predstavuje jednoduchý, ale účinný prístup na boj proti týmto problémom.


Rámec rozhodovacích pravidiel pomáha štandardizovať analýzu experimentov a je užitočným nástrojom pre experimentálne platformy. To, čo pravidlo rozhodovania zahŕňa, môže byť viac alebo menej flexibilné. Napríklad nové experimenty môžu byť nútené preukázať, že dôležité metriky spoločnosti nie sú negatívne ovplyvnené, zatiaľ čo výber súboru metrík, ktoré by mali ukázať zlepšenie, závisí výlučne od experimentátora. Aj keď je výber metrík úplne svojvoľný a platforma nevyžaduje žiadne metriky, prístup rozhodovacích pravidiel podporuje zdieľanie chápania toho, čo je úspešný experiment.


V celom tomto článku a bez straty všeobecnosti uvažujeme iba o experimentoch s dvoma skupinami na zjednodušenie zápisu. Okrem toho berieme do úvahy iba jednostranné testy, hoci na každú metriku možno použiť viac ako jeden jednostranný test. Obmedzujeme sa na jednostranné testy, pretože musí existovať zamýšľaný smer zmeny metriky, ktorá by mapovala merateľné zlepšenie produktu. Pre jednoduchosť predpokladáme, že všetky metriky sa zlepšujú, keď sa zvyšujú. Okrem toho predpokladáme, že každý test štatistickej hypotézy je platný a dosahuje svoju chybovosť typu I a typu II presne, ak je experiment zodpovedajúcim spôsobom navrhnutý.


Tento papier je k dispozícii na arxiv pod licenciou CC BY 4.0 DEED.


Trending Topics

blockchaincryptocurrencyhackernoon-top-storyprogrammingsoftware-developmenttechnologystartuphackernoon-booksBitcoinbooks