493 читања
493 читања

Spotify's Secret to Smarter A/B Testing (Напомена: То није само статистика)

од стране AB Test5m2025/03/30
Read on Terminal Reader

Предуго; Читати

A/B testovi pokreću odluke o proizvodima, ali višestruki parametri kompliciraju upravljanje rizikom.Spotify uvodi okvir pravila za donošenje odluka koji poboljšava eksperimentiranje, obezbeđujući pouzdane rezultate i balansirajući statističku tačnost.
featured image - Spotify's Secret to Smarter A/B Testing (Напомена: То није само статистика)
AB Test HackerNoon profile picture
0-item

Аутори:

(1) Mårten Schultzberg, team Experimentation Platform, Spotify, Stockholm, Sweden;

(2) Sebastian Ankargren, team Experimentation Platform, Spotify, Stockholm, Sweden;

(3) Mattias Frånberg, team Experimentation Platform, Spotify, Stockholm, Sweden.

Аутори:

Аутори:

(1) Mårten Schultzberg, tim Experimentation Platform, Spotify, Stockholm, Švedska;

(2) Себастијан Анкаргрен, тим Experimentation Platform, Spotify, Стокхолм, Шведска;

(3) Mattias Frånberg, tim Experimentation Platform, Spotify, Stockholm, Švedska.

Табела линкова

Апстракт и 1 Увод

Абстракт и 1 Увод

1.1 Сродној литератури

1.1 Сродној литератури
  • Типови метрике и њихова хипотеза и 2.1 Типови метрике

    2.2 Хипотезе за различите врсте метрике

  • Типови метрике и њихова хипотеза и 2.1 Типови метрике

    Типови метрике и њихова хипотеза и 2.1 Типови метрике

    2.2 Хипотезе за различите врсте метрике

    2.2 Хипотезе за различите врсте метрике
  • Тип И и Тип ИИ грешке стопе за одлучивање правила укључујући супериорност и не-инфериорност тестова

    3.1 Композитна хипотеза за супериорност и не-инфериорност тестова


    Тype I and Type II Error Rates for Decision Rules including Superiority and Non-Inferiority Tests

    Тype I and Type II Error Rates for Decision Rules including Superiority and Non-Inferiority Tests

    3.1 Композитне хипотезе тестова супериорности и неинфериорности

    3.1 Композитне хипотезе теста супериорности и неинфериорности

    3.2 Ограничавање нивоа грешке типа I и типа II за тестирање УИ и ИУ

    3.2 Ограничавање нивоа грешке типа I и типа II за тестирање УИ и ИУ

    3.3 Ограничавање стопе грешака за правило одлучивања укључујући и успех и метрику гардраил

    3.3 Ограничавање стопе грешака за правило одлучивања, укључујући и успех и мерке гардраила

    3.4 Повер корекције за не-инфериорност тестирање

    3.4 Повер корекције за не-инфериорност тестирање
  • Проширивање правила одлуке са погоршањем и критеријумима квалитета

  • Проширивање правила одлучивања са погоршањем и критеријумима квалитета

    Проширивање правила одлуке са погоршањем и квалитетом метрике
  • Monte Carlo Simulation Study

    5.1 Rezultati

  • Истраживање симулације Монте Карло

    Истраживање симулације Монте Карло

    5.1 Резултати

    5.1 Резултати
  • Разговор и закључци

  • Разговор и закључци

    Разговор и закључци


    АПРЕДИЦИЈА А: УПРАВЉАВАЊЕ ЕФФФЕКТИВНОСТИ ПРЕДЛОЖЕЊА 4.1 СА ДАННИМ АСУМПЦИЈАМА

    АПЕНДИКС А:АПЕНДИКС А: УПРАВЉАЊЕ ЕФФФЕКТИВНОСТИ ПРЕДЛОЖЕЊА 4.1 СА ДОПОДНИМ ПРЕДЛОЖЕЊАМА

    АПЕНДИКС Б: ПРИМЈЕЛИ ГЛОБАЛНЕ ЛАЖНЕ И ИСТИННЕ ПОЗИТИВНЕ ПРОЦЕСЕ

    АПЕНДИКС Б:АПЕНДИКС Б: ПРИМЕРИ ГЛОБАЛНОГ ЛАЖНОГ И ИСТИННОГ ПОЗИТИВНОГ ПРОЦЕТА

    АПЕНДИКС Ц: НАПОМЕНА О СЕКВЕНТИЈСКОМ ТЕСТУ НА ДЕТЕРИЈАЦИЈУ

    АПЕНДИКС Ц:АПЕНДИКС Ц: НАПОМЕНА О СЕКВЕНТИЈСКОМ ТЕСТУЊУ ЗА ДЕТЕРАЦИЈУ

    АПЕНДИКС Д: Коришћење НИХОЛТ метода ЕФФФИЦИЈАЛНОГ Броја Независних Теста

    АПЕНДИКС Д:АПЕНДИКС Д: Коришћење НИХОЛТ-овог метода ЕФФФИЦИЈАЛНОГ БРОЈА НЕЗАВИСНИХ ТЕСТА


    Упознавање и референце

    Упознавање и референце


    У последњој деценији, А / Б тестови су постали стандардни метод за доношење одлука о производу у технолошким компанијама. Они нуде научни приступ развоју производа, користећи статистичке хипотеза тестирање да контролишу ризике од погрешних одлука. Типично, више метрике се користе у А / Б тестовима да служе различитим сврхама, као што су успостављање доказа о успјеху, чување од регресија, или верификовање валидности теста. Да би се смањили ризици у А / Б тестовима са вишеструким исходима, кључно је прилагодити дизајн и анализу различитим улогама ових исхода. Овај документ уводи теоријски оквир за правила која усмеравају оцењивање експеримената на Спотифију. Прво, показујемоАбстракт

    1 Uvod

    Рандомизовани експерименти су златни стандард за пружање доказа о каузалним односима. Модерне технолошке компаније користе А / Б тестове, рандомизовано контролисано испитивање у дигиталном окружењу, у великој мери да процене ефикасност нових промена у својим производима.Ови производи укључују апликације за дељење вожње, претраживаче, услуге стреаминг, препоруке и још много тога.На крају, циљ ових експеримената је да одлуче да ли да пусте промену производа шире.


    Већина литературе о статистичком закључивању за рандомизоване експерименте фокусира се на тест једне хипотезе о једном резултату, и како повезати стопе грешака типа I и типа II за тај тест. Међутим, експерименти нису јединствени тестови изолованих резултата. Уместо тога, ризици који су важни су ризици доношења погрешне одлуке за производ. На пример, у технолошкој компанији као што је Спотифи, желимо да ограничимо колико често објављујемо промене производа које показују побољшање када заиста нема, и колико често се уздржавамо од објављивања промена које доводе до побољшања, али не можемо наћи. Ове врсте одлука обично укључују резултате из неколико хипотеза. Експерименти обично укључују


    <п>У онлине литератури за експериментисање, једини аспект доношења одлука на више тестова који је широко покривен је корекција на више тестова. Корекције на више тестова, као што су Бонферони, Холм [7] и Хомел [8], везују брзину грешке типа И подразумеване одлуке која указује на одлуку коју ћете донети на основу резултата појединачних тестова хипотезе. Као што ћемо детаљно размотрити у овом чланку, осим ако ваше жељено правило одлуке не одговара правилу подразумеваном корекцијом на више тестова, обично је погрешно.



    <п>У овом документу, показујемо како је могуће формализовати процес доношења одлука експеримената без напуштања стандардног оквира за тестирање хипотезе. Кључ за осигурање да добијете предвиђене границе ризика за одлуку о производу је да експлицитно наведете правило одлуке. Правило одлуке свеобухватно одређује коју одлуку о производу ћете донети на основу резултата вашег експеримента.


    <п>Картикулисање правила одлуке је важно из неколико разлога. Нејасност о томе који резултати доводе до позитивне одлуке о производу значи да не постоји механизам за правилно контролисање ризика експеримента на нивоу који је важан за компанију, односно одлуку о испоруци функције или не.Поред тога, недостатак артикулисаног и стандардизованог правила одлуке може значити да се различити тимови или делови организације држе различитих стандарда.


    <п>Рамка правила одлучивања помаже у стандардизацији анализе експеримената и користан је алат за платформе за експериментисање. Оно што правило одлучивања укључује може бити учињено више или мање флексибилно. На пример, нови експерименти могу бити присиљени да покажу да важне метрике компаније нису негативно утицане док бирају скуп метрика које би требало да покажу побољшање је у потпуности до експериментатора. Чак и ако је избор метрике потпуно произвољан без метрика које је платформа учинила обавезним, приступ правила одлучивања промовише заједничко разумијевање онога што је успешан експеримент.



    Током овог рада, и без губитка општости, разматрамо само експерименте са две групе како бисмо поједноставили нотацију. Поред тога, разматрамо само једностране тестове, иако се на сваку метрику може применити више од једног једностраног теста. Ограничавамо се на једностране тестове јер мора бити намењена правац за промену метрике како би се нацртало мерено побољшање у производу. За једноставност, претпостављамо да се све метрике побољшавају када се повећавају.


    Овај документ је доступан на arxiv под лиценцом CC BY 4.0 DEED.

    Овај документ је доступан на arxiv под лиценцом CC BY 4.0 DEED.

    доступно на arxivдоступно на arxiv


    Trending Topics

    blockchaincryptocurrencyhackernoon-top-storyprogrammingsoftware-developmenttechnologystartuphackernoon-booksBitcoinbooks