Аутори:
(1) Mårten Schultzberg, team Experimentation Platform, Spotify, Stockholm, Sweden;
(2) Sebastian Ankargren, team Experimentation Platform, Spotify, Stockholm, Sweden;
(3) Mattias Frånberg, team Experimentation Platform, Spotify, Stockholm, Sweden.
Аутори:
Аутори:(1) Mårten Schultzberg, tim Experimentation Platform, Spotify, Stockholm, Švedska;
(2) Себастијан Анкаргрен, тим Experimentation Platform, Spotify, Стокхолм, Шведска;
(3) Mattias Frånberg, tim Experimentation Platform, Spotify, Stockholm, Švedska.
Табела линкова
Абстракт и 1 Увод1.1 Сродној литератури2.2 Хипотезе за различите врсте метрике
2.2 Хипотезе за различите врсте метрикеТип И и Тип ИИ грешке стопе за одлучивање правила укључујући супериорност и не-инфериорност тестова
3.1 Композитна хипотеза за супериорност и не-инфериорност тестова
Тype I and Type II Error Rates for Decision Rules including Superiority and Non-Inferiority Tests
Тype I and Type II Error Rates for Decision Rules including Superiority and Non-Inferiority Tests3.1 Композитне хипотезе тестова супериорности и неинфериорности
3.1 Композитне хипотезе теста супериорности и неинфериорности3.2 Ограничавање нивоа грешке типа I и типа II за тестирање УИ и ИУ
3.2 Ограничавање нивоа грешке типа I и типа II за тестирање УИ и ИУ3.3 Ограничавање стопе грешака за правило одлучивања укључујући и успех и метрику гардраил
3.3 Ограничавање стопе грешака за правило одлучивања, укључујући и успех и мерке гардраила3.4 Повер корекције за не-инфериорност тестирање
3.4 Повер корекције за не-инфериорност тестирањеПроширивање правила одлуке са погоршањем и критеријумима квалитета
Проширивање правила одлучивања са погоршањем и критеријумима квалитета
Проширивање правила одлуке са погоршањем и квалитетом метрикеИстраживање симулације Монте Карло
Истраживање симулације Монте Карло5.1 Резултати
АПРЕДИЦИЈА А: УПРАВЉАВАЊЕ ЕФФФЕКТИВНОСТИ ПРЕДЛОЖЕЊА 4.1 СА ДАННИМ АСУМПЦИЈАМА
АПЕНДИКС А:АПЕНДИКС А: УПРАВЉАЊЕ ЕФФФЕКТИВНОСТИ ПРЕДЛОЖЕЊА 4.1 СА ДОПОДНИМ ПРЕДЛОЖЕЊАМААПЕНДИКС Б: ПРИМЈЕЛИ ГЛОБАЛНЕ ЛАЖНЕ И ИСТИННЕ ПОЗИТИВНЕ ПРОЦЕСЕ
АПЕНДИКС Б:АПЕНДИКС Б: ПРИМЕРИ ГЛОБАЛНОГ ЛАЖНОГ И ИСТИННОГ ПОЗИТИВНОГ ПРОЦЕТААПЕНДИКС Ц: НАПОМЕНА О СЕКВЕНТИЈСКОМ ТЕСТУ НА ДЕТЕРИЈАЦИЈУ
АПЕНДИКС Ц:АПЕНДИКС Ц: НАПОМЕНА О СЕКВЕНТИЈСКОМ ТЕСТУЊУ ЗА ДЕТЕРАЦИЈУАПЕНДИКС Д: Коришћење НИХОЛТ метода ЕФФФИЦИЈАЛНОГ Броја Независних Теста
АПЕНДИКС Д:АПЕНДИКС Д: Коришћење НИХОЛТ-овог метода ЕФФФИЦИЈАЛНОГ БРОЈА НЕЗАВИСНИХ ТЕСТА
1 Uvod
Рандомизовани експерименти су златни стандард за пружање доказа о каузалним односима. Модерне технолошке компаније користе А / Б тестове, рандомизовано контролисано испитивање у дигиталном окружењу, у великој мери да процене ефикасност нових промена у својим производима.Ови производи укључују апликације за дељење вожње, претраживаче, услуге стреаминг, препоруке и још много тога.На крају, циљ ових експеримената је да одлуче да ли да пусте промену производа шире.
Већина литературе о статистичком закључивању за рандомизоване експерименте фокусира се на тест једне хипотезе о једном резултату, и како повезати стопе грешака типа I и типа II за тај тест. Међутим, експерименти нису јединствени тестови изолованих резултата. Уместо тога, ризици који су важни су ризици доношења погрешне одлуке за производ. На пример, у технолошкој компанији као што је Спотифи, желимо да ограничимо колико често објављујемо промене производа које показују побољшање када заиста нема, и колико често се уздржавамо од објављивања промена које доводе до побољшања, али не можемо наћи. Ове врсте одлука обично укључују резултате из неколико хипотеза. Експерименти обично укључују
Током овог рада, и без губитка општости, разматрамо само експерименте са две групе како бисмо поједноставили нотацију. Поред тога, разматрамо само једностране тестове, иако се на сваку метрику може применити више од једног једностраног теста. Ограничавамо се на једностране тестове јер мора бити намењена правац за промену метрике како би се нацртало мерено побољшање у производу. За једноставност, претпостављамо да се све метрике побољшавају када се повећавају.
Овај документ је
Овај документ је