493 測定値
493 測定値

SpotifyのSmart A/Bテストの秘密(ヒント:統計だけではない)

AB Test5m2025/03/30
Read on Terminal Reader

長すぎる; 読むには

A/Bテストは製品の決定を促進するが、複数の指標はリスク管理を複雑にする。Spotifyは、統計的精度をバランスを取る一方で信頼できる結果を確保する実験を改善するための決定ルール枠組みを導入する。
featured image - SpotifyのSmart A/Bテストの秘密(ヒント:統計だけではない)
AB Test HackerNoon profile picture
0-item

著者:

(1) Mårten Schultzberg、実験プラットフォーム チーム、Spotify、ストックホルム、スウェーデン;

(2)セバスチャン・アンカーグレン、実験プラットフォームチーム、Spotify、スウェーデン・ストックホルム

(3) Mattias Frånberg、実験プラットフォーム チーム、Spotify、ストックホルム、スウェーデン。

リンク一覧

要約と1 はじめに

1.1 関連文献

  1. 指標の種類とその仮説および2.1 指標の種類

    2.2 さまざまな指標に関する仮説

  2. 優位性および非劣性検定を含む決定ルールのタイプ I およびタイプ II のエラー率

    3.1 優位性検定と非劣性検定の複合仮説

    3.2 UIおよびIUテストのタイプIおよびタイプIIエラー率の境界設定

    3.3 成功指標とガードレール指標の両方を含む決定ルールのエラー率の制限

    3.4 非劣性検定における検出力補正

  3. 劣化と品質の指標による決定ルールの拡張

  4. モンテカルロシミュレーション研究

    5.1 結果

  5. 議論と結論


付録A:追加の仮定による命題4.1の効率性の向上

付録B:世界的な偽陽性率と真陽性率の例

付録C:劣化の連続試験に関する注記

付録 D: NYHOLT の効率的な独立検定回数法の使用


謝辞と参考文献


要約。過去 10 年間で、A/B テストはテクノロジー企業における製品決定の標準的な方法になりました。統計的仮説検定を使用して誤った決定のリスクを制御することで、製品開発に科学的なアプローチを提供します。通常、A/B テストでは、成功の証拠の確立、回帰の防止、テストの有効性の検証など、さまざまな目的で複数の指標が使用されます。複数の結果を持つ A/B テストのリスクを軽減するには、これらの結果のさまざまな役割に合わせて設計と分析を適応させることが重要です。この論文では、Spotify での実験の評価を導く決定ルールの理論的枠組みを紹介します。まず、非劣性テストを含むガードレール指標を使用する場合、それらのテストの有意水準を多重性調整する必要がないことを示します。次に、決定ルールに非劣性テスト、劣化テスト、または品質テストが含まれる場合、決定の望ましい検出力レベルを保証するためにタイプ II の誤り率を修正する必要があります。さまざまなテストを採用し、成功、ガードレール、劣化、品質の指標を網羅した決定ルールを提案します。これには、あらゆるデータ生成プロセス全体のリスクを軽減する設計および分析計画が伴います。理論的な結果は、モンテカルロ シミュレーションを使用して実証されます。

1. はじめに

ランダム化実験は、因果関係の証拠を提供するためのゴールドスタンダードです。現代のテクノロジー企業は、デジタル環境でのランダム化比較試験である A/B テストを、自社製品の新しい変更の有効性を評価するために広範に使用しています。これらの製品には、ライドシェア アプリ、検索エンジン、ストリーミング サービス、推奨などが含まれます。最終的に、これらの実験の目的は、製品の変更をより広範囲にリリースするかどうかを決定することです。


ランダム化実験の統計的推論に関する文献のほとんどは、単一の結果に対する単一の仮説検定と、その検定のタイプ I およびタイプ II の誤り率をどのように制限するかに焦点を当てています。ただし、実験は孤立した結果の単変量検定ではありません。重要なリスクは、製品に対して誤った決定を下すリスクです。たとえば、Spotify のようなテクノロジー企業では、実際には改善が見られないのに改善を示す製品変更をリリースする頻度や、改善につながるのに改善が見つからない変更のリリースを控える頻度を制限したいと考えています。これらの種類の決定には通常、複数の仮説検定の結果が含まれます。実験には通常、複数の結果の結果が含まれ、これらの複数の結果に基づいて単一の決定を下すのは難しい場合があります。たとえば、結果の一部 (「メトリクス」と呼ぶ) は改善を示しますが、他の結果はまったく改善を示さず、マイナスの影響さえ示します。


オンライン実験の文献では、多重テストによる意思決定で広く取り上げられているのは多重テスト補正だけです。Bonferroni、Holm [7]、Hommel [8] などの多重テスト補正は、個々の仮説テストの結果に基づいてどのような決定を下すかを宣言する暗黙の決定ルールのタイプ I の誤り率を制限します。この論文で詳しく説明するように、目的の決定ルールが多重テスト補正によって暗示されるルールと一致しない限り、通常は正しくありません。


この論文では、標準的な仮説検定フレームワークを離れることなく、実験の意思決定プロセスを形式化する方法を説明します。製品決定の意図したリスク境界を確実に得るための鍵は、決定ルールを明示的に指定することです。決定ルールは、実験の結果に基づいて行う製品決定を網羅的に指定します。重要なのは、誤った決定を行うリスクを制限するために、実験の設計と分析を決定ルールと密接に一致させる必要があるということです。


意思決定ルールを明確にすることは、いくつかの理由から重要です。どのような結果が製品に関する肯定的な決定につながるかが明確でないと、企業にとって重要なレベル、つまり機能を出荷するかどうかの決定において、実験のリスクを適切に制御するメカニズムが存在しないことになります。さらに、明確かつ標準化された意思決定ルールがないと、組織内のさまざまなチームや部門が異なる基準を自らに課すことになります。当社の意思決定ルール フレームワークは、これらの問題に対処するためのシンプルですが効果的なアプローチです。


決定ルール フレームワークは、実験の分析を標準化するのに役立ち、実験プラットフォームにとって便利なツールです。決定ルールに含める内容は、多かれ少なかれ柔軟にすることができます。たとえば、新しい実験では、重要な企業指標が悪影響を受けないことを実証するように強制できますが、改善を示す指標のセットの選択は完全に実験者に任されています。プラットフォームによって必須とされる指標がなく、指標の選択が完全に任意である場合でも、決定ルール アプローチは、成功した実験とは何かについての共通理解を促進します。


この論文では、一般性を損なうことなく、表記を簡略化するために 2 つのグループによる実験のみを検討します。また、各メトリックに複数の片側テストが適用される場合もありますが、片側テストのみを検討します。メトリックの変更が製品の測定可能な改善にマッピングされるには、意図された方向性がなければならないため、片側テストに限定します。簡単にするために、すべてのメトリックは増加すると改善されると仮定します。さらに、実験が適切に設計されている場合、各統計的仮説テストは有効であり、タイプ I およびタイプ II のエラー率を正確に達成すると仮定します。


この論文はarxivで入手可能CC BY 4.0 DEED ライセンスに基づきます。


Trending Topics

blockchaincryptocurrencyhackernoon-top-storyprogrammingsoftware-developmenttechnologystartuphackernoon-booksBitcoinbooks