Spotify的秘密更聪明的A / B测试(提示:这不仅仅是统计数据)

在过去的十年中,A/B测试已成为技术公司做出产品决策的标准方法。它们提供了对产品开发的科学方法,使用统计假设测试来控制错误决策的风险。通常,在A/B测试中使用多种指标用于不同的目的,例如建立成功的证据,防御回归,或验证测试的有效性。为了减轻在A/B测试中具有多种结果的风险,对这些结果的不同角色进行设计和分析至关重要。本文介绍了指导实验评估的规则的理论框架,例如Spotify。首先,我们表明,如果使用非劣等性测试的防护指标,重要性水平不需要对这些测试进行多重调整。其次,如果规则包括非劣等性测试,在测试中进行恶化,必须使用模拟的质量分析或类摘要 1 介绍
随机实验是提供因果关系证据的黄金标准。现代技术公司使用A/B测试,这是一种数字环境中的随机控制试验,广泛评估其产品新变化的有效性。

对于随机实验的统计推断的大多数文献都集中在单个结果的假设测试上,以及如何将类型I和类型II的错误率与该测试联系起来。然而,实验不是单一的孤立结果的测试。相反,所涉及的风险是对产品做出错误的决定的风险。例如,在像Spotify这样的技术公司,我们想要限制我们在实际上没有改进的情况下发布产品更改的频率,以及我们如何经常避免发布导致改进的更改,但我们无法找到。

在在线实验文献中,多测试决策的唯一方面是广泛涵盖的多测试纠正。多测试纠正,如Bonferroni,Holm [7]和Hommel [8],约束了暗示决策规则的I类错误率,该规则声明你将根据个别假设测试的结果做出什么决定。

在本文中,我们展示了如何在不离开标准假设测试框架的情况下正式化实验的决策过程。确保您获得产品决策的预期风险限制的关键是明确指定一个决策规则。

决定规则的阐述有几个原因。不清楚结果导致积极的产品决定意味着没有在公司重要水平上正确控制实验风险的机制,即决定是否发送该功能。

决策规则框架有助于标准化实验分析,是实验平台的有用工具。决策规则包含的内容可以更或更少地灵活化。例如,新的实验可以被迫证明重要的公司指标不会受到负面影响,而选择应该显示改进的指标组完全取决于实验者。

在这篇论文中,没有失去普遍性,我们只考虑两组实验来简化标记。此外,我们只考虑单方面测试,尽管每个指标可能适用于多于一个单方面测试。我们限制自己进行单方面测试,因为指标的改变必须有意向,以便对产品进行可测量的改进。为了简单性,我们假定所有指标在增加时会得到改善。此外,我们假定每个统计假设测试是有效的,并且如果实验被相应设计,就会达到其类型I和类型II的错误率。

本论文是在 CC BY 4.0 DEED 许可证下在 arxiv上可用。
本文是可用在 arxiv 根据 CC BY 4.0 DEED 许可证。在 arxiv 上可用可在 arxiv 上找到

Spotify的秘密更聪明的A / B测试(提示:这不仅仅是统计数据)

太長; 讀書

链接表

1 介绍

About Author

標籤

这篇文章刊登在...

Categories

Trending Topics

Spotify的秘密更聪明的A / B测试(提示:这不仅仅是统计数据)

太長; 讀書

链接表

1 介绍

About Author

標籤

这篇文章刊登在...

相關故事

Categories

Trending Topics