作者:
(1) Mårten Schultzberg,实验平台团队,Spotify,斯德哥尔摩,瑞典;
(2) Sebastian Ankargren,实验平台团队,Spotify,斯德哥尔摩,瑞典;
(3) Mattias Frånberg,实验平台团队,Spotify,斯德哥尔摩。
作者:
作者:(1) Mårten Schultzberg,实验平台团队,Spotify,斯德哥尔摩,瑞典;
(2) Sebastian Ankargren,实验平台团队,Spotify,斯德哥尔摩,瑞典;
(3) Mattias Frånberg,实验平台团队,Spotify,斯德哥尔摩,瑞典。
链接表
摘要和 1 介绍1.1 相关文献此分類上一篇:Type I和Type II错误率的决定规则包括优越性和不劣等测试
包括优越性和非劣等性测试在内的决策规则的I型和II型错误率3.1 优越性和非劣等性测试的复合假设3.2 限制 UI 和 IU 测试的 I 和 II 类型的错误率
3.2 限制 UI 和 IU 测试的 I 和 II 类型的错误率3.3 限制决策规则的错误率,包括成功和防线指标3.4 功率修正不低级别测试
APPENDIX D:使用NYHOLT的有效數量獨立測試方法
APPENDIX D:APPENDIX D:使用NYHOLT的有效數量獨立測試方法
1 介绍
随机实验是提供因果关系证据的黄金标准。现代技术公司使用A/B测试,这是一种数字环境中的随机控制试验,广泛评估其产品新变化的有效性。
对于随机实验的统计推断的大多数文献都集中在单个结果的假设测试上,以及如何将类型I和类型II的错误率与该测试联系起来。然而,实验不是单一的孤立结果的测试。相反,所涉及的风险是对产品做出错误的决定的风险。例如,在像Spotify这样的技术公司,我们想要限制我们在实际上没有改进的情况下发布产品更改的频率,以及我们如何经常避免发布导致改进的更改,但我们无法找到。
在在线实验文献中,多测试决策的唯一方面是广泛涵盖的多测试纠正。多测试纠正,如Bonferroni,Holm [7]和Hommel [8],约束了暗示决策规则的I类错误率,该规则声明你将根据个别假设测试的结果做出什么决定。
在本文中,我们展示了如何在不离开标准假设测试框架的情况下正式化实验的决策过程。确保您获得产品决策的预期风险限制的关键是明确指定一个决策规则。
决定规则的阐述有几个原因。不清楚结果导致积极的产品决定意味着没有在公司重要水平上正确控制实验风险的机制,即决定是否发送该功能。
决策规则框架有助于标准化实验分析,是实验平台的有用工具。决策规则包含的内容可以更或更少地灵活化。例如,新的实验可以被迫证明重要的公司指标不会受到负面影响,而选择应该显示改进的指标组完全取决于实验者。
在这篇论文中,没有失去普遍性,我们只考虑两组实验来简化标记。此外,我们只考虑单方面测试,尽管每个指标可能适用于多于一个单方面测试。我们限制自己进行单方面测试,因为指标的改变必须有意向,以便对产品进行可测量的改进。为了简单性,我们假定所有指标在增加时会得到改善。此外,我们假定每个统计假设测试是有效的,并且如果实验被相应设计,就会达到其类型I和类型II的错误率。