为什么样本量很重要

样本量是A/B测试成功的基石。太小的样本量可能导致即使存在真实差异也无法检测出来,浪费时间和资源。太大的样本量虽然能检测到微小差异,但可能花费过多时间,而且微小差异可能没有业务价值。找到合适的样本量是实验设计的关键环节。

样本量直接影响统计功效,即在存在真实差异时检测到差异的概率。低功效意味着很多有效改进会被忽略,高功效则能可靠地发现改进。通常我们希望功效达到80%或90%,这意味着有80%或90%的机会发现真实存在的差异。

影响样本量的因素

样本量取决于几个关键因素。首先是预期的效应大小,较大的效应需要较少的样本就能检测。其次是基线转化率,低转化率需要更多样本。第三是统计功效目标,更高的功效需要更多样本。最后是显著性水平,更严格的显著性要求需要更多样本。

理解这些因素的相互作用非常重要。如果预期效应很小(如1%的转化率提升),需要大量样本才能可靠检测。如果基线转化率很低(如1%),同样的相对提升需要更多样本。因此在设计实验前,需要对这些参数有合理的预估。

计算公式与方法

样本量计算基于统计理论,主要公式涉及两个样本比例的比较。对于转化率类指标,公式考虑了基线转化率、预期提升、显著性水平和统计功效。简化公式为:样本量 ≈ 16 * σ^2 / Δ^2,其中σ是方差,Δ是预期差异。

实际操作中,我们通常使用在线计算器或专业工具。这些工具需要输入基线转化率、最小可检测效应、显著性水平和统计功效,然后输出所需样本量。常用的工包括Evan Miller的样本量计算器、Optimizely的计算工具等。

最小可检测效应

最小可检测效应(MDE)是样本量计算的核心参数。它代表你希望能够检测到的最小改进幅度。设定过小的MDE会导致需要巨大样本量,设定过大则可能错过有价值的改进。

确定MDE需要考虑业务实际。首先评估历史改进的典型幅度,了解产品的优化空间。其次考虑改进的业务价值,一个0.1%的提升在大流量下可能价值巨大。第三要平衡检测成本与发现价值的关系。合理的MDE应该既能检测有意义的改进,又不需要过长的实验周期。

样本量不足的风险

样本量不足会导致多种问题。最直接的是统计功效低,大量真实改进无法被发现。其次是置信区间宽,结果不确定性高。第三是容易受随机波动影响,可能出现假阳性或假阴性结果。

更重要的是,样本量不足可能导致错误的业务决策。一个本应有效的改进被判定为无效,会错过增长机会。反之,一个无效的改动可能因为随机波动被误判为有效,导致错误的落地决策。这些错误决策的代价可能远超延长实验的成本。

实践中的样本量估算

在实际项目中估算样本量,首先要了解日常流量。计算日均活跃用户数、页面浏览量等基础数据。然后根据MDE计算所需总样本量,除以日均流量得到预计实验时长。

如果实验时长过长,需要调整策略。可以考虑提高MDE要求,接受检测较大改进。可以扩大实验范围,增加更多页面或用户群。可以使用方差减少技术,提高检测效率。还可以考虑多臂老虎机算法,动态优化流量分配。这些方法都能在不降低结果可靠性的前提下,缩短实验周期。