样本量计算：确保实验结果可靠的关键

为什么样本量很重要

样本量是A/B测试成功的基石。太小的样本量可能导致即使存在真实差异也无法检测出来，浪费时间和资源。太大的样本量虽然能检测到微小差异，但可能花费过多时间，而且微小差异可能没有业务价值。找到合适的样本量是实验设计的关键环节。

样本量直接影响统计功效，即在存在真实差异时检测到差异的概率。低功效意味着很多有效改进会被忽略，高功效则能可靠地发现改进。通常我们希望功效达到80%或90%，这意味着有80%或90%的机会发现真实存在的差异。

样本量取决于几个关键因素。首先是预期的效应大小，较大的效应需要较少的样本就能检测。其次是基线转化率，低转化率需要更多样本。第三是统计功效目标，更高的功效需要更多样本。最后是显著性水平，更严格的显著性要求需要更多样本。

理解这些因素的相互作用非常重要。如果预期效应很小（如1%的转化率提升），需要大量样本才能可靠检测。如果基线转化率很低（如1%），同样的相对提升需要更多样本。因此在设计实验前，需要对这些参数有合理的预估。

样本量计算基于统计理论，主要公式涉及两个样本比例的比较。对于转化率类指标，公式考虑了基线转化率、预期提升、显著性水平和统计功效。简化公式为：样本量 ≈ 16 * σ^2 / Δ^2，其中σ是方差，Δ是预期差异。

实际操作中，我们通常使用在线计算器或专业工具。这些工具需要输入基线转化率、最小可检测效应、显著性水平和统计功效，然后输出所需样本量。常用的工包括Evan Miller的样本量计算器、Optimizely的计算工具等。

最小可检测效应（MDE）是样本量计算的核心参数。它代表你希望能够检测到的最小改进幅度。设定过小的MDE会导致需要巨大样本量，设定过大则可能错过有价值的改进。

确定MDE需要考虑业务实际。首先评估历史改进的典型幅度，了解产品的优化空间。其次考虑改进的业务价值，一个0.1%的提升在大流量下可能价值巨大。第三要平衡检测成本与发现价值的关系。合理的MDE应该既能检测有意义的改进，又不需要过长的实验周期。

样本量不足会导致多种问题。最直接的是统计功效低，大量真实改进无法被发现。其次是置信区间宽，结果不确定性高。第三是容易受随机波动影响，可能出现假阳性或假阴性结果。

更重要的是，样本量不足可能导致错误的业务决策。一个本应有效的改进被判定为无效，会错过增长机会。反之，一个无效的改动可能因为随机波动被误判为有效，导致错误的落地决策。这些错误决策的代价可能远超延长实验的成本。

在实际项目中估算样本量，首先要了解日常流量。计算日均活跃用户数、页面浏览量等基础数据。然后根据MDE计算所需总样本量，除以日均流量得到预计实验时长。

如果实验时长过长，需要调整策略。可以考虑提高MDE要求，接受检测较大改进。可以扩大实验范围，增加更多页面或用户群。可以使用方差减少技术，提高检测效率。还可以考虑多臂老虎机算法，动态优化流量分配。这些方法都能在不降低结果可靠性的前提下，缩短实验周期。