AB实验

2024年5月23日创建
AB实验基础
实际应用中的假设检验种类很多,便于理解,我们以最常见的大样本下的双边均值检验为例:
原假设:
备择假设:
第一类错误:
解读:我的新策略其实没用,但是实验结果却显示我的策略有用。
第二类错误:
解读:“我的新策略其实有效,但是实验没检验出来。”
显著性水平
: 可接受的犯第一类错误的可能性上界,常见取值:0.01, 0.05, 0.1等。
p-value:
在原假设
成立的情况下,检验统计量出现当前值或者更极端值的可能性。
解读:在策略没有真实影响的情况下,观测到现在的数据、或更极端数据的可能。
: 犯第二类错误的概率。
统计功效:
解读:“如果我的策略是有效的,有多大概率能在实验中检测出来。”
统计效力 vs 样本量
Δ是两组样本均值之差, σ为各组标准差,n为样本数。由公式求导可知,当
和指标方差不变的情况下,样本量越小,power越小,反之亦然。
MDE:最小可检测单位,即检验灵敏度,是实验在当前条件下能有效检测的指标diff幅度。