ab测试成功案例有什么(AB test 业务价值原理流程和实际案例)

当我们设计了一个新的功能模块、策划了某种活动或者有多种方案不知如何抉择时,想要验证新的功能模块或者活动上线是否能给业务带来显著的收益,但由于受到个人思维的局限性以及全量用户的不可调研性,可能会导致一个功能的预期效果与实际线上后的效果存在认知、实用上的差异。

一、AB test的业务价值

当我们设计了一个新的功能模块、策划了某种活动或者有多种方案不知如何抉择时,想要验证新的功能模块或者活动上线是否能给业务带来显著的收益,但由于受到个人思维的局限性以及全量用户的不可调研性,可能会导致一个功能的预期效果与实际线上后的效果存在认知、实用上的差异。

AB test 业务价值、原理流程和实际案例

因此,为了更科学合理地验证一个功能上线是否能给业务带来显著收益,就需要用户自己「用脚投票」,通过用户的行为数据分析所关注的核心指标是否显著变化来验证新功能上线带来的收益效果。

基于这一目的,多数互联网公司会采取 AB 测试来寻找能够为所关注核心指标带来最大收益的功能方案。

二、AB测试的专业名词解释

显著性水平α:犯第一类错误的概率。

置信水平(置信度):把没有犯第一类错误的概率 1-α 成为置信水平,也就是有多大把握认为变量的真值存在于我们计算出的这个范围内。

置信区间:在置信水平下计算出的变量存在的范围。比如,在95%的置信度下,我们可以不严谨地认为95%的把握算出的置信区间包含变量的真值。实际含义是随机抽取100个样本算出来的100个置信区间有95个是包含真值的。

统计功效 (1-β ):不犯第二类错误的概率,一般情况下,β取值为0.2,则统计功效的取值为0.8

p-value:在原假设H0成立的条件下,检验统计量Z出现给定观测值或者比之更极端值的概率。如果P-value小于α,则拒绝原假设,接受备择假设

三、统计学基础知识

3.1 大数定理

>>伯努利大数定律

随着试验次数增多,在某种收敛意义下,频率的极限是概率,比如当样本足够大时,如果一个页面广告的点击率是6%,则当一个新的用户过来,我们认为它点击广告的概率为6%。

3.2 中心极限定理

对独立同分布且有相同期望和方差的n个随机变量,当样本量足够大时,样本的均值近似服从正态分布。

应用:

1、总体数据特征未知,但需要估计知道总体的数据特征,当样本足够大,通过样本数据估计总体来判断总体的情况。应用场景:抽样检测

2、根据总体的平均值和标准差,判断某个样本是否属于总体。

四、AB 测试原理简介

4.1 AB测试的基本概念

AB 测试是生物学实验控制变量法的商业应用,为了探究某一变量的作用,通过控制实验变量设置实验组和对照组,实验结束后收集实验数据观察两组实验结果的差异,得出某种实验结论。

因此,为了探究某一变量(有无新功能、不同的活动方案等)对业务发展的影响和作用,让组成成分相同(相似)的用户群组分别选择一种实验方案,待实验结束后收集各群组的用户体验数据和业务数据,最后通过显著性检验分析评估出最好的方案。

4.2 AB测试的一般流程

AB test 业务价值、原理流程和实际案例

AB test一般流程

• 实验变量的确定。首先和相关的产品或者项目经理确定这个实验所要验证的实验变量是什么,一般遵循”单一变量”原则。即实验组和对照组需要保证除了实验变量不同之外,其他变量因素应该保持一致。

• 核心指标确定(观测指标)。 观测指标分为两类:数值类指标和比率类指标。绝对值类指标有DAU,平均停留时长,用户平均消费金额等,这类指标一般很少作为AB测试的观测直播啊。比率类指标有点击率、转化率和留存率等。之所以要区分不同类型的观测指标,是因为不同类型的观测指标计算样本量的时候计算公式有所差异。

• 计算实验样本量和实验周期。实验样本越大,实验结果越可靠,但同时承担的风险(对用户产生不良的用户体验等)也越大,但如果实验样本太小,实验结果就不可靠,实验就毫无意义,因此需要计算能够使实验结果可靠的最少样本量。最小样本量的计算方法如下:

AB test 业务价值、原理流程和实际案例

AB test 业务价值、原理流程和实际案例

提供一个AB测试的工具 Evan’s Awesome A/B Tools

• 流量分割。流量分割需遵循均匀分配的原则,就是保证实验组和对照组的用户群体特征保持一致,否则可能出现辛普森悖论,导致实验结果无意义。

流量分割的方式有两种:分流和分层。分流:直接将整体用户切割为几块,用户只能在⼀个实验中。分层:将同⼀批用户不停的随机后,⼀个用户会处于多个实验中,只要实验之间互相不影响,可无限次切割用户,从而达到流量复用的效果。

实验周期根据最小样本量和平均每日活跃用户数来确定。

• AB测试灰度。一般在上线正式实验之前,会通过小流量去看一段时间的灰度实验。这个灰度实验的目的就是为了验证我们这个改动并不会造成什么特别极端的影响。

• AB测试灰度上线。和PM或者项目经理确定正式上线的日期

• 效果验证评估 。使用假设检验方法通过构造统计量或者p-value来判断实验结果的核心指标是否有显著差异。

五、效果验证-假设检验法

「A/B测试」主要采用假设检验来计算指标的置信度,实际上,要验证的是⼀对相互对立的假设:原假设和备择假设。

原假设H0:是实验者想要收集证据予以反对的假设。A/B实验中的原假设就是 指「新策略没有效果」。

备择假设H1:是实验者想要收集证据予以⽀持的假设,与原假设互斥。A/B实验中的备择假设就是指「新策略有效果」。

利用反证法来检验假设,意味着我们要利⽤现有的数据,通过⼀系列⽅法证明原假设是错误的即证伪,并借此证明备择假设是正确的(真)。这⼀套方法在统计学上被称作原假设显著性检验。

统计学上认为「小概率事件在少量实验中是几乎不可能出现的」,因此当假设原假设成立时,通过计算发现实验结果发生的概率太小了(p-value < α),但实际实验发生了,那么推翻原假设,接受备择假设。

5.1 检验方式

检验方式分为两种:双侧检验和单侧检验。

单侧检验又分为两种:左侧检验和右侧检验。

双侧检验:备择假设没有特定的⽅向性,形式为「≠」这种检验称为双侧检验。

单侧检验:备择假设带有特定的方向性,形式为「>」 or 「<」的假设检验,其中单侧检验「<」 称为左侧检验,「>」为右侧检验。

AB test 业务价值、原理流程和实际案例

5.2 检验方法

检验方法主要有两种:置信区间法和 p 值检验法。

(1)置信区间法

在给定显著性水平 α 下,通过给出未知参数一个估计量,然后根据这个估计量构造一个统计量 Z ,它在原假设下的分布是完全已经的或分位数可以计算,称符合这个要求的统计量为检验统计量,如果根据样本数据算出检验统计量落在了置信区间(非拒绝域),则接受原假设,否则拒绝原假设。基本步骤如下:

1、建立假设

2、给出未知参数的一个估计量

3、构造统计量Z,要求当H0成立时可以求解的Z的分位数

4、以Z为基础,根据备择假设的实际意义,构造一个拒绝域W的表达形式

5、确定拒绝域W中的临界值,要求W满足显著性水平。

6、如果根据样本数据算出来的统计量Z落在拒绝域(落在了置信区间),则拒绝原假设,否则接受原假设。

(2) p值和p值检验法

假设检验的 p 值是在原假设H0成立的条件下,检验统计量Z出现给定观测值或者比之更极端值的概率,直观上用以描述抽样结果与理论假设的吻合程度,因而也称P值为拟合优度。

例如,正态总体参数检验H0:μ=μ0↔H1:μ≠μ0的情况,检验统计量为Z,即由样本数据得到检验统计量Z的观测值为z*,则p值为p=P(|Z|≥z*|H0成立)。p值检验法的原则是当p值小到一定程度(p<=α)时拒绝H0。通常约定:p≤0.05称结果为显著;p≤0.01则称结果为高度显著。

六、实际案例

以广告点击率为例,分别对1000个样本进行了为期一周的AB测试,,实验结果如下表,其中对照组A的点击率为7.5%,B的点击率为9%。

AB test 业务价值、原理流程和实际案例

AB test 业务价值、原理流程和实际案例

AB test 业务价值、原理流程和实际案例

AB test 业务价值、原理流程和实际案例

AB test 业务价值、原理流程和实际案例

AB test 业务价值、原理流程和实际案例

AB test 业务价值、原理流程和实际案例

本文系发布者爱跨境 发表,本站仅提供信息存储空间服务。

本文为作者独立观点,不代表羽毛出海立场,转载请注明出处:https://www.salesba.com/archives/31427

(0)

相关推荐

发表回复

登录后才能评论

联系我们

在线咨询: QQ交谈

邮件:mail

工作时间:周一至周五,9:30-18:30,节假日休息