s********n 发帖数: 80 | 1 一般公司具体怎么做AB Test? 好比new design vs. current design? 如果目标
metric是CTR,那只要sample size足够大,那两个design对应的CTR总是有significant
的difference的。
对于很多公司,数据不是问题,sample size要多大就能给多大。这个时候怎么做决定
呢?感觉这个时候Testing已经不重要了(反正是significant的),就看估计值了。那
这个时候一般公司是怎么决定要不要采用new design呢? |
h***i 发帖数: 3844 | 2 这话说的。sample size要多大就能给多大?
significant
【在 s********n 的大作中提到】 : 一般公司具体怎么做AB Test? 好比new design vs. current design? 如果目标 : metric是CTR,那只要sample size足够大,那两个design对应的CTR总是有significant : 的difference的。 : 对于很多公司,数据不是问题,sample size要多大就能给多大。这个时候怎么做决定 : 呢?感觉这个时候Testing已经不重要了(反正是significant的),就看估计值了。那 : 这个时候一般公司是怎么决定要不要采用new design呢?
|
E********t 发帖数: 418 | 3 我也有同样的问题 AB Testing 只要sample size足够大 总是有significant
的difference的 |
J*X 发帖数: 1001 | 4 奇了怪了,如果null正确的话,large n难道不是使得的x_bar converge 到mu_0了,怎
么会一定sinificant呢? |
N**N 发帖数: 1713 | 5 可以看看这个,可能有点帮助:
https://blog.kissmetrics.com/your-ab-tests-are-illusory/
significant
【在 s********n 的大作中提到】 : 一般公司具体怎么做AB Test? 好比new design vs. current design? 如果目标 : metric是CTR,那只要sample size足够大,那两个design对应的CTR总是有significant : 的difference的。 : 对于很多公司,数据不是问题,sample size要多大就能给多大。这个时候怎么做决定 : 呢?感觉这个时候Testing已经不重要了(反正是significant的),就看估计值了。那 : 这个时候一般公司是怎么决定要不要采用new design呢?
|
s********n 发帖数: 80 | 6 就好比,current design 10个人里面1个点了广告,new design 10个人里面2个点了广
告。 那这两个相比,一般会认为两个design没有significant difference,sample
size小,估计值的方差大。
但是如果sample size达到一定的值,好比1M, 那current design 里面有10k的人点了
广告,new design里面有20k的人点了广告,这个时候再做test,就significant了,因
为样本打了,估计的准了,方差小了。
【在 J*X 的大作中提到】 : 奇了怪了,如果null正确的话,large n难道不是使得的x_bar converge 到mu_0了,怎 : 么会一定sinificant呢?
|
h***i 发帖数: 3844 | 7 实话,样本没那么大。
【在 s********n 的大作中提到】 : 就好比,current design 10个人里面1个点了广告,new design 10个人里面2个点了广 : 告。 那这两个相比,一般会认为两个design没有significant difference,sample : size小,估计值的方差大。 : 但是如果sample size达到一定的值,好比1M, 那current design 里面有10k的人点了 : 广告,new design里面有20k的人点了广告,这个时候再做test,就significant了,因 : 为样本打了,估计的准了,方差小了。
|
w*******9 发帖数: 1433 | 8 是这个意思,关键看你想测试的effect size是多大,如果size给定了,真正的效果达
不到这个size的话,sample size越大越容易得到不显著的结果
【在 s********n 的大作中提到】 : 就好比,current design 10个人里面1个点了广告,new design 10个人里面2个点了广 : 告。 那这两个相比,一般会认为两个design没有significant difference,sample : size小,估计值的方差大。 : 但是如果sample size达到一定的值,好比1M, 那current design 里面有10k的人点了 : 广告,new design里面有20k的人点了广告,这个时候再做test,就significant了,因 : 为样本打了,估计的准了,方差小了。
|
s*****t 发帖数: 119 | 9 significance / pvalue是一个重要参考
如果不显著,那么difference再大,也可能是noise
如果显著,那么接下来比pvalue更重要的就是difference 和 difference CI了,这些
决定了是否采用new design
所以significance是第一道门槛
对于sample size来说,一方面 sample size 可以很大,另一方面要test 的
difference一般很小,比如1%的revenue difference也是影响很大的
举个例子,如果一个metric的mean是1,std是2,在power=0.8, alpha=0.05的情况下,
要检测1%的difference in mean,那么一共需要 1200k (600k test, 600k control)
数据点才可以有足够的power。就算我们有1200k用户,产品团队是否愿意冒风险让600k
用户看到充满不确定的新页面,就另说了。
所以,sample size的大小只是相对的。
significant
【在 s********n 的大作中提到】 : 一般公司具体怎么做AB Test? 好比new design vs. current design? 如果目标 : metric是CTR,那只要sample size足够大,那两个design对应的CTR总是有significant : 的difference的。 : 对于很多公司,数据不是问题,sample size要多大就能给多大。这个时候怎么做决定 : 呢?感觉这个时候Testing已经不重要了(反正是significant的),就看估计值了。那 : 这个时候一般公司是怎么决定要不要采用new design呢?
|
s********n 发帖数: 80 | 10 嗯, effect size也是一个考虑的因素。
【在 w*******9 的大作中提到】 : 是这个意思,关键看你想测试的effect size是多大,如果size给定了,真正的效果达 : 不到这个size的话,sample size越大越容易得到不显著的结果
|
s********n 发帖数: 80 | 11 嗯,说的太好了。
所以是要
1. 先确定一个sample size(如果不太需要担心effect size的话),这个值可能不会
太大。
2. 做test,看是不是significant
2.1 如果significant,那就看看difference,以及其CI再做决定。
2.2 如果不significant,那就不考虑new design.
不过我觉得在确定sample size的时候是能大致知道多大的difference是能significant
的。如果test是significant的,那这个difference是要大于这个临界值的。
600k
【在 s*****t 的大作中提到】 : significance / pvalue是一个重要参考 : 如果不显著,那么difference再大,也可能是noise : 如果显著,那么接下来比pvalue更重要的就是difference 和 difference CI了,这些 : 决定了是否采用new design : 所以significance是第一道门槛 : 对于sample size来说,一方面 sample size 可以很大,另一方面要test 的 : difference一般很小,比如1%的revenue difference也是影响很大的 : 举个例子,如果一个metric的mean是1,std是2,在power=0.8, alpha=0.05的情况下, : 要检测1%的difference in mean,那么一共需要 1200k (600k test, 600k control) : 数据点才可以有足够的power。就算我们有1200k用户,产品团队是否愿意冒风险让600k
|
c*********g 发帖数: 21 | 12 sample size要多大就有多大?感觉财大气粗的样子。既然有sample size那么大,那你
加power试试咯? |
E**********e 发帖数: 1736 | 13 同意。A/B test 的一个优点就是sample size 收集到一定数量,test显是significant
的时候就可以停下来,这样就可以节约成本。公司marketing的时候,不可能无限至的
进行test的。
我最近也在学,test 本身就是个binomial 分布。样品大,可以NORMAL 近似。个人觉
得A/B test 还是需要真正的marketing 经验。这需要产品设计,广告宣传。最近公司
招marketing manager,一个条件就是需要在这个行业10年以上的工作经验。
:sample size要多大就有多大?感觉财大气粗的样子。既然有sample size那么大,那
你加power试试咯? |
b*****s 发帖数: 11267 | 14 这个,一个是statistical significant 但是它们之间的差异是不是足够达到
practical significant呢?
回答第一个问题是hypothesis testing,第二个问题可以参考effect size之类的
significant
【在 s********n 的大作中提到】 : 一般公司具体怎么做AB Test? 好比new design vs. current design? 如果目标 : metric是CTR,那只要sample size足够大,那两个design对应的CTR总是有significant : 的difference的。 : 对于很多公司,数据不是问题,sample size要多大就能给多大。这个时候怎么做决定 : 呢?感觉这个时候Testing已经不重要了(反正是significant的),就看估计值了。那 : 这个时候一般公司是怎么决定要不要采用new design呢?
|