关于AB test的疑问 - Statistics版 - 未名存档

本页内容为未名空间相应帖子的节选和存档，一周内的贴子最多显示50字，超过一周显示500字访问原贴

Statistics版 - 关于AB test的疑问

相关主题
● Joint test for difference in a groups of variables between	● 请教大拿关于composite percentile 的 significance test
● 统计专业问题请教,谢谢大家	● [合集] 问大牛们一个弱智统计问题
● 问问题~~~~~~~~~significance of frequency	● SPSS 一题双黄包
● 如何解读非常小的p－value？	● p-value 和 null hypothesis
● 为什么中心极限定律要求sample size >= 30	● 请问有关t-test（包子酬谢！）
● 请问：bootstrap的应用范围	● 弱问,population size
● 请问：这一类的问题，解决思路是什么？	● ancova的sample size
● 在工业界，a/b testing vs multivariate testing分析有什么不一样呢？	● binomial test如何算sample size?

相关话题的讨论汇总
话题: size话题: sample话题: test话题: difference

进入Statistics版参与讨论

1

(共1页)

s********n 发帖数: 80	1 一般公司具体怎么做AB Test？好比new design vs. current design? 如果目标 metric是CTR，那只要sample size足够大，那两个design对应的CTR总是有significant 的difference的。对于很多公司，数据不是问题，sample size要多大就能给多大。这个时候怎么做决定呢？感觉这个时候Testing已经不重要了（反正是significant的），就看估计值了。那这个时候一般公司是怎么决定要不要采用new design呢？
h***i 发帖数: 3844	2 这话说的。sample size要多大就能给多大？ significant 【在 s********n 的大作中提到】 : 一般公司具体怎么做AB Test？好比new design vs. current design? 如果目标 : metric是CTR，那只要sample size足够大，那两个design对应的CTR总是有significant : 的difference的。 : 对于很多公司，数据不是问题，sample size要多大就能给多大。这个时候怎么做决定 : 呢？感觉这个时候Testing已经不重要了（反正是significant的），就看估计值了。那 : 这个时候一般公司是怎么决定要不要采用new design呢？
E********t 发帖数: 418	3 我也有同样的问题 AB Testing 只要sample size足够大总是有significant 的difference的
J*X 发帖数: 1001	4 奇了怪了，如果null正确的话，large n难道不是使得的x_bar converge 到mu_0了，怎么会一定sinificant呢？
N**N 发帖数: 1713	5 可以看看这个，可能有点帮助： https://blog.kissmetrics.com/your-ab-tests-are-illusory/ significant 【在 s********n 的大作中提到】 : 一般公司具体怎么做AB Test？好比new design vs. current design? 如果目标 : metric是CTR，那只要sample size足够大，那两个design对应的CTR总是有significant : 的difference的。 : 对于很多公司，数据不是问题，sample size要多大就能给多大。这个时候怎么做决定 : 呢？感觉这个时候Testing已经不重要了（反正是significant的），就看估计值了。那 : 这个时候一般公司是怎么决定要不要采用new design呢？
s********n 发帖数: 80	6 就好比，current design 10个人里面1个点了广告，new design 10个人里面2个点了广告。那这两个相比，一般会认为两个design没有significant difference，sample size小，估计值的方差大。但是如果sample size达到一定的值，好比1M, 那current design 里面有10k的人点了广告，new design里面有20k的人点了广告，这个时候再做test，就significant了，因为样本打了，估计的准了，方差小了。【在 J*X 的大作中提到】 : 奇了怪了，如果null正确的话，large n难道不是使得的x_bar converge 到mu_0了，怎 : 么会一定sinificant呢？
h***i 发帖数: 3844	7 实话，样本没那么大。【在 s********n 的大作中提到】 : 就好比，current design 10个人里面1个点了广告，new design 10个人里面2个点了广 : 告。那这两个相比，一般会认为两个design没有significant difference，sample : size小，估计值的方差大。 : 但是如果sample size达到一定的值，好比1M, 那current design 里面有10k的人点了 : 广告，new design里面有20k的人点了广告，这个时候再做test，就significant了，因 : 为样本打了，估计的准了，方差小了。
w*******9 发帖数: 1433	8 是这个意思，关键看你想测试的effect size是多大，如果size给定了，真正的效果达不到这个size的话，sample size越大越容易得到不显著的结果【在 s********n 的大作中提到】 : 就好比，current design 10个人里面1个点了广告，new design 10个人里面2个点了广 : 告。那这两个相比，一般会认为两个design没有significant difference，sample : size小，估计值的方差大。 : 但是如果sample size达到一定的值，好比1M, 那current design 里面有10k的人点了 : 广告，new design里面有20k的人点了广告，这个时候再做test，就significant了，因 : 为样本打了，估计的准了，方差小了。
s*****t 发帖数: 119	9 significance / pvalue是一个重要参考如果不显著，那么difference再大，也可能是noise 如果显著，那么接下来比pvalue更重要的就是difference 和 difference CI了，这些决定了是否采用new design 所以significance是第一道门槛对于sample size来说，一方面 sample size 可以很大，另一方面要test 的 difference一般很小，比如1％的revenue difference也是影响很大的举个例子，如果一个metric的mean是1，std是2，在power=0.8, alpha=0.05的情况下，要检测1%的difference in mean，那么一共需要 1200k （600k test, 600k control）数据点才可以有足够的power。就算我们有1200k用户，产品团队是否愿意冒风险让600k 用户看到充满不确定的新页面，就另说了。所以，sample size的大小只是相对的。 significant 【在 s********n 的大作中提到】 : 一般公司具体怎么做AB Test？好比new design vs. current design? 如果目标 : metric是CTR，那只要sample size足够大，那两个design对应的CTR总是有significant : 的difference的。 : 对于很多公司，数据不是问题，sample size要多大就能给多大。这个时候怎么做决定 : 呢？感觉这个时候Testing已经不重要了（反正是significant的），就看估计值了。那 : 这个时候一般公司是怎么决定要不要采用new design呢？
s********n 发帖数: 80	10 嗯， effect size也是一个考虑的因素。【在 w*******9 的大作中提到】 : 是这个意思，关键看你想测试的effect size是多大，如果size给定了，真正的效果达 : 不到这个size的话，sample size越大越容易得到不显著的结果
s********n 发帖数: 80	11 嗯，说的太好了。所以是要 1. 先确定一个sample size（如果不太需要担心effect size的话），这个值可能不会太大。 2. 做test，看是不是significant 2.1 如果significant，那就看看difference，以及其CI再做决定。 2.2 如果不significant，那就不考虑new design. 不过我觉得在确定sample size的时候是能大致知道多大的difference是能significant 的。如果test是significant的，那这个difference是要大于这个临界值的。 600k 【在 s*****t 的大作中提到】 : significance / pvalue是一个重要参考 : 如果不显著，那么difference再大，也可能是noise : 如果显著，那么接下来比pvalue更重要的就是difference 和 difference CI了，这些 : 决定了是否采用new design : 所以significance是第一道门槛 : 对于sample size来说，一方面 sample size 可以很大，另一方面要test 的 : difference一般很小，比如1％的revenue difference也是影响很大的 : 举个例子，如果一个metric的mean是1，std是2，在power=0.8, alpha=0.05的情况下， : 要检测1%的difference in mean，那么一共需要 1200k （600k test, 600k control） : 数据点才可以有足够的power。就算我们有1200k用户，产品团队是否愿意冒风险让600k
c*********g 发帖数: 21	12 sample size要多大就有多大？感觉财大气粗的样子。既然有sample size那么大，那你加power试试咯？
E**********e 发帖数: 1736	13 同意。A/B test 的一个优点就是sample size 收集到一定数量，test显是significant 的时候就可以停下来，这样就可以节约成本。公司marketing的时候，不可能无限至的进行test的。我最近也在学，test 本身就是个binomial 分布。样品大，可以NORMAL 近似。个人觉得A/B test 还是需要真正的marketing 经验。这需要产品设计，广告宣传。最近公司招marketing manager，一个条件就是需要在这个行业10年以上的工作经验。：sample size要多大就有多大？感觉财大气粗的样子。既然有sample size那么大，那你加power试试咯？
b*****s 发帖数: 11267	14 这个，一个是statistical significant 但是它们之间的差异是不是足够达到 practical significant呢？回答第一个问题是hypothesis testing，第二个问题可以参考effect size之类的 significant 【在 s********n 的大作中提到】 : 一般公司具体怎么做AB Test？好比new design vs. current design? 如果目标 : metric是CTR，那只要sample size足够大，那两个design对应的CTR总是有significant : 的difference的。 : 对于很多公司，数据不是问题，sample size要多大就能给多大。这个时候怎么做决定 : 呢？感觉这个时候Testing已经不重要了（反正是significant的），就看估计值了。那 : 这个时候一般公司是怎么决定要不要采用new design呢？

1

(共1页)

进入Statistics版参与讨论

相关主题
● binomial test如何算sample size?	● 为什么中心极限定律要求sample size >= 30
● sample size 的问题	● 请问：bootstrap的应用范围
● Sample Size 的问题	● 请问：这一类的问题，解决思路是什么？
● 请教一个关于有效sample size的问题	● 在工业界，a/b testing vs multivariate testing分析有什么不一样呢？
● Joint test for difference in a groups of variables between	● 请教大拿关于composite percentile 的 significance test
● 统计专业问题请教,谢谢大家	● [合集] 问大牛们一个弱智统计问题
● 问问题~~~~~~~~~significance of frequency	● SPSS 一题双黄包
● 如何解读非常小的p－value？	● p-value 和 null hypothesis

相关话题的讨论汇总
话题: size话题: sample话题: test话题: difference

未名新帖统计// 7月16日

#	版面	帖数(主题数)
-	全站	4871 (796)
1	Military	3777 (569)
2	Stock	341 (51)
3	Joke	117 (17)
4	History	116 (3)
5	Automobile	100 (9)
6	USANews	55 (9)
7	Midlife	45 (1)
8	Headline	41 (41)
9	Dreamer	33 (13)
10	FleaMarket	32 (20)
11	Living	30 (7)

* 这里只显示发帖超过25的版面，努力灌水吧:-)