由买买提看人间百态

boards

本页内容为未名空间相应帖子的节选和存档,一周内的贴子最多显示50字,超过一周显示500字 访问原贴
Statistics版 - 关于AB test的疑问
相关主题
Joint test for difference in a groups of variables between请教大拿关于composite percentile 的 significance test
统计专业问题请教,谢谢大家[合集] 问大牛们一个弱智统计问题
问问题~~~~~~~~~significance of frequencySPSS 一题 双黄包
如何解读非常小的p-value?p-value 和 null hypothesis
为什么中心极限定律要求sample size >= 30请问有关t-test(包子酬谢!)
请问:bootstrap的应用范围弱问,population size
请问:这一类的问题,解决思路是什么?ancova的sample size
在工业界,a/b testing vs multivariate testing分析有什么不一样呢?binomial test如何算sample size?
相关话题的讨论汇总
话题: size话题: sample话题: test话题: difference
进入Statistics版参与讨论
1 (共1页)
s********n
发帖数: 80
1
一般公司具体怎么做AB Test? 好比new design vs. current design? 如果目标
metric是CTR,那只要sample size足够大,那两个design对应的CTR总是有significant
的difference的。
对于很多公司,数据不是问题,sample size要多大就能给多大。这个时候怎么做决定
呢?感觉这个时候Testing已经不重要了(反正是significant的),就看估计值了。那
这个时候一般公司是怎么决定要不要采用new design呢?
h***i
发帖数: 3844
2
这话说的。sample size要多大就能给多大?

significant

【在 s********n 的大作中提到】
: 一般公司具体怎么做AB Test? 好比new design vs. current design? 如果目标
: metric是CTR,那只要sample size足够大,那两个design对应的CTR总是有significant
: 的difference的。
: 对于很多公司,数据不是问题,sample size要多大就能给多大。这个时候怎么做决定
: 呢?感觉这个时候Testing已经不重要了(反正是significant的),就看估计值了。那
: 这个时候一般公司是怎么决定要不要采用new design呢?

E********t
发帖数: 418
3
我也有同样的问题 AB Testing 只要sample size足够大 总是有significant
的difference的
J*X
发帖数: 1001
4
奇了怪了,如果null正确的话,large n难道不是使得的x_bar converge 到mu_0了,怎
么会一定sinificant呢?
N**N
发帖数: 1713
5
可以看看这个,可能有点帮助:
https://blog.kissmetrics.com/your-ab-tests-are-illusory/

significant

【在 s********n 的大作中提到】
: 一般公司具体怎么做AB Test? 好比new design vs. current design? 如果目标
: metric是CTR,那只要sample size足够大,那两个design对应的CTR总是有significant
: 的difference的。
: 对于很多公司,数据不是问题,sample size要多大就能给多大。这个时候怎么做决定
: 呢?感觉这个时候Testing已经不重要了(反正是significant的),就看估计值了。那
: 这个时候一般公司是怎么决定要不要采用new design呢?

s********n
发帖数: 80
6
就好比,current design 10个人里面1个点了广告,new design 10个人里面2个点了广
告。 那这两个相比,一般会认为两个design没有significant difference,sample
size小,估计值的方差大。
但是如果sample size达到一定的值,好比1M, 那current design 里面有10k的人点了
广告,new design里面有20k的人点了广告,这个时候再做test,就significant了,因
为样本打了,估计的准了,方差小了。

【在 J*X 的大作中提到】
: 奇了怪了,如果null正确的话,large n难道不是使得的x_bar converge 到mu_0了,怎
: 么会一定sinificant呢?

h***i
发帖数: 3844
7
实话,样本没那么大。

【在 s********n 的大作中提到】
: 就好比,current design 10个人里面1个点了广告,new design 10个人里面2个点了广
: 告。 那这两个相比,一般会认为两个design没有significant difference,sample
: size小,估计值的方差大。
: 但是如果sample size达到一定的值,好比1M, 那current design 里面有10k的人点了
: 广告,new design里面有20k的人点了广告,这个时候再做test,就significant了,因
: 为样本打了,估计的准了,方差小了。

w*******9
发帖数: 1433
8
是这个意思,关键看你想测试的effect size是多大,如果size给定了,真正的效果达
不到这个size的话,sample size越大越容易得到不显著的结果

【在 s********n 的大作中提到】
: 就好比,current design 10个人里面1个点了广告,new design 10个人里面2个点了广
: 告。 那这两个相比,一般会认为两个design没有significant difference,sample
: size小,估计值的方差大。
: 但是如果sample size达到一定的值,好比1M, 那current design 里面有10k的人点了
: 广告,new design里面有20k的人点了广告,这个时候再做test,就significant了,因
: 为样本打了,估计的准了,方差小了。

s*****t
发帖数: 119
9
significance / pvalue是一个重要参考
如果不显著,那么difference再大,也可能是noise
如果显著,那么接下来比pvalue更重要的就是difference 和 difference CI了,这些
决定了是否采用new design
所以significance是第一道门槛
对于sample size来说,一方面 sample size 可以很大,另一方面要test 的
difference一般很小,比如1%的revenue difference也是影响很大的
举个例子,如果一个metric的mean是1,std是2,在power=0.8, alpha=0.05的情况下,
要检测1%的difference in mean,那么一共需要 1200k (600k test, 600k control)
数据点才可以有足够的power。就算我们有1200k用户,产品团队是否愿意冒风险让600k
用户看到充满不确定的新页面,就另说了。
所以,sample size的大小只是相对的。

significant

【在 s********n 的大作中提到】
: 一般公司具体怎么做AB Test? 好比new design vs. current design? 如果目标
: metric是CTR,那只要sample size足够大,那两个design对应的CTR总是有significant
: 的difference的。
: 对于很多公司,数据不是问题,sample size要多大就能给多大。这个时候怎么做决定
: 呢?感觉这个时候Testing已经不重要了(反正是significant的),就看估计值了。那
: 这个时候一般公司是怎么决定要不要采用new design呢?

s********n
发帖数: 80
10
嗯, effect size也是一个考虑的因素。

【在 w*******9 的大作中提到】
: 是这个意思,关键看你想测试的effect size是多大,如果size给定了,真正的效果达
: 不到这个size的话,sample size越大越容易得到不显著的结果

s********n
发帖数: 80
11
嗯,说的太好了。
所以是要
1. 先确定一个sample size(如果不太需要担心effect size的话),这个值可能不会
太大。
2. 做test,看是不是significant
2.1 如果significant,那就看看difference,以及其CI再做决定。
2.2 如果不significant,那就不考虑new design.
不过我觉得在确定sample size的时候是能大致知道多大的difference是能significant
的。如果test是significant的,那这个difference是要大于这个临界值的。

600k

【在 s*****t 的大作中提到】
: significance / pvalue是一个重要参考
: 如果不显著,那么difference再大,也可能是noise
: 如果显著,那么接下来比pvalue更重要的就是difference 和 difference CI了,这些
: 决定了是否采用new design
: 所以significance是第一道门槛
: 对于sample size来说,一方面 sample size 可以很大,另一方面要test 的
: difference一般很小,比如1%的revenue difference也是影响很大的
: 举个例子,如果一个metric的mean是1,std是2,在power=0.8, alpha=0.05的情况下,
: 要检测1%的difference in mean,那么一共需要 1200k (600k test, 600k control)
: 数据点才可以有足够的power。就算我们有1200k用户,产品团队是否愿意冒风险让600k

c*********g
发帖数: 21
12
sample size要多大就有多大?感觉财大气粗的样子。既然有sample size那么大,那你
加power试试咯?
E**********e
发帖数: 1736
13
同意。A/B test 的一个优点就是sample size 收集到一定数量,test显是significant
的时候就可以停下来,这样就可以节约成本。公司marketing的时候,不可能无限至的
进行test的。
我最近也在学,test 本身就是个binomial 分布。样品大,可以NORMAL 近似。个人觉
得A/B test 还是需要真正的marketing 经验。这需要产品设计,广告宣传。最近公司
招marketing manager,一个条件就是需要在这个行业10年以上的工作经验。

:sample size要多大就有多大?感觉财大气粗的样子。既然有sample size那么大,那
你加power试试咯?
b*****s
发帖数: 11267
14
这个,一个是statistical significant 但是它们之间的差异是不是足够达到
practical significant呢?
回答第一个问题是hypothesis testing,第二个问题可以参考effect size之类的

significant

【在 s********n 的大作中提到】
: 一般公司具体怎么做AB Test? 好比new design vs. current design? 如果目标
: metric是CTR,那只要sample size足够大,那两个design对应的CTR总是有significant
: 的difference的。
: 对于很多公司,数据不是问题,sample size要多大就能给多大。这个时候怎么做决定
: 呢?感觉这个时候Testing已经不重要了(反正是significant的),就看估计值了。那
: 这个时候一般公司是怎么决定要不要采用new design呢?

1 (共1页)
进入Statistics版参与讨论
相关主题
binomial test如何算sample size?为什么中心极限定律要求sample size >= 30
sample size 的问题请问:bootstrap的应用范围
Sample Size 的问题请问:这一类的问题,解决思路是什么?
请教一个关于有效sample size的问题在工业界,a/b testing vs multivariate testing分析有什么不一样呢?
Joint test for difference in a groups of variables between请教大拿关于composite percentile 的 significance test
统计专业问题请教,谢谢大家[合集] 问大牛们一个弱智统计问题
问问题~~~~~~~~~significance of frequencySPSS 一题 双黄包
如何解读非常小的p-value?p-value 和 null hypothesis
相关话题的讨论汇总
话题: size话题: sample话题: test话题: difference