one sample T-test算p-value是不是忽悠人的？ - CS版

本页内容为未名空间相应帖子的节选和存档，一周内的贴子最多显示50字，超过一周显示500字访问原贴

CS版 - one sample T-test算p-value是不是忽悠人的？

相关主题
● C++ Builder and SQL......	● 请教多媒体Sampling问题
● [合集] 有没有分布函数的分布这个概念？ (转载)	● 问一个信号采样的问题
● 请教一算法问题	● 问个jsf的问题
● 方向，方向，还是方向	● 关于search engine 和database的两道题求助!!!
● CS和EE的fresh PhD哪个收入高?	● 终于搞定了D. E. Shaw的IT Summer Intern
● [转载] 请教：从Multimeter的sampling rate 调整	● [转载] VLSI testing 方面哪几个会议档次比较高？
● Whittaker-Shannon-Kotelnikov (W.S.K.) sampling theorem ref.?	● [转载] Google Labs Aptitude Test
● 请问如果我有一个XML sample at hand, how to use it?	● [转载] 推荐关于TESTING的入门书籍？

相关话题的讨论汇总
话题: sample话题: test话题: value话题: 均值话题: hypothesis

进入CS版参与讨论

(共1页)

a***n
发帖数: 404

我感觉 one sample T-test 算 p-value就是忽悠人的。。
就是说知道一个均值A，然后做实验，算一组sample跟这个均值A的 P-value，我觉得没
有意义啊，好像只要 sample 只要足够大，最后的p-value肯定很小啊，（因为实验均值
完全等于这个A的可能性太小了），等样本数量变大之后，是不是p-value就会变小？比
方一个大小为 50，均值为 40的样本跟A=50算出来的pvalue 明显会大于大小为50000，
但是均值也是40的样本跟A=50算出来的p-value ?

d******e
发帖数: 7844

你应该学学假设检验。

均值
50000，

【在 a***n 的大作中提到】

: 我感觉 one sample T-test 算 p-value就是忽悠人的。。
: 就是说知道一个均值A，然后做实验，算一组sample跟这个均值A的 P-value，我觉得没
: 有意义啊，好像只要 sample 只要足够大，最后的p-value肯定很小啊，（因为实验均值
: 完全等于这个A的可能性太小了），等样本数量变大之后，是不是p-value就会变小？比
: 方一个大小为 50，均值为 40的样本跟A=50算出来的pvalue 明显会大于大小为50000，
: 但是均值也是40的样本跟A=50算出来的p-value ?

a***n
发帖数: 404

最烦你这种的回答了。呵呵。你直接说p-value在这里能用不能用得了。

【在 d******e 的大作中提到】

: 你应该学学假设检验。
:
: 均值
: 50000，

c*******h
发帖数: 1096

如果明知均值是A的话，那的确没什么意义
但如果你不知道，只是猜均值可能是A，那p-value就能大概验证一下你猜得对不对

均值
50000，

【在 a***n 的大作中提到】

a***n
发帖数: 404

可是我感觉分布如果真的未知的话，sample的大小对于 p-value的影响还是很大的啊。
我刚刚模拟了下：
mu = 2.9
sample1 = {1,2,3,4,5}
sample2 = {1,2,3,4,5, ... 1,2,3,4,5} 有210个1,2,3,4,5的数列。
sample1和sample2 算下来的pvalue 差异太大。第一个接近1，第二个0.02
但是如果分布为止，我觉得这个p-value跟sample 的大小关系很密切，所以好像意义不
大。

【在 c*******h 的大作中提到】

: 如果明知均值是A的话，那的确没什么意义
: 但如果你不知道，只是猜均值可能是A，那p-value就能大概验证一下你猜得对不对
:
: 均值
: 50000，

c*******h
发帖数: 1096

sample多少当然有影响么
还有就是ttest的话是看0和1两头的，无论是靠近0还是靠近1都不是什么好事

【在 a***n 的大作中提到】

: 可是我感觉分布如果真的未知的话，sample的大小对于 p-value的影响还是很大的啊。
: 我刚刚模拟了下：
: mu = 2.9
: sample1 = {1,2,3,4,5}
: sample2 = {1,2,3,4,5, ... 1,2,3,4,5} 有210个1,2,3,4,5的数列。
: sample1和sample2 算下来的pvalue 差异太大。第一个接近1，第二个0.02
: 但是如果分布为止，我觉得这个p-value跟sample 的大小关系很密切，所以好像意义不
: 大。

a***n
发帖数: 404

我知道有影响，关键是有什么东西能够决定或者帮助决定sample的大小么？
为啥靠近 0 也不是好事？给指点下？
啊。
义不

【在 c*******h 的大作中提到】

: sample多少当然有影响么
: 还有就是ttest的话是看0和1两头的，无论是靠近0还是靠近1都不是什么好事

c*******h
发帖数: 1096

这我就不知道了。或者看中心极限定理的收敛速度吧
正态分布靠近头和尾都不是好事么。要靠近中间才好
说实话，我还是觉得你应该修修统计课

【在 a***n 的大作中提到】

:
: 我知道有影响，关键是有什么东西能够决定或者帮助决定sample的大小么？
: 为啥靠近 0 也不是好事？给指点下？
: 啊。
: 义不

a***n
发帖数: 404

晕，如果sample大小是个重要因素，但是无法确定，p值还是没啥意义啊。。
这个是t分布，不是正态分布吧。。另外，p值小于significant level不是常用来解释
实验结果显著不同的么？为啥靠近 0 不好了？你还是给解释下吧，真的想听听高见。
汗一个。。

【在 c*******h 的大作中提到】

:
: 这我就不知道了。或者看中心极限定理的收敛速度吧
: 正态分布靠近头和尾都不是好事么。要靠近中间才好
: 说实话，我还是觉得你应该修修统计课

a***n
发帖数: 404

你是 p-value 靠近 0或者 1 都不是好事么？（假设显著不同是好事)

【在 c*******h 的大作中提到】

: sample多少当然有影响么
: 还有就是ttest的话是看0和1两头的，无论是靠近0还是靠近1都不是什么好事

相关主题
● [转载] 请教：从Multimeter的sampling rate 调整	● 请教多媒体Sampling问题
● Whittaker-Shannon-Kotelnikov (W.S.K.) sampling theorem ref.?	● 问一个信号采样的问题
● 请问如果我有一个XML sample at hand, how to use it?	● 问个jsf的问题
进入CS版参与讨论

c*******h
发帖数: 1096

p-value太大或者太小都是要reject null hypothesis的，也就是说sample mean
不支持你猜的那个值
简单理解一下，你给5个sample估计mean是2.9，大概也说不了啥。但是你给了
1050个sample来估计，还硬要说人家的mean是2.9，当然不干了
唉，出门左转11809帖。不是我没耐性，的确是对你好

【在 a***n 的大作中提到】

:
: 你是 p-value 靠近 0或者 1 都不是好事么？（假设显著不同是好事)

a***n
发帖数: 404

reject null hypothsis 不是好事么？
汗死。。。你讲得这个你觉得我pvalue都编程算出来了，会不知道。。晕啊。
我以为你说pvalue太小了也不能reject了。所以不是什么好事。。原来你的意思是
reject了，就不是好事了。看来咱么对于好事坏事的理解有区别啊。呵呵。不是一直
都是区别大是好事么？reject是好事么？

【在 c*******h 的大作中提到】

: p-value太大或者太小都是要reject null hypothesis的，也就是说sample mean
: 不支持你猜的那个值
: 简单理解一下，你给5个sample估计mean是2.9，大概也说不了啥。但是你给了
: 1050个sample来估计，还硬要说人家的mean是2.9，当然不干了
: 唉，出门左转11809帖。不是我没耐性，的确是对你好

a***n
发帖数: 404

现在的问题是，有人说mean是 2.9，你要测多少个数据才能做出判断。(如果使用p值的
one sample t-test的方法)
还是讨论这个比较有意义。

【在 c*******h 的大作中提到】

a***n
发帖数: 404

算了，我也不跟你扯了，一个连别人问题都不仔细看就在这里说来说去的，问了也没有
意思。
我的问题明明是：假设显著不同是好事，我问你为什么前面说P值太小或者太大不是好
事。
你反倒给我解释起来为啥p值小要reject null hypothsis. 感情我真的没学过统计。
nnd
这年头。

【在 c*******h 的大作中提到】

g**********t
发帖数: 475

所有的统计检验都一样，样本量一大基本上都会拒绝零假设。比如说我做全基因组分析
，所有的分布就算看上去再接近正态也过不了KS检验（包括一些从逻辑上符合中心极限
定理的分布），因为全基因组尺度的样本容量太大了（上万）。所以有一种观点认为，
零假设永远是错误的。

a***n
发帖数: 404

有没有类似的paper讨论这个问题的？记得好像有些统计学家对pvalue本身的意义，估
计也就是reject null hypothesis 的作用提出了质疑。但是忘了哪边提到的了。
Bayesian?

【在 g**********t 的大作中提到】

: 所有的统计检验都一样，样本量一大基本上都会拒绝零假设。比如说我做全基因组分析
: ，所有的分布就算看上去再接近正态也过不了KS检验（包括一些从逻辑上符合中心极限
: 定理的分布），因为全基因组尺度的样本容量太大了（上万）。所以有一种观点认为，
: 零假设永远是错误的。

g**********t
发帖数: 475

我看过的书中有一本讲过相关的问题：
Experimental Design and Data Analysis for Biologists
中文版
http://www.china-pub.com/627784
英文版
http://www.amazon.com/Experimental-Design-Data-Analysis-Biologists/dp/0521009766
有兴趣的话可以去图书馆里借来看一看（中文版翻译的很烂）

a***n
发帖数: 404

谢谢哦~
看了下内容，好像大部分内容也都学过了，从基本的统计到后面的ANOVA等等，不过看
生物的东西我比较头大啊，呵呵。还是对于 Bayesian 抨击 null hypothesis的文章比
较感兴趣，或者不知道有没有什么别的方法可以取代 hypothesis test, 尤其是point
hypothesis test. 假定 point null hypothesis 永远都会被拒绝的话。

【在 g**********t 的大作中提到】

: 我看过的书中有一本讲过相关的问题：
: Experimental Design and Data Analysis for Biologists
: 中文版
: http://www.china-pub.com/627784
: 英文版
: http://www.amazon.com/Experimental-Design-Data-Analysis-Biologists/dp/0521009766
: 有兴趣的话可以去图书馆里借来看一看（中文版翻译的很烂）

h*******n
发帖数: 50

你这个sample 不能这么取
t test是假设error满足正态分布。
你这个是uniform distribution，拿t test算p value当然不对。

【在 a***n 的大作中提到】

d******e
发帖数: 7844

p-value对应就是那个alpha，p-value越小，你的假设就越不容易被拒绝。

【在 c*******h 的大作中提到】

: sample多少当然有影响么
: 还有就是ttest的话是看0和1两头的，无论是靠近0还是靠近1都不是什么好事

相关主题
● 关于search engine 和database的两道题求助!!!	● [转载] Google Labs Aptitude Test
● 终于搞定了D. E. Shaw的IT Summer Intern	● [转载] 推荐关于TESTING的入门书籍？
● [转载] VLSI testing 方面哪几个会议档次比较高？	● 请问什么是 regression test suite?
进入CS版参与讨论

d******e
发帖数: 7844

然，(X-mu)/sigma~N(0,1), then (X-mu)/sigma_hat~t distribution

【在 h*******n 的大作中提到】

: 你这个sample 不能这么取
: t test是假设error满足正态分布。
: 你这个是uniform distribution，拿t test算p value当然不对。

s**5
发帖数: 68

19楼正解

A**********e
发帖数: 3102

这个问题我也是思考了一年多了，有些浅的想法，大家拍拍砖头 :)
先说两点老生常谈的大原则：
1。统计的意义，不是告诉你 truth，而是告诉你 possibility （p-value），然后你
自己根据 cost function 来选择判断标准/风险标准（比如说 alpha value），对比 p
-value 来做 decision。这一点至关重要。换句话说，统计是工具，是 case
orientated。
2。Context 是决定性的。同样的统计结果，不同 context （case）下，意义可能大相
径庭，decision 可能完全不一样。苹果分拣分级设备如果有 5% 的分级错误概率，是
可以接受的，降落伞如果有 5% 的打不开的概率就是灾难性的。抽离开具体的 case，
单纯地说 p=.05 是没有任何指导意义的。
然后具体到 t-test 来。t-test 和其它常见假设检验的初始 context 是：在工程领域
，在寻求体系的改善时，在有限的资源下（时间/人力/物力），如何能够尽可能安全地
确认 H_o 是错误的（所谓的 H_o 保护）。这个 context 可以具体

【在 a***n 的大作中提到】

a***n
发帖数: 404

我那个例子的分布确实不是正态的，不过那只是我随便举得一个例子而已，如果有其他
的确定的正太分布的大小不同的sample，结果应该也会出现那样的p值逐渐变小的情况
吧。
我这个post主要还是想讨论下one smaple ttest的p值的实际意义到底大不大。不是纠
缠于具体的细节。

【在 h*******n 的大作中提到】

: 你这个sample 不能这么取
: t test是假设error满足正态分布。
: 你这个是uniform distribution，拿t test算p value当然不对。

a***n
发帖数: 404

同意啊。做学术的用t-test恐怕没有考虑成本的吧，都是sample大了不要紧，只要达到
目的。有时候想想真不知道这个test究竟是干什么的。我困惑的也就是这个。。。

p

【在 A**********e 的大作中提到】

: 这个问题我也是思考了一年多了，有些浅的想法，大家拍拍砖头 :)
: 先说两点老生常谈的大原则：
: 1。统计的意义，不是告诉你 truth，而是告诉你 possibility （p-value），然后你
: 自己根据 cost function 来选择判断标准/风险标准（比如说 alpha value），对比 p
: -value 来做 decision。这一点至关重要。换句话说，统计是工具，是 case
: orientated。
: 2。Context 是决定性的。同样的统计结果，不同 context （case）下，意义可能大相
: 径庭，decision 可能完全不一样。苹果分拣分级设备如果有 5% 的分级错误概率，是
: 可以接受的，降落伞如果有 5% 的打不开的概率就是灾难性的。抽离开具体的 case，
: 单纯地说 p=.05 是没有任何指导意义的。

d******e
发帖数: 7844

http://en.wikipedia.org/wiki/Type_I_error#Type_I_error
你还是没有明白什么是Test的目的。
首先你要知道有两种误差，分别是I型和II型，你不能同时最小化两个，所以通常来讲
是固定其中一个来最小化另一个，所以无论怎么样误差都是存在的。就算p-value算出
来接近0，也仍然有误差的可能。
你想举例子说明p-value的实际意义大不大，无非就是举误差存在的情况罢了。误差的
可接受程度和estimator的Risk有关。
如果你针对其中的理论感兴趣，Non-centrality F Test里面解释的很好。

【在 a***n 的大作中提到】

: 我那个例子的分布确实不是正态的，不过那只是我随便举得一个例子而已，如果有其他
: 的确定的正太分布的大小不同的sample，结果应该也会出现那样的p值逐渐变小的情况
: 吧。
: 我这个post主要还是想讨论下one smaple ttest的p值的实际意义到底大不大。不是纠
: 缠于具体的细节。

s******r
发帖数: 88

T－TEST以及任何一个TEST都有若干假设，
比如相互独立（像1,2,3,4,5,1,2,3,4,5...之类的序列就不满足）。
网上问答认不得真，WIKI算是底线，最好找本入门的教科书。
统计本身是SOLID SCIENCE，忽悠人的是统计学家，而且通常是在
医生或NIH的逼迫下干的。

s******r
发帖数: 88

“你还是没有明白什么是Test的目的”
这句话说到了点子上。I、II类错误与这个问题很有关系，但对于非统专业的深了点。
TEST的目的很重要，所以在工农业和医学实验中选择原假设和备选假设是很小心的。浅
显言之，当你有足够大的样本，或者样本间的差异很小，T－TEST对你意义不大，因为
你知道得到的均值估计是很精确的。只有当你的样本量有限（由于成本或其他原因），
你才担心均值估计准不准，是否要考虑随机波动的大小。一个原假设的提出有没有意义
，取决于需不需要（以及能不能得到）充分的证据来推翻它，这样才符合“保险起见”
的生活常识。

a***n
发帖数: 404

如此说来，转了一圈，好像又回到了原来的问题上，既然test有各种各样的条件：适用
背景，样本大小。。。
那么貌似怎么做出能否使用ttest又变成了一个问题，比方对于不同的实验，什么样的样
本大小叫合适？
如果统计的人没法给出这样的定义，那么test方法本身好像意义也不大了。另外貌似很
多情况下，我指paper里面，使用的各种test的情况并非像搞统计的人说的样本容量有
限，没有办法才使用这样的方法去估计，实际上是有大量的样本，为了得到一个
hypothesis的正确验证而去做的这样的test,也就是我的标题所在。因为很多情况下，
尤其cs的paper里面，得到大量的数据好像并非难事，或者说并非不可能。那样的话，
那么多的paper里面使用这样的test不是变成了trick了么？既然sample可以变，p值也
能变。而这样使用test的paper恐怕不少吧。

【在 s******r 的大作中提到】

: “你还是没有明白什么是Test的目的”
: 这句话说到了点子上。I、II类错误与这个问题很有关系，但对于非统专业的深了点。
: TEST的目的很重要，所以在工农业和医学实验中选择原假设和备选假设是很小心的。浅
: 显言之，当你有足够大的样本，或者样本间的差异很小，T－TEST对你意义不大，因为
: 你知道得到的均值估计是很精确的。只有当你的样本量有限（由于成本或其他原因），
: 你才担心均值估计准不准，是否要考虑随机波动的大小。一个原假设的提出有没有意义
: ，取决于需不需要（以及能不能得到）充分的证据来推翻它，这样才符合“保险起见”
: 的生活常识。

a***n
发帖数: 404

统计也不是什么solid science吧，hypothesis test 在统计内部都是有争论的东西。你
搜一搜就知道了。
我只是感慨下这么多paper都是在玩统计的trick，没想到这么多人来给我解释统计的意
义。呵呵。换句话讲，如果真的统计这么solid的话，别人想玩也没那么容易了。
另外，这么帖子再讨论下去貌似也没啥意义了。

【在 s******r 的大作中提到】

: T－TEST以及任何一个TEST都有若干假设，
: 比如相互独立（像1,2,3,4,5,1,2,3,4,5...之类的序列就不满足）。
: 网上问答认不得真，WIKI算是底线，最好找本入门的教科书。
: 统计本身是SOLID SCIENCE，忽悠人的是统计学家，而且通常是在
: 医生或NIH的逼迫下干的。

相关主题
● 做软件安全找工作前景如何	● [合集] 有没有分布函数的分布这个概念？ (转载)
● 开软件测试(Software Testing)课用哪本教科书比较好？	● 请教一算法问题
● C++ Builder and SQL......	● 方向，方向，还是方向
进入CS版参与讨论

d******e
发帖数: 7844

我都告诉你去看noncentral F-test了，里面明确给出了sample size和各种error的关
系。

的样

【在 a***n 的大作中提到】

: 如此说来，转了一圈，好像又回到了原来的问题上，既然test有各种各样的条件：适用
: 背景，样本大小。。。
: 那么貌似怎么做出能否使用ttest又变成了一个问题，比方对于不同的实验，什么样的样
: 本大小叫合适？
: 如果统计的人没法给出这样的定义，那么test方法本身好像意义也不大了。另外貌似很
: 多情况下，我指paper里面，使用的各种test的情况并非像搞统计的人说的样本容量有
: 限，没有办法才使用这样的方法去估计，实际上是有大量的样本，为了得到一个
: hypothesis的正确验证而去做的这样的test,也就是我的标题所在。因为很多情况下，
: 尤其cs的paper里面，得到大量的数据好像并非难事，或者说并非不可能。那样的话，
: 那么多的paper里面使用这样的test不是变成了trick了么？既然sample可以变，p值也

a***n
发帖数: 404

谢谢，我目前不要用test,只是看到project里面别人这么用上来感慨下。
现实就是很多paper都在那么用。所以我说很多都是忽悠。不知道你们怎么都这么激动
。。
哎。。

【在 d******e 的大作中提到】

: 我都告诉你去看noncentral F-test了，里面明确给出了sample size和各种error的关
: 系。
:
: 的样

N**D
发帖数: 10322

there are two kind oflies
lies, and statistics

【在 a***n 的大作中提到】

w****i
发帖数: 964

descriptive statistics never lie
inference statistics could be wrong, but that's much more likely to be
interpreted by a liar, or an ignorant.

w****i
发帖数: 964

You test makes perfect sense, with small sample size, there is a bigger
probability (p-value) that your
sample mean is 3.0 while the the real mean (H0) is 2.9, with bigger sample
size (hence greater power),
this probability drops, so you reject the null hypothesis(mu=2.9), which
reflects the truth, the mean is
3.0, not 2.9. In this case the null hypothesis should be rejected, it's
just with a big sample size you are
more confident to reject the null while with small sample size you are not
so

【在 a***n 的大作中提到】

l*******g
发帖数: 4894

同意楼上的观点，楼主对于统计可以说根本没有入门。而且你这里的题目说的是one
sample t-test，首先你对于sample level没有解释，如果只有一个level，那么你做t-
test或者说无论什么level的test都没有意义。 sample size的增大只是为了提高统计
的power因为他够精确。 t-test是针对于2level的比较，你的例子我不知道你在比较什
么，而且事实上不同levelsamplesize不一样也有很大的影响。建议去找本基本的统计
书来看。

【在 w****i 的大作中提到】

: You test makes perfect sense, with small sample size, there is a bigger
: probability (p-value) that your
: sample mean is 3.0 while the the real mean (H0) is 2.9, with bigger sample
: size (hence greater power),
: this probability drops, so you reject the null hypothesis(mu=2.9), which
: reflects the truth, the mean is
: 3.0, not 2.9. In this case the null hypothesis should be rejected, it's
: just with a big sample size you are
: more confident to reject the null while with small sample size you are not
: so

g**********t
发帖数: 475

偶然看到的一篇关于标准统计方法缺陷的文章，有兴趣的看一下：
http://life.bio.sunysb.edu/~massimo/lab/Lab_files/null%20hypotheses.pdf

(共1页)

进入CS版参与讨论

相关主题
● [转载] 推荐关于TESTING的入门书籍？	● CS和EE的fresh PhD哪个收入高?
● 请问什么是 regression test suite?	● [转载] 请教：从Multimeter的sampling rate 调整
● 做软件安全找工作前景如何	● Whittaker-Shannon-Kotelnikov (W.S.K.) sampling theorem ref.?
● 开软件测试(Software Testing)课用哪本教科书比较好？	● 请问如果我有一个XML sample at hand, how to use it?
● C++ Builder and SQL......	● 请教多媒体Sampling问题
● [合集] 有没有分布函数的分布这个概念？ (转载)	● 问一个信号采样的问题
● 请教一算法问题	● 问个jsf的问题
● 方向，方向，还是方向	● 关于search engine 和database的两道题求助!!!

相关话题的讨论汇总
话题: sample话题: test话题: value话题: 均值话题: hypothesis

#	版面	帖数(主题数)
-	全站	4871 (796)
1	Military	3777 (569)
2	Stock	341 (51)
3	Joke	117 (17)
4	History	116 (3)
5	Automobile	100 (9)
6	USANews	55 (9)
7	Midlife	45 (1)
8	Headline	41 (41)
9	Dreamer	33 (13)
10	FleaMarket	32 (20)
11	Living	30 (7)

boards

未名新帖统计// 7月16日

历史上的今天