a***n 发帖数: 404 | 1 我感觉 one sample T-test 算 p-value就是忽悠人的。。
就是说知道一个均值A,然后做实验,算一组sample跟这个均值A的 P-value,我觉得没
有意义啊,好像只要 sample 只要足够大,最后的p-value肯定很小啊,(因为实验均值
完全等于这个A的可能性太小了),等样本数量变大之后,是不是p-value就会变小?比
方一个大小为 50,均值为 40的样本跟A=50算出来的pvalue 明显会大于 大小为50000,
但是均值也是40的样本跟A=50算出来的p-value ? |
d******e 发帖数: 7844 | 2 你应该学学假设检验。
均值
50000,
【在 a***n 的大作中提到】 : 我感觉 one sample T-test 算 p-value就是忽悠人的。。 : 就是说知道一个均值A,然后做实验,算一组sample跟这个均值A的 P-value,我觉得没 : 有意义啊,好像只要 sample 只要足够大,最后的p-value肯定很小啊,(因为实验均值 : 完全等于这个A的可能性太小了),等样本数量变大之后,是不是p-value就会变小?比 : 方一个大小为 50,均值为 40的样本跟A=50算出来的pvalue 明显会大于 大小为50000, : 但是均值也是40的样本跟A=50算出来的p-value ?
|
a***n 发帖数: 404 | 3 最烦你这种的回答了。呵呵。你直接说p-value在这里能用不能用得了。
【在 d******e 的大作中提到】 : 你应该学学假设检验。 : : 均值 : 50000,
|
c*******h 发帖数: 1096 | 4 如果明知均值是A的话,那的确没什么意义
但如果你不知道,只是猜均值可能是A,那p-value就能大概验证一下你猜得对不对
均值
50000,
【在 a***n 的大作中提到】 : 我感觉 one sample T-test 算 p-value就是忽悠人的。。 : 就是说知道一个均值A,然后做实验,算一组sample跟这个均值A的 P-value,我觉得没 : 有意义啊,好像只要 sample 只要足够大,最后的p-value肯定很小啊,(因为实验均值 : 完全等于这个A的可能性太小了),等样本数量变大之后,是不是p-value就会变小?比 : 方一个大小为 50,均值为 40的样本跟A=50算出来的pvalue 明显会大于 大小为50000, : 但是均值也是40的样本跟A=50算出来的p-value ?
|
a***n 发帖数: 404 | 5 可是我感觉分布如果真的未知的话,sample的大小对于 p-value的影响还是很大的啊。
我刚刚模拟了下:
mu = 2.9
sample1 = {1,2,3,4,5}
sample2 = {1,2,3,4,5, ... 1,2,3,4,5} 有210个1,2,3,4,5的数列。
sample1和sample2 算下来的pvalue 差异太大。 第一个接近1,第二个0.02
但是如果分布为止,我觉得这个p-value跟sample 的大小关系很密切,所以好像意义不
大。
【在 c*******h 的大作中提到】 : 如果明知均值是A的话,那的确没什么意义 : 但如果你不知道,只是猜均值可能是A,那p-value就能大概验证一下你猜得对不对 : : 均值 : 50000,
|
c*******h 发帖数: 1096 | 6 sample多少当然有影响么
还有就是ttest的话是看0和1两头的,无论是靠近0还是靠近1都不是什么好事
【在 a***n 的大作中提到】 : 可是我感觉分布如果真的未知的话,sample的大小对于 p-value的影响还是很大的啊。 : 我刚刚模拟了下: : mu = 2.9 : sample1 = {1,2,3,4,5} : sample2 = {1,2,3,4,5, ... 1,2,3,4,5} 有210个1,2,3,4,5的数列。 : sample1和sample2 算下来的pvalue 差异太大。 第一个接近1,第二个0.02 : 但是如果分布为止,我觉得这个p-value跟sample 的大小关系很密切,所以好像意义不 : 大。
|
a***n 发帖数: 404 | 7
我知道有影响,关键是有什么东西能够决定或者帮助决定sample的大小么?
为啥靠近 0 也不是好事? 给指点下?
啊。
义不
【在 c*******h 的大作中提到】 : sample多少当然有影响么 : 还有就是ttest的话是看0和1两头的,无论是靠近0还是靠近1都不是什么好事
|
c*******h 发帖数: 1096 | 8
这我就不知道了。或者看中心极限定理的收敛速度吧
正态分布靠近头和尾都不是好事么。要靠近中间才好
说实话,我还是觉得你应该修修统计课
【在 a***n 的大作中提到】 : : 我知道有影响,关键是有什么东西能够决定或者帮助决定sample的大小么? : 为啥靠近 0 也不是好事? 给指点下? : 啊。 : 义不
|
a***n 发帖数: 404 | 9
晕,如果sample大小是个重要因素,但是无法确定,p值还是没啥意义啊。。
这个是t分布,不是正态分布吧。。另外,p值小于significant level不是常用来解释
实验结果显著不同的么?为啥靠近 0 不好了? 你还是给解释下吧,真的想听听高见。
汗一个。。
【在 c*******h 的大作中提到】 : : 这我就不知道了。或者看中心极限定理的收敛速度吧 : 正态分布靠近头和尾都不是好事么。要靠近中间才好 : 说实话,我还是觉得你应该修修统计课
|
a***n 发帖数: 404 | 10
你是 p-value 靠近 0或者 1 都不是好事么?(假设显著不同是好事)
【在 c*******h 的大作中提到】 : sample多少当然有影响么 : 还有就是ttest的话是看0和1两头的,无论是靠近0还是靠近1都不是什么好事
|
|
|
c*******h 发帖数: 1096 | 11 p-value太大或者太小都是要reject null hypothesis的,也就是说sample mean
不支持你猜的那个值
简单理解一下,你给5个sample估计mean是2.9,大概也说不了啥。但是你给了
1050个sample来估计,还硬要说人家的mean是2.9,当然不干了
唉,出门左转11809帖。不是我没耐性,的确是对你好
【在 a***n 的大作中提到】 : : 你是 p-value 靠近 0或者 1 都不是好事么?(假设显著不同是好事)
|
a***n 发帖数: 404 | 12 reject null hypothsis 不是好事么?
汗死。。。你讲得这个你觉得我pvalue都编程算出来了,会不知道。。晕啊。
我以为你说pvalue太小了也不能reject了。所以不是什么好事。。原来你的意思是
reject了,就不是好事了。看来咱么对于好事坏事的理解有区别啊。呵呵。 不是一直
都是区别大是好事么?reject是好事么?
【在 c*******h 的大作中提到】 : p-value太大或者太小都是要reject null hypothesis的,也就是说sample mean : 不支持你猜的那个值 : 简单理解一下,你给5个sample估计mean是2.9,大概也说不了啥。但是你给了 : 1050个sample来估计,还硬要说人家的mean是2.9,当然不干了 : 唉,出门左转11809帖。不是我没耐性,的确是对你好
|
a***n 发帖数: 404 | 13 现在的问题是,有人说mean是 2.9,你要测多少个数据才能做出判断。(如果使用p值的
one sample t-test的方法)
还是讨论这个比较有意义。
【在 c*******h 的大作中提到】 : p-value太大或者太小都是要reject null hypothesis的,也就是说sample mean : 不支持你猜的那个值 : 简单理解一下,你给5个sample估计mean是2.9,大概也说不了啥。但是你给了 : 1050个sample来估计,还硬要说人家的mean是2.9,当然不干了 : 唉,出门左转11809帖。不是我没耐性,的确是对你好
|
a***n 发帖数: 404 | 14 算了,我也不跟你扯了,一个连别人问题都不仔细看就在这里说来说去的,问了也没有
意思。
我的问题明明是: 假设显著不同是好事,我问你为什么前面说P值太小或者太大不是好
事。
你反倒给我解释起来为啥p值小要reject null hypothsis. 感情我真的没学过统计。
nnd
这年头。
【在 c*******h 的大作中提到】 : p-value太大或者太小都是要reject null hypothesis的,也就是说sample mean : 不支持你猜的那个值 : 简单理解一下,你给5个sample估计mean是2.9,大概也说不了啥。但是你给了 : 1050个sample来估计,还硬要说人家的mean是2.9,当然不干了 : 唉,出门左转11809帖。不是我没耐性,的确是对你好
|
g**********t 发帖数: 475 | 15 所有的统计检验都一样,样本量一大基本上都会拒绝零假设。比如说我做全基因组分析
,所有的分布就算看上去再接近正态也过不了KS检验(包括一些从逻辑上符合中心极限
定理的分布),因为全基因组尺度的样本容量太大了(上万)。所以有一种观点认为,
零假设永远是错误的。 |
a***n 发帖数: 404 | 16 有没有类似的paper讨论这个问题的? 记得好像有些统计学家对pvalue本身的意义,估
计也就是reject null hypothesis 的作用提出了质疑。但是忘了哪边提到的了。
Bayesian?
【在 g**********t 的大作中提到】 : 所有的统计检验都一样,样本量一大基本上都会拒绝零假设。比如说我做全基因组分析 : ,所有的分布就算看上去再接近正态也过不了KS检验(包括一些从逻辑上符合中心极限 : 定理的分布),因为全基因组尺度的样本容量太大了(上万)。所以有一种观点认为, : 零假设永远是错误的。
|
g**********t 发帖数: 475 | |
a***n 发帖数: 404 | 18 谢谢哦~
看了下内容,好像大部分内容也都学过了,从基本的统计到后面的ANOVA等等,不过看
生物的东西我比较头大啊,呵呵。还是对于 Bayesian 抨击 null hypothesis的文章比
较感兴趣,或者不知道有没有什么别的方法可以取代 hypothesis test, 尤其是point
hypothesis test. 假定 point null hypothesis 永远都会被拒绝的话。
【在 g**********t 的大作中提到】 : 我看过的书中有一本讲过相关的问题: : Experimental Design and Data Analysis for Biologists : 中文版 : http://www.china-pub.com/627784 : 英文版 : http://www.amazon.com/Experimental-Design-Data-Analysis-Biologists/dp/0521009766 : 有兴趣的话可以去图书馆里借来看一看(中文版翻译的很烂)
|
h*******n 发帖数: 50 | 19 你这个sample 不能这么取
t test是假设error满足正态分布。
你这个是uniform distribution,拿t test算p value当然不对。
【在 a***n 的大作中提到】 : 可是我感觉分布如果真的未知的话,sample的大小对于 p-value的影响还是很大的啊。 : 我刚刚模拟了下: : mu = 2.9 : sample1 = {1,2,3,4,5} : sample2 = {1,2,3,4,5, ... 1,2,3,4,5} 有210个1,2,3,4,5的数列。 : sample1和sample2 算下来的pvalue 差异太大。 第一个接近1,第二个0.02 : 但是如果分布为止,我觉得这个p-value跟sample 的大小关系很密切,所以好像意义不 : 大。
|
d******e 发帖数: 7844 | 20 p-value对应就是那个alpha,p-value越小,你的假设就越不容易被拒绝。
【在 c*******h 的大作中提到】 : sample多少当然有影响么 : 还有就是ttest的话是看0和1两头的,无论是靠近0还是靠近1都不是什么好事
|
|
|
d******e 发帖数: 7844 | 21 然,(X-mu)/sigma~N(0,1), then (X-mu)/sigma_hat~t distribution
【在 h*******n 的大作中提到】 : 你这个sample 不能这么取 : t test是假设error满足正态分布。 : 你这个是uniform distribution,拿t test算p value当然不对。
|
s**5 发帖数: 68 | |
A**********e 发帖数: 3102 | 23 这个问题我也是思考了一年多了,有些浅的想法,大家拍拍砖头 :)
先说两点老生常谈的大原则:
1。统计的意义,不是告诉你 truth,而是告诉你 possibility (p-value),然后你
自己根据 cost function 来选择判断标准/风险标准(比如说 alpha value),对比 p
-value 来做 decision。这一点至关重要。换句话说,统计是工具,是 case
orientated。
2。Context 是决定性的。同样的统计结果,不同 context (case)下,意义可能大相
径庭,decision 可能完全不一样。苹果分拣分级设备如果有 5% 的分级错误概率,是
可以接受的,降落伞如果有 5% 的打不开的概率就是灾难性的。抽离开具体的 case,
单纯地说 p=.05 是没有任何指导意义的。
然后具体到 t-test 来。t-test 和其它常见假设检验的初始 context 是:在工程领域
,在寻求体系的改善时,在有限的资源下(时间/人力/物力),如何能够尽可能安全地
确认 H_o 是错误的(所谓的 H_o 保护)。这个 context 可以具体
【在 a***n 的大作中提到】 : 我感觉 one sample T-test 算 p-value就是忽悠人的。。 : 就是说知道一个均值A,然后做实验,算一组sample跟这个均值A的 P-value,我觉得没 : 有意义啊,好像只要 sample 只要足够大,最后的p-value肯定很小啊,(因为实验均值 : 完全等于这个A的可能性太小了),等样本数量变大之后,是不是p-value就会变小?比 : 方一个大小为 50,均值为 40的样本跟A=50算出来的pvalue 明显会大于 大小为50000, : 但是均值也是40的样本跟A=50算出来的p-value ?
|
a***n 发帖数: 404 | 24 我那个例子的分布确实不是正态的,不过那只是我随便举得一个例子而已,如果有其他
的确定的正太分布的大小不同的sample,结果应该也会出现那样的p值逐渐变小的情况
吧。
我这个post主要还是想讨论下one smaple ttest的p值的实际意义到底大不大。不是纠
缠于具体的细节。
【在 h*******n 的大作中提到】 : 你这个sample 不能这么取 : t test是假设error满足正态分布。 : 你这个是uniform distribution,拿t test算p value当然不对。
|
a***n 发帖数: 404 | 25 同意啊。 做学术的用t-test恐怕没有考虑成本的吧,都是sample大了不要紧,只要达到
目的。有时候想想真不知道这个test究竟是干什么的。我困惑的也就是这个。。。
p
【在 A**********e 的大作中提到】 : 这个问题我也是思考了一年多了,有些浅的想法,大家拍拍砖头 :) : 先说两点老生常谈的大原则: : 1。统计的意义,不是告诉你 truth,而是告诉你 possibility (p-value),然后你 : 自己根据 cost function 来选择判断标准/风险标准(比如说 alpha value),对比 p : -value 来做 decision。这一点至关重要。换句话说,统计是工具,是 case : orientated。 : 2。Context 是决定性的。同样的统计结果,不同 context (case)下,意义可能大相 : 径庭,decision 可能完全不一样。苹果分拣分级设备如果有 5% 的分级错误概率,是 : 可以接受的,降落伞如果有 5% 的打不开的概率就是灾难性的。抽离开具体的 case, : 单纯地说 p=.05 是没有任何指导意义的。
|
d******e 发帖数: 7844 | 26 http://en.wikipedia.org/wiki/Type_I_error#Type_I_error
你还是没有明白什么是Test的目的。
首先你要知道有两种误差,分别是I型和II型,你不能同时最小化两个,所以通常来讲
是固定其中一个来最小化另一个,所以无论怎么样误差都是存在的。就算p-value算出
来接近0,也仍然有误差的可能。
你想举例子说明p-value的实际意义大不大,无非就是举误差存在的情况罢了。误差的
可接受程度和estimator的Risk有关。
如果你针对其中的理论感兴趣,Non-centrality F Test里面解释的很好。
【在 a***n 的大作中提到】 : 我那个例子的分布确实不是正态的,不过那只是我随便举得一个例子而已,如果有其他 : 的确定的正太分布的大小不同的sample,结果应该也会出现那样的p值逐渐变小的情况 : 吧。 : 我这个post主要还是想讨论下one smaple ttest的p值的实际意义到底大不大。不是纠 : 缠于具体的细节。
|
s******r 发帖数: 88 | 27 T-TEST以及任何一个TEST都有若干假设,
比如相互独立(像1,2,3,4,5,1,2,3,4,5...之类的序列就不满足)。
网上问答认不得真,WIKI算是底线,最好找本入门的教科书。
统计本身是SOLID SCIENCE,忽悠人的是统计学家,而且通常是在
医生或NIH的逼迫下干的。 |
s******r 发帖数: 88 | 28 “你还是没有明白什么是Test的目的”
这句话说到了点子上。I、II类错误与这个问题很有关系,但对于非统专业的深了点。
TEST的目的很重要,所以在工农业和医学实验中选择原假设和备选假设是很小心的。浅
显言之,当你有足够大的样本,或者样本间的差异很小,T-TEST对你意义不大,因为
你知道得到的均值估计是很精确的。只有当你的样本量有限(由于成本或其他原因),
你才担心均值估计准不准,是否要考虑随机波动的大小。一个原假设的提出有没有意义
,取决于需不需要(以及能不能得到)充分的证据来推翻它,这样才符合“保险起见”
的生活常识。 |
a***n 发帖数: 404 | 29 如此说来,转了一圈,好像又回到了原来的问题上,既然test有各种各样的条件:适用
背景,样本大小。。。
那么貌似怎么做出能否使用ttest又变成了一个问题,比方对于不同的实验,什么样的样
本大小叫合适?
如果统计的人没法给出这样的定义,那么test方法本身好像意义也不大了。另外貌似很
多情况下,我指paper里面,使用的各种test的情况并非像搞统计的人说的样本容量有
限,没有办法才使用这样的方法去估计,实际上是有大量的样本,为了得到一个
hypothesis的正确验证而去做的这样的test,也就是我的标题所在。因为很多情况下,
尤其cs的paper里面,得到大量的数据好像并非难事,或者说并非不可能。那样的话,
那么多的paper里面使用这样的test不是变成了trick了么?既然sample可以变,p值也
能变。而这样使用test的paper恐怕不少吧。
【在 s******r 的大作中提到】 : “你还是没有明白什么是Test的目的” : 这句话说到了点子上。I、II类错误与这个问题很有关系,但对于非统专业的深了点。 : TEST的目的很重要,所以在工农业和医学实验中选择原假设和备选假设是很小心的。浅 : 显言之,当你有足够大的样本,或者样本间的差异很小,T-TEST对你意义不大,因为 : 你知道得到的均值估计是很精确的。只有当你的样本量有限(由于成本或其他原因), : 你才担心均值估计准不准,是否要考虑随机波动的大小。一个原假设的提出有没有意义 : ,取决于需不需要(以及能不能得到)充分的证据来推翻它,这样才符合“保险起见” : 的生活常识。
|
a***n 发帖数: 404 | 30 统计也不是什么solid science吧,hypothesis test 在统计内部都是有争论的东西。你
搜一搜就知道了。
我只是感慨下这么多paper都是在玩统计的trick,没想到这么多人来给我解释统计的意
义。呵呵。换句话讲,如果真的统计这么solid的话,别人想玩也没那么容易了。
另外,这么帖子再讨论下去貌似也没啥意义了。
【在 s******r 的大作中提到】 : T-TEST以及任何一个TEST都有若干假设, : 比如相互独立(像1,2,3,4,5,1,2,3,4,5...之类的序列就不满足)。 : 网上问答认不得真,WIKI算是底线,最好找本入门的教科书。 : 统计本身是SOLID SCIENCE,忽悠人的是统计学家,而且通常是在 : 医生或NIH的逼迫下干的。
|
|
|
d******e 发帖数: 7844 | 31 我都告诉你去看noncentral F-test了,里面明确给出了sample size和各种error的关
系。
的样
【在 a***n 的大作中提到】 : 如此说来,转了一圈,好像又回到了原来的问题上,既然test有各种各样的条件:适用 : 背景,样本大小。。。 : 那么貌似怎么做出能否使用ttest又变成了一个问题,比方对于不同的实验,什么样的样 : 本大小叫合适? : 如果统计的人没法给出这样的定义,那么test方法本身好像意义也不大了。另外貌似很 : 多情况下,我指paper里面,使用的各种test的情况并非像搞统计的人说的样本容量有 : 限,没有办法才使用这样的方法去估计,实际上是有大量的样本,为了得到一个 : hypothesis的正确验证而去做的这样的test,也就是我的标题所在。因为很多情况下, : 尤其cs的paper里面,得到大量的数据好像并非难事,或者说并非不可能。那样的话, : 那么多的paper里面使用这样的test不是变成了trick了么?既然sample可以变,p值也
|
a***n 发帖数: 404 | 32 谢谢,我目前不要用test,只是看到project里面别人这么用上来感慨下。
现实就是很多paper都在那么用。所以我说很多都是忽悠。不知道你们怎么都这么激动
。。
哎。。
【在 d******e 的大作中提到】 : 我都告诉你去看noncentral F-test了,里面明确给出了sample size和各种error的关 : 系。 : : 的样
|
N**D 发帖数: 10322 | 33 there are two kind oflies
lies, and statistics
【在 a***n 的大作中提到】 : 可是我感觉分布如果真的未知的话,sample的大小对于 p-value的影响还是很大的啊。 : 我刚刚模拟了下: : mu = 2.9 : sample1 = {1,2,3,4,5} : sample2 = {1,2,3,4,5, ... 1,2,3,4,5} 有210个1,2,3,4,5的数列。 : sample1和sample2 算下来的pvalue 差异太大。 第一个接近1,第二个0.02 : 但是如果分布为止,我觉得这个p-value跟sample 的大小关系很密切,所以好像意义不 : 大。
|
w****i 发帖数: 964 | 34 descriptive statistics never lie
inference statistics could be wrong, but that's much more likely to be
interpreted by a liar, or an ignorant. |
w****i 发帖数: 964 | 35 You test makes perfect sense, with small sample size, there is a bigger
probability (p-value) that your
sample mean is 3.0 while the the real mean (H0) is 2.9, with bigger sample
size (hence greater power),
this probability drops, so you reject the null hypothesis(mu=2.9), which
reflects the truth, the mean is
3.0, not 2.9. In this case the null hypothesis should be rejected, it's
just with a big sample size you are
more confident to reject the null while with small sample size you are not
so
【在 a***n 的大作中提到】 : 可是我感觉分布如果真的未知的话,sample的大小对于 p-value的影响还是很大的啊。 : 我刚刚模拟了下: : mu = 2.9 : sample1 = {1,2,3,4,5} : sample2 = {1,2,3,4,5, ... 1,2,3,4,5} 有210个1,2,3,4,5的数列。 : sample1和sample2 算下来的pvalue 差异太大。 第一个接近1,第二个0.02 : 但是如果分布为止,我觉得这个p-value跟sample 的大小关系很密切,所以好像意义不 : 大。
|
l*******g 发帖数: 4894 | 36 同意楼上的观点,楼主对于统计可以说根本没有入门。而且你这里的题目说的是one
sample t-test,首先你对于sample level没有解释,如果只有一个level,那么你做t-
test或者说无论什么level的test都没有意义。 sample size的增大只是为了提高统计
的power因为他够精确。 t-test是针对于2level的比较,你的例子我不知道你在比较什
么,而且事实上不同levelsamplesize不一样也有很大的影响。建议去找本基本的统计
书来看。
【在 w****i 的大作中提到】 : You test makes perfect sense, with small sample size, there is a bigger : probability (p-value) that your : sample mean is 3.0 while the the real mean (H0) is 2.9, with bigger sample : size (hence greater power), : this probability drops, so you reject the null hypothesis(mu=2.9), which : reflects the truth, the mean is : 3.0, not 2.9. In this case the null hypothesis should be rejected, it's : just with a big sample size you are : more confident to reject the null while with small sample size you are not : so
|
g**********t 发帖数: 475 | |