请教一个P值稳定性的问题 - Biology版

本页内容为未名空间相应帖子的节选和存档，一周内的贴子最多显示50字，超过一周显示500字访问原贴

Biology版 - 请教一个P值稳定性的问题

相关主题
● [求助]RNA-seq data怎么做broad的GSEA分析	● 求助！！！ChIP-qPCR中的percentage input方法
● 大家在实践中是如何决定用t-test还是non-parametrical test呢？	● Phosphopeptide Enrichment kit
● 统计方法请教－如何计算这种差异的p值	● 具有多个重复序列的基因的PCR，有啥绝招没？
● 请教gene ontology/enrichment	● real data and shuffle data
● Gene ontology和GSEA分析是不是糊弄人的啊？	● p< 0.05 与 p< 0.01
● 请教如何处理novel genes的GO enrichment analysis	● 求助--基因之间表达量回归分析软件
● 请问如何计算这种情况的p value？	● 统计问题，同样是两组数据比较，anova和t-test的p value不一样
● Lung cancer stem cell discussion-personal opinion!	● false discovery rate

相关话题的讨论汇总
话题: pv话题: enrichment话题: confidence话题: 问题话题: interval

进入Biology版参与讨论

(共1页)

n******7
发帖数: 12463

在工作中总是遇到这样的问题：理论上，Pv 就是一种happen by chance的衡量，但是
实际上，总是要考虑一下输入数据的实际数值
比如Fisher exact test, Pv在样本量特别小的情况下特别不稳定，移除或者加入一个
样本就有有很大的影响。我想知道的是，有没有什么专门的名称来衡量这个效应？
Thanks

S*M
发帖数: 10832

可以看confidence interval嘛

【在 n******7 的大作中提到】

: 在工作中总是遇到这样的问题：理论上，Pv 就是一种happen by chance的衡量，但是
: 实际上，总是要考虑一下输入数据的实际数值
: 比如Fisher exact test, Pv在样本量特别小的情况下特别不稳定，移除或者加入一个
: 样本就有有很大的影响。我想知道的是，有没有什么专门的名称来衡量这个效应？
: Thanks

n******7
发帖数: 12463

Thanks. 一直以为confidence interval跟pv是直接关联的，我再看看
那要全面描述一个比较的结果，岂不需要3个数据了：pvalue,confidence interval 还
有effect size (e.g. fold change， relative enrichment，etc)

【在 S*M 的大作中提到】

: 可以看confidence interval嘛

S*M
发帖数: 10832

不知道你是做什么test的
比如最简单的student t-test
有了confidence interval，就不用另外两个了
你说是不？

【在 n******7 的大作中提到】

: Thanks. 一直以为confidence interval跟pv是直接关联的，我再看看
: 那要全面描述一个比较的结果，岂不需要3个数据了：pvalue,confidence interval 还
: 有effect size (e.g. fold change， relative enrichment，etc)

n******7
发帖数: 12463

想了一会儿，你说的例子应该是的，不过CI有两个值，跟pv+fold-change 可以替换也不奇怪
各种test都会用到 parametric 和 non-parametric 都有
最近主要做enrichment的分析，用Fisher exact test
一般就报告一下pvalue和relative enrichment
但是就像主贴说的，当sample比较少的时候，pv很不稳定。这时候就需要一个比较大的
RE来保证观察到enrichment是有意义的。往往需要一个pv的cutoff和一个RE的cutoff来
保证这一点。
我看到一些其他方案。比如DAVID算GO enrichment的时候，把实际有某个GO注释的基因
数减一，这样算出的Pvalue是个保守的估计

【在 S*M 的大作中提到】

: 不知道你是做什么test的
: 比如最简单的student t-test
: 有了confidence interval，就不用另外两个了
: 你说是不？

s*******2
发帖数: 499

p value不稳定说明data 不行。sample size 不能太小。

【在 n******7 的大作中提到】

y***j
发帖数: 11235

robustness?
中文貌似猥琐的被较为撸棒。。。

【在 n******7 的大作中提到】

n******7
发帖数: 12463

我搜索过这个关键词，不是我想要的

【在 y***j 的大作中提到】

: robustness?
: 中文貌似猥琐的被较为撸棒。。。

y***j
发帖数: 11235

印象中fisher exact test 一般来说已经很保守了。更多应该关心假阴性问题。
你的问题最简单解决方法是每组数据除了做原数据，再做下+1/-1如果对结果不影响就
说明你的结果有说服力。如果+1从不显著到了显著，再看看typeII error的概率，如果
很大，说明很可能这个是假阴性。如果-1从显著到了不显著，说明这个基因比较可疑，
我觉得这种情况大部分都是GO enrichment时候分母本身就很小的情况下，这种情况随
机性太大，有可能会钩到很有意思的基因，但是总体来说风险太大。
我老民科觉得是不是可以自己设计一个量，类似pv（-1)-pv(+1)/p(0)??这个是我瞎说
的，没啥理论根据，如果深入研究一下，自己做一个参数应该比较简单。反正就是分子
是替换数据对p造成的扰动，然后除以一个啥东西normalize一下。可能已经有了？去学
校统计系，或者统计版上问问？
各种xxmics以后的数据处理确实很头疼，虽然统计或者生物信息做的high的不行，是因
为大部分时间他们看数字就是数字，而且他们分析完了没事儿了，该发文章发文章，但
是生物口的看数字要看到背后的生物学意义，而且target选错了，后面可能白折腾几个
月甚至几年。

【在 n******7 的大作中提到】

: 我搜索过这个关键词，不是我想要的

n******7
发帖数: 12463

恩，我上面说到DAVID的EASY就是用pv(-1)代替pv（0）来算的
对我来说，假阴性问题不大，反正也不指望一网打尽
我问这个问题，就是觉得这个问题应该早有人研究过了，只是我不知道
另外，我现在做的数据分析算是medium-throughput，所以我很关心算出的东西到底靠
不靠谱

【在 y***j 的大作中提到】

: 印象中fisher exact test 一般来说已经很保守了。更多应该关心假阴性问题。
: 你的问题最简单解决方法是每组数据除了做原数据，再做下+1/-1如果对结果不影响就
: 说明你的结果有说服力。如果+1从不显著到了显著，再看看typeII error的概率，如果
: 很大，说明很可能这个是假阴性。如果-1从显著到了不显著，说明这个基因比较可疑，
: 我觉得这种情况大部分都是GO enrichment时候分母本身就很小的情况下，这种情况随
: 机性太大，有可能会钩到很有意思的基因，但是总体来说风险太大。
: 我老民科觉得是不是可以自己设计一个量，类似pv（-1)-pv(+1)/p(0)??这个是我瞎说
: 的，没啥理论根据，如果深入研究一下，自己做一个参数应该比较简单。反正就是分子
: 是替换数据对p造成的扰动，然后除以一个啥东西normalize一下。可能已经有了？去学
: 校统计系，或者统计版上问问？

相关主题
● 请教如何处理novel genes的GO enrichment analysis	● 求助！！！ChIP-qPCR中的percentage input方法
● 请问如何计算这种情况的p value？	● Phosphopeptide Enrichment kit
● Lung cancer stem cell discussion-personal opinion!	● 具有多个重复序列的基因的PCR，有啥绝招没？
进入Biology版参与讨论

M*P
发帖数: 6456

推荐你去boosters.org

★ 发自iPhone App: ChineseWeb - 中文网站浏览器

【在 n******7 的大作中提到】

s******y
发帖数: 28562

我一向对生物统计/生物信息的文章有点半信半疑，就是觉得他们的很多文章常常是针
对于一种单一的测试方法得出的数据来下结论的。虽然数据看起来很多，但是我总觉得担心。
因为本来临床数据来源就不是那么可靠。比方说针对某某疾病的什么什么分析吧，临床
上其实很多时候会把病人的数据归类错误（因为有误诊，而且几率很挺高的），在这个
基础上做的统计，真的能有什么意义么？
而大部分试验生物学，虽然看起来土头土脸，但是针对一个重要结论，至少要有两个不
同方式的试验来独立验证，所以就算样品数目没有那么惊人，结论的可靠性应该也高一
些吧？

【在 y***j 的大作中提到】

n******7
发帖数: 12463

1.由于“发表偏见”，高通量分析的文章都是什么结果好就怎么编了。这么多数据，这
么多玩法，总能搞点东西出来
2.并不是什么都要统计显著。我觉得用统计工具不过是缺乏对研究对象的具体知识才不
得已用的方法而已。不过确实生物系统中间大部分东西都不清楚，或者似是而非。
另外，我感觉很多真正的生物知识可能很难用自然语言准确表述。

得担心。
临床

【在 s******y 的大作中提到】

: 我一向对生物统计/生物信息的文章有点半信半疑，就是觉得他们的很多文章常常是针
: 对于一种单一的测试方法得出的数据来下结论的。虽然数据看起来很多，但是我总觉得担心。
: 因为本来临床数据来源就不是那么可靠。比方说针对某某疾病的什么什么分析吧，临床
: 上其实很多时候会把病人的数据归类错误（因为有误诊，而且几率很挺高的），在这个
: 基础上做的统计，真的能有什么意义么？
: 而大部分试验生物学，虽然看起来土头土脸，但是针对一个重要结论，至少要有两个不
: 同方式的试验来独立验证，所以就算样品数目没有那么惊人，结论的可靠性应该也高一
: 些吧？

n******7
发帖数: 12463

网站好像挂了

【在 M*P 的大作中提到】

: 推荐你去boosters.org
:
: ★ 发自iPhone App: ChineseWeb - 中文网站浏览器

M*P
发帖数: 6456

It's biostars.org
Stupid apple auto correction.

★ 发自iPhone App: ChineseWeb - 中文网站浏览器

【在 n******7 的大作中提到】

: 网站好像挂了

n******7
发帖数: 12463

thanks
这个好像是生物方面最好的提问类网站

【在 M*P 的大作中提到】

: It's biostars.org
: Stupid apple auto correction.
:
: ★ 发自iPhone App: ChineseWeb - 中文网站浏览器

(共1页)

进入Biology版参与讨论

相关主题
● false discovery rate	● Gene ontology和GSEA分析是不是糊弄人的啊？
● false discovery rate	● 请教如何处理novel genes的GO enrichment analysis
● 请问诸位chi-square test (转载)	● 请问如何计算这种情况的p value？
● Microarray的数据呈现	● Lung cancer stem cell discussion-personal opinion!
● [求助]RNA-seq data怎么做broad的GSEA分析	● 求助！！！ChIP-qPCR中的percentage input方法
● 大家在实践中是如何决定用t-test还是non-parametrical test呢？	● Phosphopeptide Enrichment kit
● 统计方法请教－如何计算这种差异的p值	● 具有多个重复序列的基因的PCR，有啥绝招没？
● 请教gene ontology/enrichment	● real data and shuffle data

相关话题的讨论汇总
话题: pv话题: enrichment话题: confidence话题: 问题话题: interval

#	版面	帖数(主题数)
-	全站	4871 (796)
1	Military	3777 (569)
2	Stock	341 (51)
3	Joke	117 (17)
4	History	116 (3)
5	Automobile	100 (9)
6	USANews	55 (9)
7	Midlife	45 (1)
8	Headline	41 (41)
9	Dreamer	33 (13)
10	FleaMarket	32 (20)
11	Living	30 (7)

boards

未名新帖统计// 7月16日

历史上的今天