由买买提看人间百态

boards

本页内容为未名空间相应帖子的节选和存档,一周内的贴子最多显示50字,超过一周显示500字 访问原贴
Biology版 - 统计学在系统生物学的作用
相关主题
有没有网站可以分析signaling pathways和不同germ layers的基因?基因功能分析
microarray 分析, 差异表达基因很多,但没有指向性怎么办?Gene Ontology分析
microarray post analysis 求教这两个实验室怎么选?
Microarray 分析求指点下下Gene ontology和GSEA分析是不是糊弄人的啊?
有没有同学用过一个叫GSEA(gene set enrichment analysis)的分析软件只有p value和gene symbol做pathway 分析
求推荐gene expression pathway analysis的一些资料看表达差异,该用Microarray,RNA-Seq还是DGE?
急问:什么软件做methylation找出来的gene的pathway没有写代码经验,如何进行Gene Ontology/Function Classficati
奇怪的PCA和基因表达的分析结果小教程:从基因组数据到功能
相关话题的讨论汇总
话题: pathway话题: 拆借话题: sample话题: 分布话题: ipa
进入Biology版参与讨论
1 (共1页)
c****y
发帖数: 2544
1
前几天看到大家讨论系统生物学,跟风问一个统计在其中的作用。
现在系统生物学产生海量数据,基因的,蛋白的,小分子的。
然后,用各种统计办法建模,有的找bio-marker,更有甚者直接Network
Reconstruction
但是我觉得有一个问题,一般来说系统生物学都是小样本,一般也就10个左右sample然
后分析大到上万
的基因,小到几百个小分子,在这样的情况下,我觉得任何统计方法都是不稳定的,重
复性极差的,因
为样本相对变量太小了,可是这种paper却是一堆堆的发
不知道是我的理解有问题,还是做统计的忽悠生物人,然后生物人也欣然接受文章好看
就行。
y***i
发帖数: 11639
2
没人欣然吧。看看引用就知道了。现在就是做系统生物学的(做network的)自己玩
得不亦乐乎,你看有哪个做benchwork的跟过去的。

【在 c****y 的大作中提到】
: 前几天看到大家讨论系统生物学,跟风问一个统计在其中的作用。
: 现在系统生物学产生海量数据,基因的,蛋白的,小分子的。
: 然后,用各种统计办法建模,有的找bio-marker,更有甚者直接Network
: Reconstruction
: 但是我觉得有一个问题,一般来说系统生物学都是小样本,一般也就10个左右sample然
: 后分析大到上万
: 的基因,小到几百个小分子,在这样的情况下,我觉得任何统计方法都是不稳定的,重
: 复性极差的,因
: 为样本相对变量太小了,可是这种paper却是一堆堆的发
: 不知道是我的理解有问题,还是做统计的忽悠生物人,然后生物人也欣然接受文章好看

c****y
发帖数: 2544
3
还是有点吧 比如随便针对一个病,做个基因组,蛋白组,或者代谢组其中一个,然后
用个统计方法,
然后找出一堆所谓的bio-marker,然后再去找已知pathway,把自己找出来的marker往
上边靠,讲
故事。

【在 y***i 的大作中提到】
: 没人欣然吧。看看引用就知道了。现在就是做系统生物学的(做network的)自己玩
: 得不亦乐乎,你看有哪个做benchwork的跟过去的。

i*e
发帖数: 352
4
nod
常规套路

【在 c****y 的大作中提到】
: 还是有点吧 比如随便针对一个病,做个基因组,蛋白组,或者代谢组其中一个,然后
: 用个统计方法,
: 然后找出一堆所谓的bio-marker,然后再去找已知pathway,把自己找出来的marker往
: 上边靠,讲
: 故事。

l****m
发帖数: 751
5
我就是做system biology的,任务主要分成两部分
1. 和真正做实验的人合作,这部分要求用比较成熟简单直观的方法,得到相对准确的
可以使用的结果,留给做实验的人去验证,如果装大运撞上了就有篇生物为主的论文,
我们一般要到456作者了。
2.自娱自乐的部分,用花哨一点的model,得到天花乱坠的结果,讲个故事,发一个计
算为主的论文。
两部分基本上是完全分开的,1主要是用现成的软件实现的,2要完全自己的算法。
由于理论要求的假设条件通常不100%的满足,所以统计的结果多数情况下有很大偏差。
不过即使这样的统计结果也总好过肉眼肉脑子一个一个的比照分析。
b*****l
发帖数: 9499
6
几万个基因那也是样本啊,同学,一样提供自由度的。可以把几万个基因的海量自由度
拆借到 sample 的自由度上去。大致有两类拆借方式,一类是直接拆借,衍生出一系列
的 t-test 方法;另一类是寻找 gene set,也就是 GSEA 了。
至于重复性如何,要用数据说话。有些 marker 的重复性那是相当的好。

【在 c****y 的大作中提到】
: 前几天看到大家讨论系统生物学,跟风问一个统计在其中的作用。
: 现在系统生物学产生海量数据,基因的,蛋白的,小分子的。
: 然后,用各种统计办法建模,有的找bio-marker,更有甚者直接Network
: Reconstruction
: 但是我觉得有一个问题,一般来说系统生物学都是小样本,一般也就10个左右sample然
: 后分析大到上万
: 的基因,小到几百个小分子,在这样的情况下,我觉得任何统计方法都是不稳定的,重
: 复性极差的,因
: 为样本相对变量太小了,可是这种paper却是一堆堆的发
: 不知道是我的理解有问题,还是做统计的忽悠生物人,然后生物人也欣然接受文章好看

c****y
发帖数: 2544
7
谢谢回答 我没有说你们做的没意义,因为就像你说的总比没有好
我的主要问题是,在样本小,变量多的时候,统计方法是不是非常不reliable 如果是
这样那为啥向我
前面说的 找个病一做就发文章,我觉得这样没有任何意义,因为重复性很低

【在 l****m 的大作中提到】
: 我就是做system biology的,任务主要分成两部分
: 1. 和真正做实验的人合作,这部分要求用比较成熟简单直观的方法,得到相对准确的
: 可以使用的结果,留给做实验的人去验证,如果装大运撞上了就有篇生物为主的论文,
: 我们一般要到456作者了。
: 2.自娱自乐的部分,用花哨一点的model,得到天花乱坠的结果,讲个故事,发一个计
: 算为主的论文。
: 两部分基本上是完全分开的,1主要是用现成的软件实现的,2要完全自己的算法。
: 由于理论要求的假设条件通常不100%的满足,所以统计的结果多数情况下有很大偏差。
: 不过即使这样的统计结果也总好过肉眼肉脑子一个一个的比照分析。

c****y
发帖数: 2544
8
基因是变量 为何是样本?

【在 b*****l 的大作中提到】
: 几万个基因那也是样本啊,同学,一样提供自由度的。可以把几万个基因的海量自由度
: 拆借到 sample 的自由度上去。大致有两类拆借方式,一类是直接拆借,衍生出一系列
: 的 t-test 方法;另一类是寻找 gene set,也就是 GSEA 了。
: 至于重复性如何,要用数据说话。有些 marker 的重复性那是相当的好。

c****y
发帖数: 2544
9
http://www.nature.com/ng/journal/v36/n7/full/ng0704-663a.html

【在 b*****l 的大作中提到】
: 几万个基因那也是样本啊,同学,一样提供自由度的。可以把几万个基因的海量自由度
: 拆借到 sample 的自由度上去。大致有两类拆借方式,一类是直接拆借,衍生出一系列
: 的 t-test 方法;另一类是寻找 gene set,也就是 GSEA 了。
: 至于重复性如何,要用数据说话。有些 marker 的重复性那是相当的好。

b*****l
发帖数: 9499
10
比如说,三个策略,第一个策略是寻找 DEGs,那么每个 gene 都是独立的;第二个策
略是寻找 pathway,那么一系列的基因就是相互联系的;第三个策略是寻找 gene
expression pattern,这些基因也是相互联系的,但其机制有可能已知,有可能未知。
第二种策略是 a priori 的,第三种策略是 posteriori 的。
哪怕第一种策略,也可以寻找 gene-wise 的 pattern,比如说 Wright & Simon 2003
就提出每个 gene 的 std^2 放在一起,服从 Gamma 分布,从而把拟合所得的 Gamma
分布的 a 值拆借到了F-test 里去,或者用来修饰 t-test 的 sigma 的自由度。他们
给的例子中,a = 3.x,也就是说,总共可以拆借 2a = 6.x 到 sample size 去。考虑
到做 microarrays 时 n 一般也就 3-5,这个拆借过来的值已经很可观了。

【在 c****y 的大作中提到】
: 基因是变量 为何是样本?
相关主题
求推荐gene expression pathway analysis的一些资料基因功能分析
急问:什么软件做methylation找出来的gene的pathwayGene Ontology分析
奇怪的PCA和基因表达的分析结果这两个实验室怎么选?
进入Biology版参与讨论
c****y
发帖数: 2544
11
我不太懂这个。基因是你研究的对象。把要研究的对象变量 独立或者不独立 的基因全
部放在一起变成
gamma分布这本身的legitimacy 存在吗。

2003

【在 b*****l 的大作中提到】
: 比如说,三个策略,第一个策略是寻找 DEGs,那么每个 gene 都是独立的;第二个策
: 略是寻找 pathway,那么一系列的基因就是相互联系的;第三个策略是寻找 gene
: expression pattern,这些基因也是相互联系的,但其机制有可能已知,有可能未知。
: 第二种策略是 a priori 的,第三种策略是 posteriori 的。
: 哪怕第一种策略,也可以寻找 gene-wise 的 pattern,比如说 Wright & Simon 2003
: 就提出每个 gene 的 std^2 放在一起,服从 Gamma 分布,从而把拟合所得的 Gamma
: 分布的 a 值拆借到了F-test 里去,或者用来修饰 t-test 的 sigma 的自由度。他们
: 给的例子中,a = 3.x,也就是说,总共可以拆借 2a = 6.x 到 sample size 去。考虑
: 到做 microarrays 时 n 一般也就 3-5,这个拆借过来的值已经很可观了。

b*****l
发帖数: 9499
12
从生物学的角度来说,最好的 microarray data 应当符合两点:1、DEGs 只占很小的比例,也就是说,可以认为 microarray 的分布都是一致的,并且总的来说个基因间相互独立;
2、DEGs 之间是有内在联系的。目前的方法多基于这两点假设。因为绝大部分基因的内在联系没有哪个是 dominating 的,因而可以近似认为 independent。
当然了,legitimacy 来自于实验数据的验证。
所以我就一直搞不懂为啥做代谢什么的,两万多个 genes,使用常规方法,整出个四五千的 DEGs,怎么还能发 paper 而不被 reject。。。明显有某几个 underlying relations 是 dominating 的么,好歹也要换个统计方法啊。

【在 c****y 的大作中提到】
: 我不太懂这个。基因是你研究的对象。把要研究的对象变量 独立或者不独立 的基因全
: 部放在一起变成
: gamma分布这本身的legitimacy 存在吗。
:
: 2003

D*a
发帖数: 6830
13
我跟楼主有一样的问题, 怎么把基因拆借到样本量上去?
比如我们做老鼠,如果弄十只老鼠测测身高,测测体重,测测血液ABCDEF物质含量,想
就这样发了文章,肯定会被骂死,因为测来测去都是只代表十只老鼠啊
系统生物学弄十个人来测上万个基因,应该也是一样的道理吧。
y***i
发帖数: 11639
14
What's 拆借?

【在 D*a 的大作中提到】
: 我跟楼主有一样的问题, 怎么把基因拆借到样本量上去?
: 比如我们做老鼠,如果弄十只老鼠测测身高,测测体重,测测血液ABCDEF物质含量,想
: 就这样发了文章,肯定会被骂死,因为测来测去都是只代表十只老鼠啊
: 系统生物学弄十个人来测上万个基因,应该也是一样的道理吧。

b*****l
发帖数: 9499
15
这个质疑的是算法的稳定性,而不是概念本身。其实说到这个,IPA 那个找 pathway
的算法更是搞笑,连具体数值都不看,只数个数。。。当然了,也在改善中。
我觉得可能还是 posteriori 的方法更靠谱些。。。或者搞搞基于 Bayes model 的算
法。

【在 c****y 的大作中提到】
: http://www.nature.com/ng/journal/v36/n7/full/ng0704-663a.html
c****y
发帖数: 2544
16
没错
我就是问稳定性,不管概念多好,对创新没有稳定性的话也就是没有 预测性 没有预
测性这样的算法的
意义就不大了,当然了发文章肯定够了,我只是说在用算法指导实验上基本是无用的并
且mis-leading

另外,能稍微说下IPA的算法吗,怎么个数个数

【在 b*****l 的大作中提到】
: 这个质疑的是算法的稳定性,而不是概念本身。其实说到这个,IPA 那个找 pathway
: 的算法更是搞笑,连具体数值都不看,只数个数。。。当然了,也在改善中。
: 我觉得可能还是 posteriori 的方法更靠谱些。。。或者搞搞基于 Bayes model 的算
: 法。

b*****l
发帖数: 9499
17
当某个维度上的样本数目足够大,以至于可以比较稳定和精确地确定其分布时,情况就
不一样了。。。
当然了,当 microarray 便宜得大家可以几十个几十个做着玩儿时,也就不必遭罪用统
计方法穷算计了。现在这些统计方法呢,大约可以寄调一首《醉太平》:
夺泥燕口,削铁针头,刮金佛面细搜求,无中觅有。
鹌鹑嗉里寻豌豆,鹭鸶腿上劈精肉。蚊子腹内刳脂油,亏老先生下手。

【在 D*a 的大作中提到】
: 我跟楼主有一样的问题, 怎么把基因拆借到样本量上去?
: 比如我们做老鼠,如果弄十只老鼠测测身高,测测体重,测测血液ABCDEF物质含量,想
: 就这样发了文章,肯定会被骂死,因为测来测去都是只代表十只老鼠啊
: 系统生物学弄十个人来测上万个基因,应该也是一样的道理吧。

b*****l
发帖数: 9499
18
稳定性可以改进么,概念上问题还是不大的。
IPA 的算法,说来 ft:先给个 pathway,数出里面 protein 的个数(比如说 n),然
后看 DEGs 里面出现了多少个(比如说 m),那么 m/n 就是这个 pathway 的 index。。
。这还不如 GSEA 的算法靠谱呢。
后来据说他们也要开始考虑每个 protein 的 fold change 了。。。

【在 c****y 的大作中提到】
: 没错
: 我就是问稳定性,不管概念多好,对创新没有稳定性的话也就是没有 预测性 没有预
: 测性这样的算法的
: 意义就不大了,当然了发文章肯定够了,我只是说在用算法指导实验上基本是无用的并
: 且mis-leading
: 的
: 另外,能稍微说下IPA的算法吗,怎么个数个数

c****y
发帖数: 2544
19
我看IPA到处打广告
他们就这状态 能卖出钱来吗
我看应该请这位兄台去做CSO ;)

【在 b*****l 的大作中提到】
: 稳定性可以改进么,概念上问题还是不大的。
: IPA 的算法,说来 ft:先给个 pathway,数出里面 protein 的个数(比如说 n),然
: 后看 DEGs 里面出现了多少个(比如说 m),那么 m/n 就是这个 pathway 的 index。。
: 。这还不如 GSEA 的算法靠谱呢。
: 后来据说他们也要开始考虑每个 protein 的 fold change 了。。。

b*****l
发帖数: 9499
20
他们的文献问题也很大,经常不准确,每个 connection 所依据的文献都需要自己再快
速读一下。不过总好过自己把汪洋大海般的文献捞一遍针吧。IPA 的重要之处,不是
make it perfect,而是 make it possible。我们这里用户们都在抱怨 license 数目
太少,不够用。

【在 c****y 的大作中提到】
: 我看IPA到处打广告
: 他们就这状态 能卖出钱来吗
: 我看应该请这位兄台去做CSO ;)

相关主题
Gene ontology和GSEA分析是不是糊弄人的啊?没有写代码经验,如何进行Gene Ontology/Function Classficati
只有p value和gene symbol做pathway 分析小教程:从基因组数据到功能
看表达差异,该用Microarray,RNA-Seq还是DGE?Gene expression数据做GSEA的问题
进入Biology版参与讨论
D*a
发帖数: 6830
21
我哪知道,河马说的、、、

【在 y***i 的大作中提到】
: What's 拆借?
D*a
发帖数: 6830
22
这里维度指什么?
什么叫“比较稳定和精确地确定其分布”?
其实对这个系统生物学挺好奇的

【在 b*****l 的大作中提到】
: 当某个维度上的样本数目足够大,以至于可以比较稳定和精确地确定其分布时,情况就
: 不一样了。。。
: 当然了,当 microarray 便宜得大家可以几十个几十个做着玩儿时,也就不必遭罪用统
: 计方法穷算计了。现在这些统计方法呢,大约可以寄调一首《醉太平》:
: 夺泥燕口,削铁针头,刮金佛面细搜求,无中觅有。
: 鹌鹑嗉里寻豌豆,鹭鸶腿上劈精肉。蚊子腹内刳脂油,亏老先生下手。

D***r
发帖数: 7511
23
统计学里有两大阵营frequentist和bayesian
对后者来说,任何数据都是有用的,哪怕样本再小
就好象我们人经常通过一件事也能下一些有用的结论

【在 c****y 的大作中提到】
: 前几天看到大家讨论系统生物学,跟风问一个统计在其中的作用。
: 现在系统生物学产生海量数据,基因的,蛋白的,小分子的。
: 然后,用各种统计办法建模,有的找bio-marker,更有甚者直接Network
: Reconstruction
: 但是我觉得有一个问题,一般来说系统生物学都是小样本,一般也就10个左右sample然
: 后分析大到上万
: 的基因,小到几百个小分子,在这样的情况下,我觉得任何统计方法都是不稳定的,重
: 复性极差的,因
: 为样本相对变量太小了,可是这种paper却是一堆堆的发
: 不知道是我的理解有问题,还是做统计的忽悠生物人,然后生物人也欣然接受文章好看

c****y
发帖数: 2544
24
bayesian 需要先后验概率吧 这本身就是对于未知的东西就是个问题
而且确实现在很多人用baysian network 去model 真个生物network 但是有成功的例子
吗?
比如从海量数据里面预测出一个以前不知道的pathway,然后实验也能证实

【在 D***r 的大作中提到】
: 统计学里有两大阵营frequentist和bayesian
: 对后者来说,任何数据都是有用的,哪怕样本再小
: 就好象我们人经常通过一件事也能下一些有用的结论

S**********l
发帖数: 3835
25
现在没有能预测pathway的。只能预测没有direction的一些protein function,
relationship罢了。

【在 c****y 的大作中提到】
: bayesian 需要先后验概率吧 这本身就是对于未知的东西就是个问题
: 而且确实现在很多人用baysian network 去model 真个生物network 但是有成功的例子
: 吗?
: 比如从海量数据里面预测出一个以前不知道的pathway,然后实验也能证实

b*****l
发帖数: 9499
26
在 sample 这个维度上:比如说,做 t-test,是多个 sample,少数几个 variable,先检验每个 variable 是否服从 t 分布,再看哪个 variable 发生了显著变化。所以当 sample size 很小时,因为无法“稳定和精确地确定其分布”,用 t-test 就有问题。
microarray data 正好相反,sample 数目少,而 variable 数目多,那么在每个 sample 内部,在 variable 这个维度上,就可以“稳定和精确地确定其分布”,并把得到的信息拆借回 sample 维度上。这种拆借经常是以自由度的形式。而且拆借的效率很有限:几万的自由度,拆借过来只有几个自由度,甚至 even worse。
另外,这个也不是系统生物学,而是生物信息学,bioinformatics。唉,systems
biology 啊,多少忽悠借你之名而行。。。

【在 D*a 的大作中提到】
: 这里维度指什么?
: 什么叫“比较稳定和精确地确定其分布”?
: 其实对这个系统生物学挺好奇的

D*a
发帖数: 6830
27
也就是说,这个microarray这样几万个基因测下来,给的是精确的这几个人的信息,但
是代表population还是有限。如果有条件的话,还是应该加大sample size(测的人数
)了。

,先检验每个 variable 是否服从 t 分布,再看哪个 variable 发生了显著变化。所
以当 sample size 很小时,因为无法“稳定和精确地确定其分布”,用 t-test 就有
问题。
sample 内部,在 variable 这个维度上,就可以“稳定和精确地确定其分布”,并把
得到的信息拆借回 sample 维度上。这种拆借经常是以自由度的形式。而且拆借的效率
很有限:几万的自由度,拆借过来只有几个自由度,甚至 even worse。

【在 b*****l 的大作中提到】
: 在 sample 这个维度上:比如说,做 t-test,是多个 sample,少数几个 variable,先检验每个 variable 是否服从 t 分布,再看哪个 variable 发生了显著变化。所以当 sample size 很小时,因为无法“稳定和精确地确定其分布”,用 t-test 就有问题。
: microarray data 正好相反,sample 数目少,而 variable 数目多,那么在每个 sample 内部,在 variable 这个维度上,就可以“稳定和精确地确定其分布”,并把得到的信息拆借回 sample 维度上。这种拆借经常是以自由度的形式。而且拆借的效率很有限:几万的自由度,拆借过来只有几个自由度,甚至 even worse。
: 另外,这个也不是系统生物学,而是生物信息学,bioinformatics。唉,systems
: biology 啊,多少忽悠借你之名而行。。。

c****y
发帖数: 2544
28
兄台相当透彻
但是,生物信息学是系统生物学的重要组成部分呀 照目前的发展趋势,没有信息学都
不敢叫自己是系统
生物学了 :)

,先检验
每个 variable 是否服从 t 分布,再看哪个 variable 发生了显著变化。所以当
sample size
很小时,因为无法“稳定和精确地确定其分布”,用 t-test 就有问题。
sample
内部,在 variable 这个维度上,就可以“稳定和精确地确定其分布”,并把得到的信
息拆借回
sample 维度上。这种拆借经常是以自由度的形式。而且拆借的效率很有限:几万的自
由度,拆借过来
只有几个自由度,甚至 even worse。

【在 b*****l 的大作中提到】
: 在 sample 这个维度上:比如说,做 t-test,是多个 sample,少数几个 variable,先检验每个 variable 是否服从 t 分布,再看哪个 variable 发生了显著变化。所以当 sample size 很小时,因为无法“稳定和精确地确定其分布”,用 t-test 就有问题。
: microarray data 正好相反,sample 数目少,而 variable 数目多,那么在每个 sample 内部,在 variable 这个维度上,就可以“稳定和精确地确定其分布”,并把得到的信息拆借回 sample 维度上。这种拆借经常是以自由度的形式。而且拆借的效率很有限:几万的自由度,拆借过来只有几个自由度,甚至 even worse。
: 另外,这个也不是系统生物学,而是生物信息学,bioinformatics。唉,systems
: biology 啊,多少忽悠借你之名而行。。。

a******k
发帖数: 1190
29
完全不明白“在 variable 这个维度上,就可以“稳定和精确地确定其分布”,并把得
到的信息拆借回
sample 维度上。”
有没有文献可以推荐呢。

,先检验每
个 variable 是否服从 t 分布,再看哪个 variable 发生了显著变化。所以当 sample
size 很
小时,因为无法“稳定和精确地确定其分布”,用 t-test 就有问题。
sample 内
部,在 variable 这个维度上,就可以“稳定和精确地确定其分布”,并把得到的信息
拆借回 sample
维度上。这种拆借经常是以自由度的形式。而且拆借的效率很有限:几万的自由度,拆
借过来只有几个
自由度,甚至 even worse。

【在 b*****l 的大作中提到】
: 在 sample 这个维度上:比如说,做 t-test,是多个 sample,少数几个 variable,先检验每个 variable 是否服从 t 分布,再看哪个 variable 发生了显著变化。所以当 sample size 很小时,因为无法“稳定和精确地确定其分布”,用 t-test 就有问题。
: microarray data 正好相反,sample 数目少,而 variable 数目多,那么在每个 sample 内部,在 variable 这个维度上,就可以“稳定和精确地确定其分布”,并把得到的信息拆借回 sample 维度上。这种拆借经常是以自由度的形式。而且拆借的效率很有限:几万的自由度,拆借过来只有几个自由度,甚至 even worse。
: 另外,这个也不是系统生物学,而是生物信息学,bioinformatics。唉,systems
: biology 啊,多少忽悠借你之名而行。。。

a******k
发帖数: 1190
30
展开说说“这个也不是系统生物学,而是生物信息学”?拜谢了。

,先检验每
个 variable 是否服从 t 分布,再看哪个 variable 发生了显著变化。所以当 sample
size 很
小时,因为无法“稳定和精确地确定其分布”,用 t-test 就有问题。
sample 内
部,在 variable 这个维度上,就可以“稳定和精确地确定其分布”,并把得到的信息
拆借回 sample
维度上。这种拆借经常是以自由度的形式。而且拆借的效率很有限:几万的自由度,拆
借过来只有几个
自由度,甚至 even worse。

【在 b*****l 的大作中提到】
: 在 sample 这个维度上:比如说,做 t-test,是多个 sample,少数几个 variable,先检验每个 variable 是否服从 t 分布,再看哪个 variable 发生了显著变化。所以当 sample size 很小时,因为无法“稳定和精确地确定其分布”,用 t-test 就有问题。
: microarray data 正好相反,sample 数目少,而 variable 数目多,那么在每个 sample 内部,在 variable 这个维度上,就可以“稳定和精确地确定其分布”,并把得到的信息拆借回 sample 维度上。这种拆借经常是以自由度的形式。而且拆借的效率很有限:几万的自由度,拆借过来只有几个自由度,甚至 even worse。
: 另外,这个也不是系统生物学,而是生物信息学,bioinformatics。唉,systems
: biology 啊,多少忽悠借你之名而行。。。

相关主题
[求助]RNA-seq data怎么做broad的GSEA分析microarray 分析, 差异表达基因很多,但没有指向性怎么办?
动物模型里发现重要pathway 怎么在人里面继续展开研究呢microarray post analysis 求教
有没有网站可以分析signaling pathways和不同germ layers的基因?Microarray 分析求指点下下
进入Biology版参与讨论
s******s
发帖数: 55
31
同求相关的文献或书,谢谢!

sample

【在 a******k 的大作中提到】
: 完全不明白“在 variable 这个维度上,就可以“稳定和精确地确定其分布”,并把得
: 到的信息拆借回
: sample 维度上。”
: 有没有文献可以推荐呢。
:
: ,先检验每
: 个 variable 是否服从 t 分布,再看哪个 variable 发生了显著变化。所以当 sample
: size 很
: 小时,因为无法“稳定和精确地确定其分布”,用 t-test 就有问题。
: sample 内

h*****g
发帖数: 42
32
数据量足够大的话还是很有可能的。Science 2005年有一篇,很经典

【在 c****y 的大作中提到】
: bayesian 需要先后验概率吧 这本身就是对于未知的东西就是个问题
: 而且确实现在很多人用baysian network 去model 真个生物network 但是有成功的例子
: 吗?
: 比如从海量数据里面预测出一个以前不知道的pathway,然后实验也能证实

c****y
发帖数: 2544
33
请看 10楼
不过,愚钝的我觉得这个办法肯定不好用,因为仅仅是提高自由度,其他啥都没解决
呵呵

【在 s******s 的大作中提到】
: 同求相关的文献或书,谢谢!
:
: sample

c****y
发帖数: 2544
34
能给一下 titile嘛 我看看多大的sample size
谢谢
我就在这问 样本多大才有可能得出比较靠谱的结论

【在 h*****g 的大作中提到】
: 数据量足够大的话还是很有可能的。Science 2005年有一篇,很经典
K******S
发帖数: 10109
35
you need validation after the initial screening, no matter the markers are
DNA or proteins.

【在 c****y 的大作中提到】
: 谢谢回答 我没有说你们做的没意义,因为就像你说的总比没有好
: 我的主要问题是,在样本小,变量多的时候,统计方法是不是非常不reliable 如果是
: 这样那为啥向我
: 前面说的 找个病一做就发文章,我觉得这样没有任何意义,因为重复性很低

s******s
发帖数: 55
36
关于presumption和independency能展开说说吗?或者有什么文献比较详细?
最近正在做的project就得出几千个differentially expressed genes, 不知道如何后
续处
理。因为candidate太多了。

的比例,也
就是说,可以认为 microarray 的分布都是一致的,并且总的来说个基因间相互独立;
内在联系没有哪
个是 dominating 的,因而可以近似认为 independent。
五千的
DEGs,怎么还能发 paper 而不被 reject。。。明显有某几个 underlying relations

dominating 的么,好歹也要换个统计方法啊。

【在 b*****l 的大作中提到】
: 从生物学的角度来说,最好的 microarray data 应当符合两点:1、DEGs 只占很小的比例,也就是说,可以认为 microarray 的分布都是一致的,并且总的来说个基因间相互独立;
: 2、DEGs 之间是有内在联系的。目前的方法多基于这两点假设。因为绝大部分基因的内在联系没有哪个是 dominating 的,因而可以近似认为 independent。
: 当然了,legitimacy 来自于实验数据的验证。
: 所以我就一直搞不懂为啥做代谢什么的,两万多个 genes,使用常规方法,整出个四五千的 DEGs,怎么还能发 paper 而不被 reject。。。明显有某几个 underlying relations 是 dominating 的么,好歹也要换个统计方法啊。

l******u
发帖数: 936
37
IPA 还是挺有用的, 我挑了 canonical pathway 上的第一个, IHC 验证的超好,
背后的生物学故事也很完美.

relations

【在 s******s 的大作中提到】
: 关于presumption和independency能展开说说吗?或者有什么文献比较详细?
: 最近正在做的project就得出几千个differentially expressed genes, 不知道如何后
: 续处
: 理。因为candidate太多了。
:
: 的比例,也
: 就是说,可以认为 microarray 的分布都是一致的,并且总的来说个基因间相互独立;
: 内在联系没有哪
: 个是 dominating 的,因而可以近似认为 independent。
: 五千的

c****y
发帖数: 2544
38
想请教下IPA的用法。IPA整理别人做出来的pathway,我们做实验都想找别人不知道的
,这样才有创
新性。
即使用IPA找到一个pathway被你所研究的疾病或者情况影响了,也不能说明这个
pathway对你研究的
问题有专属性
生物体正常的pathway在疾病或者别的情况下,很容易都会受到影响,这应该是很正常
的现象呀

【在 l******u 的大作中提到】
: IPA 还是挺有用的, 我挑了 canonical pathway 上的第一个, IHC 验证的超好,
: 背后的生物学故事也很完美.
:
: relations

l******u
发帖数: 936
39
我做的是病人样本. 用laser microdissection 切取俩相邻的细胞群(A & B),
然后做microarray 看trancpitone, 在IPA发现某代谢的pathway 在A里很高,
详细看发现这个代谢的pathway 最重要的合成酶在A里几乎都高表达在B里不表达.
然后发现这个代谢pathwway的主要产物的受体在B里高表达而在A里不表达,这样就发现了
这个pathway在这俩相邻细胞群的interaction里起非常重要的作用.
A细胞的代谢产物(小分子)通过ECM里跑到B细胞那边发生了interaction.
(几个重要的酶和受体都在IHC得到很好的验证)
做cell biolgoy的人对pathway的理解其实跟做genomics的很不一样. pathway受影响
是正常啊. 但是假设, 前人发现ABCDpathway 在疾病X 里很重要, 但是不一定知道
pathway F 也在疾病X里很重要, 并且不知道跟 pathway ABCD 有interaction,
如果你通过一些生物信息的工具
找到了 F, 并且有些hint 告诉你 F 跟 ABCD 有interaction, 这个也是很有意思的发
现.

【在 c****y 的大作中提到】
: 想请教下IPA的用法。IPA整理别人做出来的pathway,我们做实验都想找别人不知道的
: ,这样才有创
: 新性。
: 即使用IPA找到一个pathway被你所研究的疾病或者情况影响了,也不能说明这个
: pathway对你研究的
: 问题有专属性
: 生物体正常的pathway在疾病或者别的情况下,很容易都会受到影响,这应该是很正常
: 的现象呀

b*****l
发帖数: 9499
40
做 cell line 的重复性比较好,sample size 不用很大。要是做 patient,怎么也得
几十上百的 sample size 吧。光是 subtype 就够受的,经常几百组数据处理下来,罕
见些的 subtype 还是 sample size 太小。不过只要控制好 FDR,sample size 的问题
只会导致无法找到 DEGs 而已。
所以我总觉得 DEG screening 还是 wet lab 的人做比较好,因为找出来的 DEGs 自己
要亲自 validate,所以会更严谨。毕竟 dry lab 忽悠得是别人,web lab 忽悠的是自
己。

【在 D*a 的大作中提到】
: 也就是说,这个microarray这样几万个基因测下来,给的是精确的这几个人的信息,但
: 是代表population还是有限。如果有条件的话,还是应该加大sample size(测的人数
: )了。
:
: ,先检验每个 variable 是否服从 t 分布,再看哪个 variable 发生了显著变化。所
: 以当 sample size 很小时,因为无法“稳定和精确地确定其分布”,用 t-test 就有
: 问题。
: sample 内部,在 variable 这个维度上,就可以“稳定和精确地确定其分布”,并把
: 得到的信息拆借回 sample 维度上。这种拆借经常是以自由度的形式。而且拆借的效率
: 很有限:几万的自由度,拆借过来只有几个自由度,甚至 even worse。

相关主题
Microarray 分析求指点下下急问:什么软件做methylation找出来的gene的pathway
有没有同学用过一个叫GSEA(gene set enrichment analysis)的分析软件奇怪的PCA和基因表达的分析结果
求推荐gene expression pathway analysis的一些资料基因功能分析
进入Biology版参与讨论
b*****l
发帖数: 9499
41
如果 FDR 控制得没问题,而且 DEG 引起的分布偏移导致的 bias 也得到了矫正的话,
我觉得下一步可能要用别的 bioinformatics 的工具来寻找 driver genes 了。关于筛
选 driver gene/passenger gene/driving network 可能没有很成熟的工具,恐怕得找
专门做 bioinformatics 的组来合作。

relations

【在 s******s 的大作中提到】
: 关于presumption和independency能展开说说吗?或者有什么文献比较详细?
: 最近正在做的project就得出几千个differentially expressed genes, 不知道如何后
: 续处
: 理。因为candidate太多了。
:
: 的比例,也
: 就是说,可以认为 microarray 的分布都是一致的,并且总的来说个基因间相互独立;
: 内在联系没有哪
: 个是 dominating 的,因而可以近似认为 independent。
: 五千的

a*********g
发帖数: 8087
42
白猫黑猫抓住老鼠就是好猫
只要有用,就是好的
另外, 统计学 是 伪科学
G***y
发帖数: 1082
43
这个帖子信息量不小么.

【在 c****y 的大作中提到】
: 前几天看到大家讨论系统生物学,跟风问一个统计在其中的作用。
: 现在系统生物学产生海量数据,基因的,蛋白的,小分子的。
: 然后,用各种统计办法建模,有的找bio-marker,更有甚者直接Network
: Reconstruction
: 但是我觉得有一个问题,一般来说系统生物学都是小样本,一般也就10个左右sample然
: 后分析大到上万
: 的基因,小到几百个小分子,在这样的情况下,我觉得任何统计方法都是不稳定的,重
: 复性极差的,因
: 为样本相对变量太小了,可是这种paper却是一堆堆的发
: 不知道是我的理解有问题,还是做统计的忽悠生物人,然后生物人也欣然接受文章好看

c****y
发帖数: 2544
44
我想再请教下
按照我的理解,细胞的pathway是一个网络,正常的情况下是平衡的。
当当病态的情况下,网络的某部分被破坏,必然会影响整个网络的动态平衡,所以很多
pathway都会
被影响到,所以用omics一测基本都能找出几百到几千个,表达变化的。
即使IPA帮你找出一个以前不知道的pathway,我觉得也没有任何意义,你怎么证明这个
pathway是
你研究这个病的specificity?
当然了,我知道文章都是这么发的,我只是从更严格的角度来提问

现了

【在 l******u 的大作中提到】
: 我做的是病人样本. 用laser microdissection 切取俩相邻的细胞群(A & B),
: 然后做microarray 看trancpitone, 在IPA发现某代谢的pathway 在A里很高,
: 详细看发现这个代谢的pathway 最重要的合成酶在A里几乎都高表达在B里不表达.
: 然后发现这个代谢pathwway的主要产物的受体在B里高表达而在A里不表达,这样就发现了
: 这个pathway在这俩相邻细胞群的interaction里起非常重要的作用.
: A细胞的代谢产物(小分子)通过ECM里跑到B细胞那边发生了interaction.
: (几个重要的酶和受体都在IHC得到很好的验证)
: 做cell biolgoy的人对pathway的理解其实跟做genomics的很不一样. pathway受影响
: 是正常啊. 但是假设, 前人发现ABCDpathway 在疾病X 里很重要, 但是不一定知道
: pathway F 也在疾病X里很重要, 并且不知道跟 pathway ABCD 有interaction,

l******u
发帖数: 936
45
如果你说到疾病,从clinical的意义上说,可以看这些Pathway/Network 一些重要基因对
这个疾病的 prognosis 的意义如何,这个在临床上的指导意义非常重要。
我曾经跟Zurich一个Pathologist 谈到现在 GWAS 在临床上的应用的指导
意义的时候,也问过类似的问题。他们说这些 GWAS 晒到的prognosis marker
对他们的工作有很大的指导意义。 而而Pathway/Network 本身成了paper需要的故事的
素材
个人觉得, IPA 不能帮你发现什么真正新的pathway, IPA的意义在于它集成了很多
前人研究的一些基因/蛋白的关系(有科学文献记载),而便于你研究这些相互关系网
络。我的理解可能还比较粗浅,bioinfor的高人可以再来补充。
我刚从human genomics的lab转到了mouse Lab, 发现做function study的人对pathway的
理解跟做genomics的人非常不一样。

【在 c****y 的大作中提到】
: 我想再请教下
: 按照我的理解,细胞的pathway是一个网络,正常的情况下是平衡的。
: 当当病态的情况下,网络的某部分被破坏,必然会影响整个网络的动态平衡,所以很多
: pathway都会
: 被影响到,所以用omics一测基本都能找出几百到几千个,表达变化的。
: 即使IPA帮你找出一个以前不知道的pathway,我觉得也没有任何意义,你怎么证明这个
: pathway是
: 你研究这个病的specificity?
: 当然了,我知道文章都是这么发的,我只是从更严格的角度来提问
:

1 (共1页)
进入Biology版参与讨论
相关主题
小教程:从基因组数据到功能有没有同学用过一个叫GSEA(gene set enrichment analysis)的分析软件
Gene expression数据做GSEA的问题求推荐gene expression pathway analysis的一些资料
[求助]RNA-seq data怎么做broad的GSEA分析急问:什么软件做methylation找出来的gene的pathway
动物模型里发现重要pathway 怎么在人里面继续展开研究呢奇怪的PCA和基因表达的分析结果
有没有网站可以分析signaling pathways和不同germ layers的基因?基因功能分析
microarray 分析, 差异表达基因很多,但没有指向性怎么办?Gene Ontology分析
microarray post analysis 求教这两个实验室怎么选?
Microarray 分析求指点下下Gene ontology和GSEA分析是不是糊弄人的啊?
相关话题的讨论汇总
话题: pathway话题: 拆借话题: sample话题: 分布话题: ipa