由买买提看人间百态

boards

本页内容为未名空间相应帖子的节选和存档,一周内的贴子最多显示50字,超过一周显示500字 访问原贴
Biology版 - 胡乱选的基因比发表出来的“cancer marker”能更准确的预测癌
相关主题
有谁谈谈从零开始学NGS数据分析都需要具备什么知识?简单介绍 Bioinformatics Tools for NGS 分析
关于职业方向选择打听 一下 illumina, life tech 工资
可以发一个招人信息吗?GSEA questions
Ask a simple question...prognostic data
求教生物信息学问题基因检测靠谱吗
machine learning来对GWAS结果建模吵起来了,关于GWAS
怎样检测一个基因的变异与疾病的关系也来说说GWAS
求科普Next Generation Sequence和MD老板谈话,被郁闷了
相关话题的讨论汇总
话题: cancer话题: gwas话题: genes话题: signatures话题: breast
进入Biology版参与讨论
1 (共1页)
s******y
发帖数: 28562
1
David Venet from the Université Libre de Bruxelles 用胡乱挑选的基因组合
和已经发表的所谓的癌基因的marker 用在未知的病人的数据上,发现胡乱挑选
的基因的准确率比那些所谓的marker 还要好。
文章结尾直接点了几个杂志的名:Cell, Nature Genetics, PNAS, 认为这些杂志
过分鼓吹所谓的 gene marker 的意义。从文章里面的行文来看,估计这些也是
把这个文章据掉的杂志 (lol)
文章最后发表在
PLoS Comput Biol. 2011 Oct;7(10):e1002240. Epub 2011 Oct 20.
http://blog.f1000.com/2012/01/10/random-gene-sets-can-predict-b
Random gene sets can predict breast cancer survival better than cancer-
related signatures
And top-tier journals did not want to publish this surprising study.
By Ed Yong
10 January 2012
Email
Print
1 comment
Tumours are bundles of cells that grow and divide uncontrollably, and their
genes are deployed in unusual ways. By analysing the genes from different
tumour samples, scientists have tried to pin down the chaotic events that
lead to cancer. They seem to be making headway. Dozens of papers have
reported “gene expression signatures” that predict the risk of dying or
surviving from cancer, and new ones come out every month.
These signatures purportedly hint at how healthy cells transform into
tumours in the first place. If, for example, the genes in question are
involved in wound healing, this tells you that the healing process is
somehow involved in a tumour’s progression. These collections of genes
reveal deeper truths about the disease they’re associated with.
This idea sounds reasonable, but David Venet from the Université Libre de
Bruxelles has thrown a big spanner into the works. He has shown that
completely random sets of genes can predict the odds of surviving breast
cancer better than published signatures.
Venet found three signatures that are completely unconnected to cancer.
Instead, these collections of genes were associated with laughing at jokes
after lunch, with the experience of social defeat in mice, and with the
positioning of skin cells. All of them were associated with breast cancer
outcomes.
It got worse. Venet collected 47 breast cancer signatures from published
papers and compared them to sets of random genes. The random sets were
equally (or more) strongly associated with breast cancer outcomes than 60%
of the published ones. In fact, you can randomly select a group of 100 genes
or more, and be 90% sure of finding a statistically significant link with
breast cancer. Venet wrote, “Investigators are bound to find an association
however whimsical their marker is.”
Tubular Adenoma of Breast. Image from Flickr, by Ed Uthman
Venet’s study was described as a “must-read” by F1000 member Jinfeng Liu
from Genentech Inc. The results may seem unbelievable, but there is a simple
reason for them. The activities of thousands of genes across a breast
cancer cell’s genome are related to how quickly that cell proliferates (
grows and divides). And that is related to a patient’s prognosis.
As an analogy, you could find hundreds of things that correlate with a
person’s wellbeing and lifespan: the number of Apple products they own,
whether they have university degrees, how many cars they have, and so on.
But this doesn’t mean that these things improve our health; instead, they
reflect how wealthy we are, our lifestyle choices, and our access to good
healthcare.
Gene signatures may be relatively useless at illuminating the causes of
cancer, but the team stresses that they can still help doctors – after all,
they’re still related to prognosis. Writing in The Scientist, the study’s
lead author Vince Detours says, “Smoke does not drive fire, yet it is
powerful indicator of when and where a fire is burning.”
Detours also aims a blow at scientific publishers who have let studies of
genetic signatures proliferate uncontrollably. He wrote:
It took us four years and six rejections to get this work finally
published in a computational biology journal – not the most efficient venue
to reach the oncology community. Meanwhile, a steady stream of studies
confounded by proliferation rates has appeared.
He added,
This has to be said; one can no longer stay silent about the rather
limited self-correction capability of the top tier publishing system (Cell,
Nature Genetics, PNAS, etc.), which promoted these studies in the first
place
K******S
发帖数: 10109
2
nice

【在 s******y 的大作中提到】
: David Venet from the Université Libre de Bruxelles 用胡乱挑选的基因组合
: 和已经发表的所谓的癌基因的marker 用在未知的病人的数据上,发现胡乱挑选
: 的基因的准确率比那些所谓的marker 还要好。
: 文章结尾直接点了几个杂志的名:Cell, Nature Genetics, PNAS, 认为这些杂志
: 过分鼓吹所谓的 gene marker 的意义。从文章里面的行文来看,估计这些也是
: 把这个文章据掉的杂志 (lol)
: 文章最后发表在
: PLoS Comput Biol. 2011 Oct;7(10):e1002240. Epub 2011 Oct 20.
: http://blog.f1000.com/2012/01/10/random-gene-sets-can-predict-b
: Random gene sets can predict breast cancer survival better than cancer-

s******s
发帖数: 13035
3
他那几个基因怎么来的?有没有general的意义还是碰巧?

【在 s******y 的大作中提到】
: David Venet from the Université Libre de Bruxelles 用胡乱挑选的基因组合
: 和已经发表的所谓的癌基因的marker 用在未知的病人的数据上,发现胡乱挑选
: 的基因的准确率比那些所谓的marker 还要好。
: 文章结尾直接点了几个杂志的名:Cell, Nature Genetics, PNAS, 认为这些杂志
: 过分鼓吹所谓的 gene marker 的意义。从文章里面的行文来看,估计这些也是
: 把这个文章据掉的杂志 (lol)
: 文章最后发表在
: PLoS Comput Biol. 2011 Oct;7(10):e1002240. Epub 2011 Oct 20.
: http://blog.f1000.com/2012/01/10/random-gene-sets-can-predict-b
: Random gene sets can predict breast cancer survival better than cancer-

p*****m
发帖数: 7030
4
Venet found three signatures that are completely unconnected to cancer.
Instead, these collections of genes were associated with laughing at jokes
after lunch, with the experience of social defeat in mice, and with the
positioning of skin cells.
哈哈哈哈哈

【在 s******y 的大作中提到】
: David Venet from the Université Libre de Bruxelles 用胡乱挑选的基因组合
: 和已经发表的所谓的癌基因的marker 用在未知的病人的数据上,发现胡乱挑选
: 的基因的准确率比那些所谓的marker 还要好。
: 文章结尾直接点了几个杂志的名:Cell, Nature Genetics, PNAS, 认为这些杂志
: 过分鼓吹所谓的 gene marker 的意义。从文章里面的行文来看,估计这些也是
: 把这个文章据掉的杂志 (lol)
: 文章最后发表在
: PLoS Comput Biol. 2011 Oct;7(10):e1002240. Epub 2011 Oct 20.
: http://blog.f1000.com/2012/01/10/random-gene-sets-can-predict-b
: Random gene sets can predict breast cancer survival better than cancer-

a********k
发帖数: 2273
5
扫了一眼
大意应该是随便抓100个以上的基因,(包括那些发表的看了joke表达不同的,social
有问题的,皮肤细胞问题的基因)90%的可能cancer和正常细胞的表达谱就会有区别。
作者抓了几十篇paper里面报道的所谓在breast cancer里面表达有区别的基因,和他随
便抓的基因比较,只要抓到100个基因以上,两个结果就相差不显著了。
然后他看了一下发表的那些所谓marker,大部分都和cell cycle/PCNA有关,如果拿
PCNA的表达做normalization,世界清静了,cancer marker基本失效。
结论就是cancer marker就是看细胞分裂的,没啥奇怪。

【在 s******y 的大作中提到】
: David Venet from the Université Libre de Bruxelles 用胡乱挑选的基因组合
: 和已经发表的所谓的癌基因的marker 用在未知的病人的数据上,发现胡乱挑选
: 的基因的准确率比那些所谓的marker 还要好。
: 文章结尾直接点了几个杂志的名:Cell, Nature Genetics, PNAS, 认为这些杂志
: 过分鼓吹所谓的 gene marker 的意义。从文章里面的行文来看,估计这些也是
: 把这个文章据掉的杂志 (lol)
: 文章最后发表在
: PLoS Comput Biol. 2011 Oct;7(10):e1002240. Epub 2011 Oct 20.
: http://blog.f1000.com/2012/01/10/random-gene-sets-can-predict-b
: Random gene sets can predict breast cancer survival better than cancer-

s******s
发帖数: 13035
6
抓100个基因有区别没啥问题啊!统计里面你做panel data (longitudinal)
对一堆random的东西regression, 总是抓住一堆dummy variable的

别。

【在 a********k 的大作中提到】
: 扫了一眼
: 大意应该是随便抓100个以上的基因,(包括那些发表的看了joke表达不同的,social
: 有问题的,皮肤细胞问题的基因)90%的可能cancer和正常细胞的表达谱就会有区别。
: 作者抓了几十篇paper里面报道的所谓在breast cancer里面表达有区别的基因,和他随
: 便抓的基因比较,只要抓到100个基因以上,两个结果就相差不显著了。
: 然后他看了一下发表的那些所谓marker,大部分都和cell cycle/PCNA有关,如果拿
: PCNA的表达做normalization,世界清静了,cancer marker基本失效。
: 结论就是cancer marker就是看细胞分裂的,没啥奇怪。

p*****m
发帖数: 7030
7
是不奇怪 但是这个不奇怪才真的奇怪 因为大家都可以想象cancer cell和normal cell
应该有巨大差异 整体基因表达就应该有巨大差异 居然如此做biomarker的paper是怎么
发出来的呢?

别。

【在 a********k 的大作中提到】
: 扫了一眼
: 大意应该是随便抓100个以上的基因,(包括那些发表的看了joke表达不同的,social
: 有问题的,皮肤细胞问题的基因)90%的可能cancer和正常细胞的表达谱就会有区别。
: 作者抓了几十篇paper里面报道的所谓在breast cancer里面表达有区别的基因,和他随
: 便抓的基因比较,只要抓到100个基因以上,两个结果就相差不显著了。
: 然后他看了一下发表的那些所谓marker,大部分都和cell cycle/PCNA有关,如果拿
: PCNA的表达做normalization,世界清静了,cancer marker基本失效。
: 结论就是cancer marker就是看细胞分裂的,没啥奇怪。

s******y
发帖数: 28562
8
我觉得他的文章的意思就是大部分基因的表达程度都和细胞的活跃程度有关,
所以随便乱抓几个都能看出区别来,但是和癌症的机理基本上就是打酱油的关系。
总体意思就是目前的主流方法找出来的marker不能作为推测机理的起点。
他们在faculty 1000上抱怨说他们这篇文章一共投了4年,前后被六个
顶级杂志据了(他们直接点名的几家估计是对他们态度最糟糕的,哈哈哈)
这里是他们在PLoS Comp Biol 发表的文章的摘要。
Bridging the gap between animal or in vitro models and human disease is
essential in medical research. Researchers often suggest that a biological
mechanism is relevant to human cancer from the statistical association of a
gene expression marker (a signature) of this mechanism, that was discovered
in an experimental system, with disease outcome in humans. We examined this
argument for breast cancer. Surprisingly, we found that gene expression
signatures-unrelated to cancer-of the effect of postprandial laughter, of
mice social defeat and of skin fibroblast localization were all
significantly associated with breast cancer outcome. We next compared 47
published breast cancer outcome signatures to signatures made of random
genes. Twenty-eight of them (60%) were not significantly better outcome
predictors than random signatures of identical size and 11 (23%) were worst
predictors than the median random signature. More than 90% of random
signatures >100 genes were significant outcome predictors. We next derived a
metagene, called meta-PCNA, by selecting the 1% genes most positively
correlated with proliferation marker PCNA in a compendium of normal tissues
expression. Adjusting breast cancer expression data for meta-PCNA abrogated
almost entirely the outcome association of published and random signatures.
We also found that, in the absence of adjustment, the hazard ratio of
outcome association of a signature strongly correlated with meta-PCNA (R(2)&
#8202;= 0.9). This relation also applied to single-gene expression
markers. Moreover, >50% of the breast cancer transcriptome was correlated
with meta-PCNA. A corollary was that purging cell cycle genes out of a
signature failed to rule out the confounding effect of proliferation. Hence,
it is questionable to suggest that a mechanism is relevant to human breast
cancer from the finding that a gene expression marker for this mechanism
predicts human breast cancer outcome, because most markers do. The methods
we present help to overcome this problem.

cell

【在 p*****m 的大作中提到】
: 是不奇怪 但是这个不奇怪才真的奇怪 因为大家都可以想象cancer cell和normal cell
: 应该有巨大差异 整体基因表达就应该有巨大差异 居然如此做biomarker的paper是怎么
: 发出来的呢?
:
: 别。

i*e
发帖数: 352
9
那些做gene signature的文章用的p值都是设定在什么level?0.05?

【在 s******s 的大作中提到】
: 抓100个基因有区别没啥问题啊!统计里面你做panel data (longitudinal)
: 对一堆random的东西regression, 总是抓住一堆dummy variable的
:
: 别。

s******y
发帖数: 28562
10
一般都比这个严格,经常就是 0.000001

【在 i*e 的大作中提到】
: 那些做gene signature的文章用的p值都是设定在什么level?0.05?
相关主题
machine learning来对GWAS结果建模简单介绍 Bioinformatics Tools for NGS 分析
怎样检测一个基因的变异与疾病的关系打听 一下 illumina, life tech 工资
求科普Next Generation SequenceGSEA questions
进入Biology版参与讨论
i*e
发帖数: 352
11
GWAS的结果本来就不应该作为推测机理
它理论依据本来就是基于几个假说
就算E-8的显著性阈值都还是假阳性很多

a
discovered

【在 s******y 的大作中提到】
: 我觉得他的文章的意思就是大部分基因的表达程度都和细胞的活跃程度有关,
: 所以随便乱抓几个都能看出区别来,但是和癌症的机理基本上就是打酱油的关系。
: 总体意思就是目前的主流方法找出来的marker不能作为推测机理的起点。
: 他们在faculty 1000上抱怨说他们这篇文章一共投了4年,前后被六个
: 顶级杂志据了(他们直接点名的几家估计是对他们态度最糟糕的,哈哈哈)
: 这里是他们在PLoS Comp Biol 发表的文章的摘要。
: Bridging the gap between animal or in vitro models and human disease is
: essential in medical research. Researchers often suggest that a biological
: mechanism is relevant to human cancer from the statistical association of a
: gene expression marker (a signature) of this mechanism, that was discovered

p*****m
发帖数: 7030
12
GWAS的文章很多统计都是胡来的 如果p cutoff选0.000001 一般说明作者乱选的统计方法

【在 s******y 的大作中提到】
: 一般都比这个严格,经常就是 0.000001
s******s
发帖数: 13035
13
good point. 不过,这个难道不是大家早就应该知道的么?
本来也就仅仅能是hint可能的机理。另外,其实细胞活跃程度
也不能说是和癌症完全打酱油,倒是找机理的时候把这部分
effect给control掉确实十个good point

a
discovered

【在 s******y 的大作中提到】
: 我觉得他的文章的意思就是大部分基因的表达程度都和细胞的活跃程度有关,
: 所以随便乱抓几个都能看出区别来,但是和癌症的机理基本上就是打酱油的关系。
: 总体意思就是目前的主流方法找出来的marker不能作为推测机理的起点。
: 他们在faculty 1000上抱怨说他们这篇文章一共投了4年,前后被六个
: 顶级杂志据了(他们直接点名的几家估计是对他们态度最糟糕的,哈哈哈)
: 这里是他们在PLoS Comp Biol 发表的文章的摘要。
: Bridging the gap between animal or in vitro models and human disease is
: essential in medical research. Researchers often suggest that a biological
: mechanism is relevant to human cancer from the statistical association of a
: gene expression marker (a signature) of this mechanism, that was discovered

s******y
发帖数: 28562
14
其实能在高引用杂志发表出来的,大多数都是 10E -30 这么狠的P value.

方法

【在 p*****m 的大作中提到】
: GWAS的文章很多统计都是胡来的 如果p cutoff选0.000001 一般说明作者乱选的统计方法
s******s
发帖数: 13035
15
其实,我觉得做生物的都至少要去上一门stat 101.
一个是大家天天搞的sd, error bar的问题
另一个是搞清楚association和causality的关系
最后,好好理解一下multitest correction

【在 s******y 的大作中提到】
: 其实能在高引用杂志发表出来的,大多数都是 10E -30 这么狠的P value.
:
: 方法

p*****m
发帖数: 7030
16
这样的P value本质上就是用错统计方法的结果

【在 s******y 的大作中提到】
: 其实能在高引用杂志发表出来的,大多数都是 10E -30 这么狠的P value.
:
: 方法

l*****a
发帖数: 1431
17
ls 给讲讲multetest correction吧。真心求教。
n********k
发帖数: 2818
18
Maybe I am not getting it...several quick points:
1. The paper/study set up the assumptions/targets and then shot down...
pretty amusing, isn't it? well, they might have a point that there is component of poor scientific publishing...
2. the study went to where it might deserve...I don't see why it shall fair
better...that said, it is agreed that some of those NCS are a step away from
junk:)))...
3. P value in biomedicine sucks and purely a joke---esp with so many
American biologists and beyond whose math intelligence is virtually zero but
always insistent on a P value...
4. Who cares if biomarkers have no bearing in mechanisms...I think this is
inevitably the trend/true for many complex diseases...otherwise it wouldn't
be called biomarkers...

【在 s******y 的大作中提到】
: David Venet from the Université Libre de Bruxelles 用胡乱挑选的基因组合
: 和已经发表的所谓的癌基因的marker 用在未知的病人的数据上,发现胡乱挑选
: 的基因的准确率比那些所谓的marker 还要好。
: 文章结尾直接点了几个杂志的名:Cell, Nature Genetics, PNAS, 认为这些杂志
: 过分鼓吹所谓的 gene marker 的意义。从文章里面的行文来看,估计这些也是
: 把这个文章据掉的杂志 (lol)
: 文章最后发表在
: PLoS Comput Biol. 2011 Oct;7(10):e1002240. Epub 2011 Oct 20.
: http://blog.f1000.com/2012/01/10/random-gene-sets-can-predict-b
: Random gene sets can predict breast cancer survival better than cancer-

n********k
发帖数: 2818
19
no hope, you have to go back to the preschool and educate the american and
many more---the basic math...even it is possible, it would be a generation
away...I am amazed by many biologists who has no math intelligence
whatsoever but are solely possessed by P-value when reviewing data/MSs...

【在 s******s 的大作中提到】
: 其实,我觉得做生物的都至少要去上一门stat 101.
: 一个是大家天天搞的sd, error bar的问题
: 另一个是搞清楚association和causality的关系
: 最后,好好理解一下multitest correction

s******y
发帖数: 28562
20

of
你说的那个assumptions是因为你在直觉/理论上觉得那个是assumptions。
但是在这个文章之前没有人认真去检查过这个问题。
fair
from
but

【在 n********k 的大作中提到】
: Maybe I am not getting it...several quick points:
: 1. The paper/study set up the assumptions/targets and then shot down...
: pretty amusing, isn't it? well, they might have a point that there is component of poor scientific publishing...
: 2. the study went to where it might deserve...I don't see why it shall fair
: better...that said, it is agreed that some of those NCS are a step away from
: junk:)))...
: 3. P value in biomedicine sucks and purely a joke---esp with so many
: American biologists and beyond whose math intelligence is virtually zero but
: always insistent on a P value...
: 4. Who cares if biomarkers have no bearing in mechanisms...I think this is

相关主题
prognostic data也来说说GWAS
基因检测靠谱吗和MD老板谈话,被郁闷了
吵起来了,关于GWASwhat is the connection between linkage disequlibrium and GWAS?
进入Biology版参与讨论
sa
发帖数: 1384
21
good one. finally someone come to say" the emperor has no clothes"
i*e
发帖数: 352
22
这不用我去说啊
早就已经争吵多时了
严谨点说,应该是GWAS不能“完全”用来推测机理
它只test一部分(尚不知大多比例)复杂疾病/性状
就这能验证出来就很了不起了
再说了,没有replication,GWAS自个假阳性太多太多

【在 s******y 的大作中提到】
:
: of
: 你说的那个assumptions是因为你在直觉/理论上觉得那个是assumptions。
: 但是在这个文章之前没有人认真去检查过这个问题。
: fair
: from
: but

e*******e
发帖数: 1837
23
话说发这种文章算不算scientific suicide? 美国人拿NIH钱的就算做了同样的结果估
计也不敢发。

【在 s******y 的大作中提到】
: David Venet from the Université Libre de Bruxelles 用胡乱挑选的基因组合
: 和已经发表的所谓的癌基因的marker 用在未知的病人的数据上,发现胡乱挑选
: 的基因的准确率比那些所谓的marker 还要好。
: 文章结尾直接点了几个杂志的名:Cell, Nature Genetics, PNAS, 认为这些杂志
: 过分鼓吹所谓的 gene marker 的意义。从文章里面的行文来看,估计这些也是
: 把这个文章据掉的杂志 (lol)
: 文章最后发表在
: PLoS Comput Biol. 2011 Oct;7(10):e1002240. Epub 2011 Oct 20.
: http://blog.f1000.com/2012/01/10/random-gene-sets-can-predict-b
: Random gene sets can predict breast cancer survival better than cancer-

l*********s
发帖数: 5409
24
Next generation sequence is going to replace GWAS anyway,it is beating a
dying horse.
p*****m
发帖数: 7030
25
这个有什么关系?

【在 l*********s 的大作中提到】
: Next generation sequence is going to replace GWAS anyway,it is beating a
: dying horse.

p*****m
发帖数: 7030
26
你这个搞笑了不是,病人的取病理组织 正常人的对照呢?

【在 s******y 的大作中提到】
:
: of
: 你说的那个assumptions是因为你在直觉/理论上觉得那个是assumptions。
: 但是在这个文章之前没有人认真去检查过这个问题。
: fair
: from
: but

s******y
发帖数: 28562
27
可以和自己身上其他组织相比啊。
有这么做的。而且已经有人开始这么建数据库了。

【在 p*****m 的大作中提到】
: 你这个搞笑了不是,病人的取病理组织 正常人的对照呢?
p*****m
发帖数: 7030
28
这样测出来比GWAS还离谱吧 我知道有人做这种实验(microarray时代就有无数人这么
做cancer了) 但是这样解决的问题和GWAS是不一样的,或者说,试图解决的问题是不
一样的。。所以谈不上什么取代什么

【在 s******y 的大作中提到】
: 可以和自己身上其他组织相比啊。
: 有这么做的。而且已经有人开始这么建数据库了。

n********k
发帖数: 2818
29
Please define GWAS, I think I am lost now...have to admit I am very naive
about GWAS...NGS V GWAS?? I thought one is technology, one is methodology..
.right?

【在 s******y 的大作中提到】
: 可以和自己身上其他组织相比啊。
: 有这么做的。而且已经有人开始这么建数据库了。

s******s
发帖数: 13035
30
i guess they mean SNP vs Transcriptome.

..

【在 n********k 的大作中提到】
: Please define GWAS, I think I am lost now...have to admit I am very naive
: about GWAS...NGS V GWAS?? I thought one is technology, one is methodology..
: .right?

相关主题
如果genotyping结果发现一个SNP不符合HWE说明啥?关于职业方向选择
解释一下——今后一二十年的推演可以发一个招人信息吗?
有谁谈谈从零开始学NGS数据分析都需要具备什么知识?Ask a simple question...
进入Biology版参与讨论
k****o
发帖数: 589
31

..
同困惑
另外,看了这个文章有点哭笑不得啊。不知道除了癌症,其它领域的biomarker数据又
有多可靠。

【在 n********k 的大作中提到】
: Please define GWAS, I think I am lost now...have to admit I am very naive
: about GWAS...NGS V GWAS?? I thought one is technology, one is methodology..
: .right?

k****o
发帖数: 589
32

个人觉得组织间的差异太难控制了。

【在 s******y 的大作中提到】
: 可以和自己身上其他组织相比啊。
: 有这么做的。而且已经有人开始这么建数据库了。

s******y
发帖数: 28562
33
snp mutations between tissues should be very reliable.
they are not talking about transcription levels.

【在 k****o 的大作中提到】
:
: 个人觉得组织间的差异太难控制了。

n********k
发帖数: 2818
34
In this article, I thought they are not talking or emphasizing about the
reliability of the biomarkers as markers but for mechanisms...That said, it
is surprising that randomly chosen set performed well or even better...what
one might say is too many sloppy studies from influential groups without
proper/well-thought controls...or there might be some inherited problems/
complexity with the methodology or math or biology here...God knows...

【在 k****o 的大作中提到】
:
: 个人觉得组织间的差异太难控制了。

s******y
发帖数: 28562
35
Yeah, I think one of the main points is:
the current mothdology doesn't work

it
what

【在 n********k 的大作中提到】
: In this article, I thought they are not talking or emphasizing about the
: reliability of the biomarkers as markers but for mechanisms...That said, it
: is surprising that randomly chosen set performed well or even better...what
: one might say is too many sloppy studies from influential groups without
: proper/well-thought controls...or there might be some inherited problems/
: complexity with the methodology or math or biology here...God knows...

n********k
发帖数: 2818
36
Does this study have anything to do with GAWS? It is about transcriptional
molecular signature, right? I am very naive about the field but now I am
completely lost with your discussion and response to mine...

【在 s******y 的大作中提到】
: snp mutations between tissues should be very reliable.
: they are not talking about transcription levels.

s******y
发帖数: 28562
37
在我那个回复里的"they" 是指用NGS 作somatic mutation 的那些人,不是指
帖子标题相关的文章里的那些人。

【在 n********k 的大作中提到】
: Does this study have anything to do with GAWS? It is about transcriptional
: molecular signature, right? I am very naive about the field but now I am
: completely lost with your discussion and response to mine...

p*****m
发帖数: 7030
38
microarray时代大家对somatic mutation 和cancer的关系也是搞过不少研究的啊 我觉
得你说的这个样品量的问题不太成立 single cell microarray都做得了的

【在 s******y 的大作中提到】
: 在我那个回复里的"they" 是指用NGS 作somatic mutation 的那些人,不是指
: 帖子标题相关的文章里的那些人。

s******y
发帖数: 28562
39
transcriptome 的准确度远远比不上白纸黑字的DNA sequence mutation data 吧。
而且transcriptome 的可变性太高了,得出来的数据大部分都是垃圾。
别的不说,单是这个single cell microarray 的样品源就大有问题,
谁知道进去的那个细胞真的就是癌细胞?弄不好是样品里面污染的其他组织细胞
或者血细胞什么的,马上就和对照的transcriptome 不一样了。
但是单细胞的DNA sequencing 就不一样了,不管什么组织,在没有病变的
前提下,绝大部分的DNA sequence 应该都是相同的吧。

【在 p*****m 的大作中提到】
: microarray时代大家对somatic mutation 和cancer的关系也是搞过不少研究的啊 我觉
: 得你说的这个样品量的问题不太成立 single cell microarray都做得了的

p*****m
发帖数: 7030
40
也可以用genome microarray或者SNP array做GWAS,这样本质上和用NGS做好像没啥区别
事实上 做gwas的,用SNP array的比你说的彻底sequencing才是主流吧
所以我有点被你弄糊涂了。。

【在 s******y 的大作中提到】
: transcriptome 的准确度远远比不上白纸黑字的DNA sequence mutation data 吧。
: 而且transcriptome 的可变性太高了,得出来的数据大部分都是垃圾。
: 别的不说,单是这个single cell microarray 的样品源就大有问题,
: 谁知道进去的那个细胞真的就是癌细胞?弄不好是样品里面污染的其他组织细胞
: 或者血细胞什么的,马上就和对照的transcriptome 不一样了。
: 但是单细胞的DNA sequencing 就不一样了,不管什么组织,在没有病变的
: 前提下,绝大部分的DNA sequence 应该都是相同的吧。

相关主题
Ask a simple question...怎样检测一个基因的变异与疾病的关系
求教生物信息学问题求科普Next Generation Sequence
machine learning来对GWAS结果建模简单介绍 Bioinformatics Tools for NGS 分析
进入Biology版参与讨论
p*****m
发帖数: 7030
41
我说的microarray不是说cDNA array...

【在 s******y 的大作中提到】
: transcriptome 的准确度远远比不上白纸黑字的DNA sequence mutation data 吧。
: 而且transcriptome 的可变性太高了,得出来的数据大部分都是垃圾。
: 别的不说,单是这个single cell microarray 的样品源就大有问题,
: 谁知道进去的那个细胞真的就是癌细胞?弄不好是样品里面污染的其他组织细胞
: 或者血细胞什么的,马上就和对照的transcriptome 不一样了。
: 但是单细胞的DNA sequencing 就不一样了,不管什么组织,在没有病变的
: 前提下,绝大部分的DNA sequence 应该都是相同的吧。

p*****m
发帖数: 7030
42
事实上好像也没有谁会用CDNA ARRAY做GWAS吧 我觉得你比较错东西了

【在 p*****m 的大作中提到】
: 我说的microarray不是说cDNA array...
s******y
发帖数: 28562
43
我的印象里SNP array 也是挺不准的。
因为本质上就是用很多很多的probe 来overlap 然后搞拼图游戏吧?
其准确度和probe 的设计,操作人员的水平,甚至环境温度都有关。
不如NGS 来个刨根问底的sequencing 干脆

【在 p*****m 的大作中提到】
: 我说的microarray不是说cDNA array...
s*******r
发帖数: 181
44
此文对GWAS/NGS (DNA) 没有什么影响。Microarray/RNA-seq 关心的基因表达本来就混
乱成网,搞不清楚原因结果。
p*****m
发帖数: 7030
45
所以你之前讨论microarry表达量测的不准啊样品用得多啊都应该打回去重写 呵呵 没
听说谁是用表达量(cDNA array)来做GWAS的,做GWAS无非就是几个办法,SNP array,
用得最多;genome tiling array,估计有些不差钱的人用。然后就是whole genome
sequnrcing,这个有了NGS估计会有很多人做。
不管哪个都和cDNA array没关系。。而且不管哪个也都解决不了GWAS本身不准的问题

【在 s******y 的大作中提到】
: 我的印象里SNP array 也是挺不准的。
: 因为本质上就是用很多很多的probe 来overlap 然后搞拼图游戏吧?
: 其准确度和probe 的设计,操作人员的水平,甚至环境温度都有关。
: 不如NGS 来个刨根问底的sequencing 干脆

p*****m
发帖数: 7030
46
这个定义很清楚吧。。你引得这个文章本身和GWAS一点关系都没有 其实我也不知道话
题怎么转到GWAS来了。。我好像就是随口说了个GWAS的统计问题 结果。。

【在 s******y 的大作中提到】
: 我的印象里SNP array 也是挺不准的。
: 因为本质上就是用很多很多的probe 来overlap 然后搞拼图游戏吧?
: 其准确度和probe 的设计,操作人员的水平,甚至环境温度都有关。
: 不如NGS 来个刨根问底的sequencing 干脆

s******y
发帖数: 28562
47
呵呵,我觉得我是讨论着讨论着就进了一个歧途。
这里得向大家道歉并澄清两点,免得误人子弟。
1。这篇文章其实本身和GWAS 没有直接关系。他们直接打击的是用trancriptome
找 bio-marker 的那些人。
这个话题之所以会引到GWAS上,主要是因为我自己对GWAS有偏见,三句话
不忘顺便打击GWAS,结果就把这个话题说到那边去了。
其实这个文章本身打击的直接对象不是GWAS,这个得澄清一下。
2。GWAS (作为一个思路) 和是否用NGS (方法)没有关系。

【在 p*****m 的大作中提到】
: 所以你之前讨论microarry表达量测的不准啊样品用得多啊都应该打回去重写 呵呵 没
: 听说谁是用表达量(cDNA array)来做GWAS的,做GWAS无非就是几个办法,SNP array,
: 用得最多;genome tiling array,估计有些不差钱的人用。然后就是whole genome
: sequnrcing,这个有了NGS估计会有很多人做。
: 不管哪个都和cDNA array没关系。。而且不管哪个也都解决不了GWAS本身不准的问题

s******y
发帖数: 28562
48
因为有一个人在讨论的时候说NGS 会取代GWAS,
然后我纠正他的观点的时候又进行了一些思维跳跃。结果就变成了讨论到底什么
才是GWAS的问题了。呵呵

【在 p*****m 的大作中提到】
: 这个定义很清楚吧。。你引得这个文章本身和GWAS一点关系都没有 其实我也不知道话
: 题怎么转到GWAS来了。。我好像就是随口说了个GWAS的统计问题 结果。。

n********k
发帖数: 2818
49
en, I feel I am normal now:)))

【在 s******y 的大作中提到】
: 因为有一个人在讨论的时候说NGS 会取代GWAS,
: 然后我纠正他的观点的时候又进行了一些思维跳跃。结果就变成了讨论到底什么
: 才是GWAS的问题了。呵呵

n********k
发帖数: 2818
50
Single cell NGS for genome is a mess too...still long way to go...it seems
Quake just reported end of last year...unless you have some insider
information on this, what I have heard it is a mess---God knows after all
those amlification step etc...

【在 p*****m 的大作中提到】
: 所以你之前讨论microarry表达量测的不准啊样品用得多啊都应该打回去重写 呵呵 没
: 听说谁是用表达量(cDNA array)来做GWAS的,做GWAS无非就是几个办法,SNP array,
: 用得最多;genome tiling array,估计有些不差钱的人用。然后就是whole genome
: sequnrcing,这个有了NGS估计会有很多人做。
: 不管哪个都和cDNA array没关系。。而且不管哪个也都解决不了GWAS本身不准的问题

相关主题
打听 一下 illumina, life tech 工资基因检测靠谱吗
GSEA questions吵起来了,关于GWAS
prognostic data也来说说GWAS
进入Biology版参与讨论
s******y
发帖数: 28562
51
这个你说的对

【在 s*******r 的大作中提到】
: 此文对GWAS/NGS (DNA) 没有什么影响。Microarray/RNA-seq 关心的基因表达本来就混
: 乱成网,搞不清楚原因结果。

F*Q
发帖数: 3259
52
那篇文章最重要的是点出了目前做文章的普遍问题。当前社会基本只有做文章而没有真
正做Science的,不幸中的万幸是有少数文章做得碰巧和science一致。

【在 s******y 的大作中提到】
: David Venet from the Université Libre de Bruxelles 用胡乱挑选的基因组合
: 和已经发表的所谓的癌基因的marker 用在未知的病人的数据上,发现胡乱挑选
: 的基因的准确率比那些所谓的marker 还要好。
: 文章结尾直接点了几个杂志的名:Cell, Nature Genetics, PNAS, 认为这些杂志
: 过分鼓吹所谓的 gene marker 的意义。从文章里面的行文来看,估计这些也是
: 把这个文章据掉的杂志 (lol)
: 文章最后发表在
: PLoS Comput Biol. 2011 Oct;7(10):e1002240. Epub 2011 Oct 20.
: http://blog.f1000.com/2012/01/10/random-gene-sets-can-predict-b
: Random gene sets can predict breast cancer survival better than cancer-

t*d
发帖数: 1290
53
It is weird.

【在 s******y 的大作中提到】
: David Venet from the Université Libre de Bruxelles 用胡乱挑选的基因组合
: 和已经发表的所谓的癌基因的marker 用在未知的病人的数据上,发现胡乱挑选
: 的基因的准确率比那些所谓的marker 还要好。
: 文章结尾直接点了几个杂志的名:Cell, Nature Genetics, PNAS, 认为这些杂志
: 过分鼓吹所谓的 gene marker 的意义。从文章里面的行文来看,估计这些也是
: 把这个文章据掉的杂志 (lol)
: 文章最后发表在
: PLoS Comput Biol. 2011 Oct;7(10):e1002240. Epub 2011 Oct 20.
: http://blog.f1000.com/2012/01/10/random-gene-sets-can-predict-b
: Random gene sets can predict breast cancer survival better than cancer-

i*****g
发帖数: 11893
54
本来就是么,这些都是自娱自乐的东东
版上好多wsn,都来米帝国这么多年了,早就应该看破一些学界的把戏了
但心里嘲笑这些,写东西还是一板一眼的按8股文风写啊
A*****n
发帖数: 243
55
不觉得这篇文章有那么轰动的意义。看了一下他们的方法,他们并不是用单个基因的信
息,而是100个基因做了PCA之后的PC1,很大程度上已经抹去了很多随机的因素,如果
有时间的话可以算一下100个基因的PC1和全基因组的PC1,说不定相关程度更大,这样
100个基因已经包含了很多的信息,具有一定的分类效果也就不奇怪了。其次本来
biomarker就不一定和机制有什么密不可分的联系,有些就是用来对病人进行分型,或
者预测治疗预后的,也早已经有很多报道表明不同的基因组合可以实现相同的分类性能
。但是如果都能实现较好的分类效果,并且基因数目相对较好的话,就已经可以达到
biomarker的目的啦。本来biomarker就是从实用性出发,而不应该包含太多因果的概念
在里面。就像癌症数据,找了那么mutation,而要找出driver mutation还是很不容易
,但并不代表找到的mutation没有意义了。

【在 s******y 的大作中提到】
: David Venet from the Université Libre de Bruxelles 用胡乱挑选的基因组合
: 和已经发表的所谓的癌基因的marker 用在未知的病人的数据上,发现胡乱挑选
: 的基因的准确率比那些所谓的marker 还要好。
: 文章结尾直接点了几个杂志的名:Cell, Nature Genetics, PNAS, 认为这些杂志
: 过分鼓吹所谓的 gene marker 的意义。从文章里面的行文来看,估计这些也是
: 把这个文章据掉的杂志 (lol)
: 文章最后发表在
: PLoS Comput Biol. 2011 Oct;7(10):e1002240. Epub 2011 Oct 20.
: http://blog.f1000.com/2012/01/10/random-gene-sets-can-predict-b
: Random gene sets can predict breast cancer survival better than cancer-

s******y
发帖数: 28562
56
可是如果随便选出来的基因能够比那些发表的基因更准确的话,那么人们干吗
还要做研究?
所以这里肯定有几个问题,要么就是那个方法本身就是有重大缺陷,
要么就是那些发表出来的基因都是错的。

【在 A*****n 的大作中提到】
: 不觉得这篇文章有那么轰动的意义。看了一下他们的方法,他们并不是用单个基因的信
: 息,而是100个基因做了PCA之后的PC1,很大程度上已经抹去了很多随机的因素,如果
: 有时间的话可以算一下100个基因的PC1和全基因组的PC1,说不定相关程度更大,这样
: 100个基因已经包含了很多的信息,具有一定的分类效果也就不奇怪了。其次本来
: biomarker就不一定和机制有什么密不可分的联系,有些就是用来对病人进行分型,或
: 者预测治疗预后的,也早已经有很多报道表明不同的基因组合可以实现相同的分类性能
: 。但是如果都能实现较好的分类效果,并且基因数目相对较好的话,就已经可以达到
: biomarker的目的啦。本来biomarker就是从实用性出发,而不应该包含太多因果的概念
: 在里面。就像癌症数据,找了那么mutation,而要找出driver mutation还是很不容易
: ,但并不代表找到的mutation没有意义了。

n********k
发帖数: 2818
57
I don't think you got it yet:)))...I was a bit confused, feeling something
not right but now after reading his post, I think I finally got it...Frankly
now I feel this paper could have deserved NCS but definitely not in the way
/angle they are going or you are suggesting...It would be exciting and I am
not gonna say anything in case it is wrong but wait to see any follow up:)))

【在 s******y 的大作中提到】
: 可是如果随便选出来的基因能够比那些发表的基因更准确的话,那么人们干吗
: 还要做研究?
: 所以这里肯定有几个问题,要么就是那个方法本身就是有重大缺陷,
: 要么就是那些发表出来的基因都是错的。

s******s
发帖数: 13035
58
这样的话,真没啥特别的。做统计的都知道,对一大堆毫无关联
的dummy variable做regression, 只要自变量够多,总是能match很好。如果
真的用了100个基因做出来的PC1,别说cancer marker了,几乎啥都
能解释

【在 A*****n 的大作中提到】
: 不觉得这篇文章有那么轰动的意义。看了一下他们的方法,他们并不是用单个基因的信
: 息,而是100个基因做了PCA之后的PC1,很大程度上已经抹去了很多随机的因素,如果
: 有时间的话可以算一下100个基因的PC1和全基因组的PC1,说不定相关程度更大,这样
: 100个基因已经包含了很多的信息,具有一定的分类效果也就不奇怪了。其次本来
: biomarker就不一定和机制有什么密不可分的联系,有些就是用来对病人进行分型,或
: 者预测治疗预后的,也早已经有很多报道表明不同的基因组合可以实现相同的分类性能
: 。但是如果都能实现较好的分类效果,并且基因数目相对较好的话,就已经可以达到
: biomarker的目的啦。本来biomarker就是从实用性出发,而不应该包含太多因果的概念
: 在里面。就像癌症数据,找了那么mutation,而要找出driver mutation还是很不容易
: ,但并不代表找到的mutation没有意义了。

a*******n
发帖数: 156
59

我没具体看过这些算法, 但是我想这些算法提到的P value, 应该跟sudent test这些方
法的P value意义应该是不一样的吧

【在 p*****m 的大作中提到】
: 这样的P value本质上就是用错统计方法的结果
a*******n
发帖数: 156
60

能不能推荐一本教材?

【在 s******s 的大作中提到】
: 其实,我觉得做生物的都至少要去上一门stat 101.
: 一个是大家天天搞的sd, error bar的问题
: 另一个是搞清楚association和causality的关系
: 最后,好好理解一下multitest correction

相关主题
和MD老板谈话,被郁闷了解释一下——今后一二十年的推演
what is the connection between linkage disequlibrium and GWAS?有谁谈谈从零开始学NGS数据分析都需要具备什么知识?
如果genotyping结果发现一个SNP不符合HWE说明啥?关于职业方向选择
进入Biology版参与讨论
s******s
发帖数: 13035
61
我没看原文。如果别人只是几个或者十几个marker, 他搞一个100基因marker,
那是没啥可比的。就算都是100个基因的marker, 这么多dummy variable几乎
可以解释到极限了,其他的“未必”能有很大的提高。

【在 s******y 的大作中提到】
: 可是如果随便选出来的基因能够比那些发表的基因更准确的话,那么人们干吗
: 还要做研究?
: 所以这里肯定有几个问题,要么就是那个方法本身就是有重大缺陷,
: 要么就是那些发表出来的基因都是错的。

s******s
发帖数: 13035
62
意义都是一样。问题是统计学做这些test都有很多假设要求先满足,
生物上拿来主义很多不符合条件就用,比如很多要求independence的
大家都无所谓,所以p value做出来可能不对

【在 a*******n 的大作中提到】
:
: 能不能推荐一本教材?

A*****n
发帖数: 243
63
首先他们做完PCA之后就不再是完全的随机了,就像上面说的microarray数据一来,直
接做个PCA,实际上就能做到很好的效果了。之所以作biomarker的研究就是希望能够用
尽量少的基因数实现同样的目的。想象一下有个完美的基因,同时还有100个基因的表
达模式和其高度相关,不同的方法会选出这100个里面中间的一个。这个时候,方法没
有什么重大缺陷,基因也没有错,每个也都能作为一个很好的biomarker。错的其实就
是有些人在希望这个基因有很好分类性能的同时,还希望证明这个特定的基因和机制有
关系,这就相当于对biomarker寄予了太高的要求。

【在 s******y 的大作中提到】
: 可是如果随便选出来的基因能够比那些发表的基因更准确的话,那么人们干吗
: 还要做研究?
: 所以这里肯定有几个问题,要么就是那个方法本身就是有重大缺陷,
: 要么就是那些发表出来的基因都是错的。

z*t
发帖数: 863
64
GWAS一般用bonfferoni test

【在 a*******n 的大作中提到】
:
: 能不能推荐一本教材?

s******s
发帖数: 13035
65
没啥教材,也就一两句话的事情
比如统计基本上只能做出association,要做causality要design实验或者trial一类的
multitest的意思是,统计里面95%的意思就算两个population一模一样,你随机
抽二十组sample,估计就会有一组是statistically different的,所以这个算出来
的p<0.05很可能有问题

【在 a*******n 的大作中提到】
:
: 能不能推荐一本教材?

s******y
发帖数: 28562
66
从文章的摘要里面看,当他们把那些随便挑出来的marker 和已知的
markers set 相比的时候,是用同样多的size 来比较的:
Twenty-eight of them (60%) were not significantly better outcome predictors
than random signatures of identical size and 11 (23%) were worst predictors
than the median random signature
不过我也只看了摘要,没有看全文(因为看不懂。。。)

【在 s******s 的大作中提到】
: 我没看原文。如果别人只是几个或者十几个marker, 他搞一个100基因marker,
: 那是没啥可比的。就算都是100个基因的marker, 这么多dummy variable几乎
: 可以解释到极限了,其他的“未必”能有很大的提高。

s*******2
发帖数: 499
67
现行的GWAS在方法学方面有严重缺陷,我正在投一篇paper更正一个问题。

【在 i*e 的大作中提到】
: GWAS的结果本来就不应该作为推测机理
: 它理论依据本来就是基于几个假说
: 就算E-8的显著性阈值都还是假阳性很多
:
: a
: discovered

s******s
发帖数: 13035
68
就像我前面说的“就算都是100个基因的marker, 这么多dummy variable几乎
可以解释到极限了,其他的“未必”能有很大的提高。”
举个例子,苹果股票的价格可能40%是predictable的,另外60%是random的。
你可以用iphone的销量,android的升级,苹果研发费用等10个参数预测,可能
能预测30%。这时周星驰跳出来,用苹果员工领带颜色,裙子长短,非洲人肤色,
太平洋大马哈鱼数量,人马座亮度变化等来预测,只要用的参数够多,比如100
个,就很可能得到更好的结果,比如35%。这个预测已经离40%够近了,就算股票
专家把参数也扩展到100个,也未必能好多少。

predictors
predictors

【在 s******y 的大作中提到】
: 从文章的摘要里面看,当他们把那些随便挑出来的marker 和已知的
: markers set 相比的时候,是用同样多的size 来比较的:
: Twenty-eight of them (60%) were not significantly better outcome predictors
: than random signatures of identical size and 11 (23%) were worst predictors
: than the median random signature
: 不过我也只看了摘要,没有看全文(因为看不懂。。。)

s******y
发帖数: 28562
69
那。。。你的意思是说。。。这个本来就是一个不可能测得很准的问题?或者
你的意思是说只要参数数量足够多,最后都能把一些不是紧密相关的参数和
结果联系起来?

【在 s******s 的大作中提到】
: 就像我前面说的“就算都是100个基因的marker, 这么多dummy variable几乎
: 可以解释到极限了,其他的“未必”能有很大的提高。”
: 举个例子,苹果股票的价格可能40%是predictable的,另外60%是random的。
: 你可以用iphone的销量,android的升级,苹果研发费用等10个参数预测,可能
: 能预测30%。这时周星驰跳出来,用苹果员工领带颜色,裙子长短,非洲人肤色,
: 太平洋大马哈鱼数量,人马座亮度变化等来预测,只要用的参数够多,比如100
: 个,就很可能得到更好的结果,比如35%。这个预测已经离40%够近了,就算股票
: 专家把参数也扩展到100个,也未必能好多少。
:
: predictors

i*e
发帖数: 352
70
没错
作者对prognostic biomarker“混淆”或者“不懂”或者“过多寄予厚望”
同理,很多人对GWAS的association和causality也是如此
只是现在都是先下手为强,有个hit就硬往functional靠

【在 A*****n 的大作中提到】
: 首先他们做完PCA之后就不再是完全的随机了,就像上面说的microarray数据一来,直
: 接做个PCA,实际上就能做到很好的效果了。之所以作biomarker的研究就是希望能够用
: 尽量少的基因数实现同样的目的。想象一下有个完美的基因,同时还有100个基因的表
: 达模式和其高度相关,不同的方法会选出这100个里面中间的一个。这个时候,方法没
: 有什么重大缺陷,基因也没有错,每个也都能作为一个很好的biomarker。错的其实就
: 是有些人在希望这个基因有很好分类性能的同时,还希望证明这个特定的基因和机制有
: 关系,这就相当于对biomarker寄予了太高的要求。

相关主题
关于职业方向选择求教生物信息学问题
可以发一个招人信息吗?machine learning来对GWAS结果建模
Ask a simple question...怎样检测一个基因的变异与疾病的关系
进入Biology版参与讨论
t*******o
发帖数: 424
71
你说的这个似乎只能解释对现有结果的regression之类的吧,对未来的预测应该不会那
么准吧。就比如说machine learning里面,只要model的复杂度高一些,用100个随机变
量大概总能解释50个样本的结果,但是对于独立的另外一批50个样本的结果基本就是错
误率超高了。感觉就是个overfitting的问题。。。

【在 s******s 的大作中提到】
: 就像我前面说的“就算都是100个基因的marker, 这么多dummy variable几乎
: 可以解释到极限了,其他的“未必”能有很大的提高。”
: 举个例子,苹果股票的价格可能40%是predictable的,另外60%是random的。
: 你可以用iphone的销量,android的升级,苹果研发费用等10个参数预测,可能
: 能预测30%。这时周星驰跳出来,用苹果员工领带颜色,裙子长短,非洲人肤色,
: 太平洋大马哈鱼数量,人马座亮度变化等来预测,只要用的参数够多,比如100
: 个,就很可能得到更好的结果,比如35%。这个预测已经离40%够近了,就算股票
: 专家把参数也扩展到100个,也未必能好多少。
:
: predictors

t*******o
发帖数: 424
72
对已经有的数据来说确实如此,但是对独立的另外一批样本应该就不行了,也就是说基
本没啥预测价值。

【在 s******y 的大作中提到】
: 那。。。你的意思是说。。。这个本来就是一个不可能测得很准的问题?或者
: 你的意思是说只要参数数量足够多,最后都能把一些不是紧密相关的参数和
: 结果联系起来?

i*e
发帖数: 352
73
这也就是1E-7阈值所在,那时候500M的SNP set
不过最近听一个报告,目前5M的SNP set
也被模拟论证不用再提高阈值了
其实最重要的是能否被replicate出来,p值倒是其次的

【在 z*t 的大作中提到】
: GWAS一般用bonfferoni test
k****o
发帖数: 589
74

统计学上有没有什么procedure是说明因果关系的?我不是学统计的,请教下。

【在 s******s 的大作中提到】
: 没啥教材,也就一两句话的事情
: 比如统计基本上只能做出association,要做causality要design实验或者trial一类的
: multitest的意思是,统计里面95%的意思就算两个population一模一样,你随机
: 抽二十组sample,估计就会有一组是statistically different的,所以这个算出来
: 的p<0.05很可能有问题

k****o
发帖数: 589
75
不知道把这篇文章的方法用到临床诊断会有什么后果..
i*e
发帖数: 352
76
也有可能很大程度heterogeneity的问题

【在 t*******o 的大作中提到】
: 你说的这个似乎只能解释对现有结果的regression之类的吧,对未来的预测应该不会那
: 么准吧。就比如说machine learning里面,只要model的复杂度高一些,用100个随机变
: 量大概总能解释50个样本的结果,但是对于独立的另外一批50个样本的结果基本就是错
: 误率超高了。感觉就是个overfitting的问题。。。

s*******2
发帖数: 499
77
SNP数目的多少和p value没有直接关系。
p value和sample size有关。

【在 i*e 的大作中提到】
: 这也就是1E-7阈值所在,那时候500M的SNP set
: 不过最近听一个报告,目前5M的SNP set
: 也被模拟论证不用再提高阈值了
: 其实最重要的是能否被replicate出来,p值倒是其次的

i*e
发帖数: 352
78
我说的是p value multiple testing 的cutoff, alpha值

【在 s*******2 的大作中提到】
: SNP数目的多少和p value没有直接关系。
: p value和sample size有关。

i*e
发帖数: 352
79
biomark追求少比多好
J Natl Cancer Inst. 2012 Jan 18. [Epub ahead of print]
A Three-Gene Model to Robustly Identify Breast Cancer Molecular Subtypes.
Haibe-Kains B, Desmedt C, Loi S, Culhane AC, Bontempi G, Quackenbush J,
Sotiriou C.
PMID: 22262870

【在 A*****n 的大作中提到】
: 首先他们做完PCA之后就不再是完全的随机了,就像上面说的microarray数据一来,直
: 接做个PCA,实际上就能做到很好的效果了。之所以作biomarker的研究就是希望能够用
: 尽量少的基因数实现同样的目的。想象一下有个完美的基因,同时还有100个基因的表
: 达模式和其高度相关,不同的方法会选出这100个里面中间的一个。这个时候,方法没
: 有什么重大缺陷,基因也没有错,每个也都能作为一个很好的biomarker。错的其实就
: 是有些人在希望这个基因有很好分类性能的同时,还希望证明这个特定的基因和机制有
: 关系,这就相当于对biomarker寄予了太高的要求。

b*******n
发帖数: 8420
80
问题是不少clinical的文章就是这一批病人的数据,做出个模型就OK,如果下一批数据
明显不符合的话,这帮MD还可以bullshit一下说是其他原因。。

【在 t*******o 的大作中提到】
: 对已经有的数据来说确实如此,但是对独立的另外一批样本应该就不行了,也就是说基
: 本没啥预测价值。

相关主题
求科普Next Generation SequenceGSEA questions
简单介绍 Bioinformatics Tools for NGS 分析prognostic data
打听 一下 illumina, life tech 工资基因检测靠谱吗
进入Biology版参与讨论
s******s
发帖数: 13035
81
这是个哲学问题 应该没有

【在 k****o 的大作中提到】
: 不知道把这篇文章的方法用到临床诊断会有什么后果..
s******s
发帖数: 13035
82
数量够多就行
想象一下三维空间里面三个向量 不管某个坐标方向的分量多小
只要他们不线性相关 总能线性组合出三个正交坐标轴 也就是完美预测任何一个三维向量

【在 s******y 的大作中提到】
: 那。。。你的意思是说。。。这个本来就是一个不可能测得很准的问题?或者
: 你的意思是说只要参数数量足够多,最后都能把一些不是紧密相关的参数和
: 结果联系起来?

s******s
发帖数: 13035
83
是呀 所以独立sample的validation最重要啦

【在 t*******o 的大作中提到】
: 你说的这个似乎只能解释对现有结果的regression之类的吧,对未来的预测应该不会那
: 么准吧。就比如说machine learning里面,只要model的复杂度高一些,用100个随机变
: 量大概总能解释50个样本的结果,但是对于独立的另外一批50个样本的结果基本就是错
: 误率超高了。感觉就是个overfitting的问题。。。

f**u
发帖数: 346
84
对于cancer来说,我感觉理论上的predictability应该很高,而randomness很小吧。
所以理论上应该可以从genotype来预测prognosis,具体怎么预测那是另一回事。
如果机理完全明确了,那自然就很容易预测了,
在机理不明的情况下,就算用100个基因,如果预测准确率能很高,也挺好。
关键词是预测,不是解释。
这类模型通常是用一个有限样本来建立的,自然能很好地解释这个样本。
如果不能比较准确的预测下一个样本,那就是白费。

【在 s******s 的大作中提到】
: 就像我前面说的“就算都是100个基因的marker, 这么多dummy variable几乎
: 可以解释到极限了,其他的“未必”能有很大的提高。”
: 举个例子,苹果股票的价格可能40%是predictable的,另外60%是random的。
: 你可以用iphone的销量,android的升级,苹果研发费用等10个参数预测,可能
: 能预测30%。这时周星驰跳出来,用苹果员工领带颜色,裙子长短,非洲人肤色,
: 太平洋大马哈鱼数量,人马座亮度变化等来预测,只要用的参数够多,比如100
: 个,就很可能得到更好的结果,比如35%。这个预测已经离40%够近了,就算股票
: 专家把参数也扩展到100个,也未必能好多少。
:
: predictors

i*e
发帖数: 352
85
预测还是不容易啊
low-hanging fruits 像BRCA1/2这种的
现有的模型都还不能很好的predict risk
基因表达这种比DNA sequences更variable,更难QC的预测模型就更难了

【在 f**u 的大作中提到】
: 对于cancer来说,我感觉理论上的predictability应该很高,而randomness很小吧。
: 所以理论上应该可以从genotype来预测prognosis,具体怎么预测那是另一回事。
: 如果机理完全明确了,那自然就很容易预测了,
: 在机理不明的情况下,就算用100个基因,如果预测准确率能很高,也挺好。
: 关键词是预测,不是解释。
: 这类模型通常是用一个有限样本来建立的,自然能很好地解释这个样本。
: 如果不能比较准确的预测下一个样本,那就是白费。

f**********e
发帖数: 1994
86
Bayesian network

【在 s******s 的大作中提到】
: 这是个哲学问题 应该没有
f**********e
发帖数: 1994
87
他们有没有做 cross validation? 如果是你说的 overfitting
问题的话 10fold cross Val 还是 bootstrapping 应该能抓出来

【在 s******s 的大作中提到】
: 我没看原文。如果别人只是几个或者十几个marker, 他搞一个100基因marker,
: 那是没啥可比的。就算都是100个基因的marker, 这么多dummy variable几乎
: 可以解释到极限了,其他的“未必”能有很大的提高。

l**********1
发帖数: 5204
88
Oui
please refer Network-based genome-wide association studies (NWAS)
for identifying prognostic gene signatures to predict cancer recurrence.
report on
//www.cse.buffalo.edu/ACM-BCB2010/
by
Ying-Wooi Wan, Swetha Bose, James Denvir, and Nancy Lan Guo
Title:
A Novel Network Model for Molecular Prognosis
Abstracts:
Network-based genome-wide association studies (NWAS) utilize the molecular interactions between genes
and functional pathways in biomarker identification. This study presents a novel network-based
methodology for identifying prognostic gene signatures to predict cancer recurrence.
full text:
//www.hsc.wvu.edu/mbrcc/fs/GuoLab/pdfs/ACMBCB2010_our%20paper.pdf
also please go to
2012 one relative paper:
//www.ncbi.nlm.nih.gov/pubmed/22161328

【在 f**********e 的大作中提到】
: Bayesian network
s******l
发帖数: 125
89
This paper is nothing new except complaining, I rememberer to read a paper (
2010), they already reported that randomly genes have predictive power, but
often not roust. Then they focused on cancer hallmark genes (mechanism-based
?) and get very good results which are better than all others.
yes, I find it:
Nat Commun. 2010 Jul 13;1:34. doi: 10.1038/ncomms1033.
Identification of high-quality cancer prognostic markers and metastasis
network modules.
l**********1
发帖数: 5204
90
RE LS
LZ is not SysBio filed and not family with this field
so just take this Top O floor past as watching broadly just.
Ps:
plus one paper:
Development of a Bayesian Classifier for Breast Cancer Risk Stratification:
A Feasibility Study
Results: Independent predictors of biopsy outcome in the BBN model included personal breast disease
history, breast size, EIS (low vs high risk) and imaging results, and Gail cutoff (5-year risk: <1.66% vs
≥1.66%). Area under the receiver operating characteristic curve and positive predictive value for benign and
malignant biopsy outcomes were 0.88 and 97% and 0.97 and 42%,
//www.decisionq.com/pdfs/decq_clinicaldecisionsupport_casestudy02.pdf

(
but
based

【在 s******l 的大作中提到】
: This paper is nothing new except complaining, I rememberer to read a paper (
: 2010), they already reported that randomly genes have predictive power, but
: often not roust. Then they focused on cancer hallmark genes (mechanism-based
: ?) and get very good results which are better than all others.
: yes, I find it:
: Nat Commun. 2010 Jul 13;1:34. doi: 10.1038/ncomms1033.
: Identification of high-quality cancer prognostic markers and metastasis
: network modules.

相关主题
吵起来了,关于GWASwhat is the connection between linkage disequlibrium and GWAS?
也来说说GWAS如果genotyping结果发现一个SNP不符合HWE说明啥?
和MD老板谈话,被郁闷了解释一下——今后一二十年的推演
进入Biology版参与讨论
s*******2
发帖数: 499
91
我知道。但是有缺陷。

【在 i*e 的大作中提到】
: 我说的是p value multiple testing 的cutoff, alpha值
w*****n
发帖数: 375
92
Google Causal Inference

【在 s******s 的大作中提到】
: 这是个哲学问题 应该没有
z******n
发帖数: 397
93
看了半天没看明白,他到底用的啥统计方法???谁看明白的说一下??
n***a
发帖数: 78
94
我觉得他这个文章指出的是统计学在生物里的的应用的问题。
我觉得他得出这个结论的前提条件就是对biomarker定义的一个误导。
至少我是这样认为的
biomarker首先是要有bio然后才有marker。
biomarker的重要一点就是它要在bio上说的过去。而且biomarker目前也不是用于诊断
,它只是给你一个大方向,让你可以试着有的放矢,尽可能的避免资源浪费,尽可能的
使病人得到最有效的治疗。
单就统计方法来说,biomarker的产生其实就是比较两组数据之间的最大差别。任和已
知方法的目的就是通过各种分类,简化来找出最大区别。说白了就是通过数据优化来达
到分类效果。所以任选任何100个基因可以outperform现有signature的现象一点都不奇
怪。有太多未知的因素可以使跟癌症可能完全不相关的基因产生更明显的差别。如果这
个差别大于你biomarker的差别,你当然会得出好的signature。我觉得这也是为什么好
多更为复杂,先进的数学方法没有应用到生物学的原因。因为没有必要,我们根本不知
道什么方法可以用来准确对生物数据进行简化。如果简单易懂,适合短时间,大批量操
作的方法,没有必要用复杂,局限性更大的方法。因为biomarker的产生重要的不是在
统计这一环。重要的是在如何选取数据,如何分类数据,从而更大程度的保证统计方法
中简化的数据真的是重复的数据。我不是学统计的。所以错误之处请谅解。
所以,一个好的biomarker着重的是生物学上的意义,而不是统计学上的score。 你有
再好的score不能从生物学上解释也不能算biomarker。所以通畅来说,发表一个
biomarker其实不是说我这些基因score有多好,而是说用这些基因来区别这种癌症在生
物学上说得通。这些基因的不同是在现有知识基础上有生物学意义的。比如说特定的
pathway被激活,特定的受体被抑制之类。其实一个biomarker重要的是它背后的这个生
物故事。我觉得。
当然,也存在很多paper为了说故事而说故事。这是在现存条件下不能避免的。所谓的
garbage in garbage out。但这不代表所有的biomarker都不可以相信。
我个人觉得这个paper不被顶级杂志接受是有道理的。不能说作者不懂生物,但我个人
觉得作者有哗众取宠之闲。因为所有我认识的搞biomarker的人都承认你可以fit任何一
组数据来达到更好的结果。但你这个结果是否通得过实验和临床得验证就不一定了。像
paper里说的任选的100个基因,有人会相信这些基因可以推出未知的癌症调控机理吗?
r****t
发帖数: 10904
95
granger causality

【在 k****o 的大作中提到】
: 不知道把这篇文章的方法用到临床诊断会有什么后果..
s******s
发帖数: 13035
96
看不懂。解释一下吧。看上去像是统计里面用了causality,而不是
用统计推导causality

【在 w*****n 的大作中提到】
: Google Causal Inference
X******2
发帖数: 5859
97
你这个说法老夫非常赞同。
老夫觉得作者的论证有问题,100个随机挑选的marker
得到的结果优于少数“精心”挑选出来的marker
并不能说明那少数marker没有价值。
老夫曾经由于其它问题研究过在混合高斯模型下,
从高维数据中随机抽取部分特征后的“表达力”问题。
发现这随机抽取的特征只需要满足很弱的协相关
性的假设,那么这些特征的表达能力跟用全部特
征差别不大。具体取决于全部特征本身的表达能
力,以及抽取的特征数量占全部特征数量的比例。
由于这样随机抽取100 个marker以后,其表达能
力跟用全部基因的表达能力差别不大,所以这100
个marker的表达能力就很强了。因此它们会跟“精心”
挑出来的少数基因结果差不多甚至更优越。
当然话说回来,目前的很多相关研究都是有问题
的。自欺欺人地在用统计却不管任何条件和假设,
反正投稿或是写proposal都没有问题,因为关系
的作用太大了,而且裁判很多都是没有严格科学
训练而又自以为是的MD。

【在 s******s 的大作中提到】
: 我没看原文。如果别人只是几个或者十几个marker, 他搞一个100基因marker,
: 那是没啥可比的。就算都是100个基因的marker, 这么多dummy variable几乎
: 可以解释到极限了,其他的“未必”能有很大的提高。

f**********e
发帖数: 1994
98
Causal inference 是个纲领,实际的技术(之一)
就是 Bayesian network. BN 的 structure learning
是很成熟的技术,虽然也有 over fitting 的问题。

【在 s******s 的大作中提到】
: 看不懂。解释一下吧。看上去像是统计里面用了causality,而不是
: 用统计推导causality

l*********s
发帖数: 5409
99
good to know.Intuitively, how and why BN works?

【在 f**********e 的大作中提到】
: Causal inference 是个纲领,实际的技术(之一)
: 就是 Bayesian network. BN 的 structure learning
: 是很成熟的技术,虽然也有 over fitting 的问题。

V***b
发帖数: 3419
100
“其他的组织”也会有这个somatic mutation的。就算没有,这个mutation也不见得是
病因,各个组织的微环境/细胞群很不同。在这个问题上,没有perfect control。

【在 s******y 的大作中提到】
: 可以和自己身上其他组织相比啊。
: 有这么做的。而且已经有人开始这么建数据库了。

相关主题
有谁谈谈从零开始学NGS数据分析都需要具备什么知识?Ask a simple question...
关于职业方向选择求教生物信息学问题
可以发一个招人信息吗?machine learning来对GWAS结果建模
进入Biology版参与讨论
V***b
发帖数: 3419
101
transcriptome和proteome的相关性非常差。DNA sequencing几乎100%准确。但是
transcriptome可以提供些epigenetics的信息,DNA却不能。

【在 s******y 的大作中提到】
: transcriptome 的准确度远远比不上白纸黑字的DNA sequence mutation data 吧。
: 而且transcriptome 的可变性太高了,得出来的数据大部分都是垃圾。
: 别的不说,单是这个single cell microarray 的样品源就大有问题,
: 谁知道进去的那个细胞真的就是癌细胞?弄不好是样品里面污染的其他组织细胞
: 或者血细胞什么的,马上就和对照的transcriptome 不一样了。
: 但是单细胞的DNA sequencing 就不一样了,不管什么组织,在没有病变的
: 前提下,绝大部分的DNA sequence 应该都是相同的吧。

V***b
发帖数: 3419
102
这篇文章发PLOS恰如其分。很水。这篇文章挑出来的那些著名的marker其实80%都是
driver;那些所谓随机挑的一些基因80%都是passenger。driver发生变化,乳腺癌了,
然后passenger也跟着变了,然后这几个作者跳出来说:你们看,这两堆基因没什么差
异嘛,都变了。
问题是:driver是有效的药物靶位点,passenger不是。

【在 s******y 的大作中提到】
: 可是如果随便选出来的基因能够比那些发表的基因更准确的话,那么人们干吗
: 还要做研究?
: 所以这里肯定有几个问题,要么就是那个方法本身就是有重大缺陷,
: 要么就是那些发表出来的基因都是错的。

V***b
发帖数: 3419
103
同意这句话。

【在 i*e 的大作中提到】
: 预测还是不容易啊
: low-hanging fruits 像BRCA1/2这种的
: 现有的模型都还不能很好的predict risk
: 基因表达这种比DNA sequences更variable,更难QC的预测模型就更难了

V***b
发帖数: 3419
104
同意。

【在 n***a 的大作中提到】
: 我觉得他这个文章指出的是统计学在生物里的的应用的问题。
: 我觉得他得出这个结论的前提条件就是对biomarker定义的一个误导。
: 至少我是这样认为的
: biomarker首先是要有bio然后才有marker。
: biomarker的重要一点就是它要在bio上说的过去。而且biomarker目前也不是用于诊断
: ,它只是给你一个大方向,让你可以试着有的放矢,尽可能的避免资源浪费,尽可能的
: 使病人得到最有效的治疗。
: 单就统计方法来说,biomarker的产生其实就是比较两组数据之间的最大差别。任和已
: 知方法的目的就是通过各种分类,简化来找出最大区别。说白了就是通过数据优化来达
: 到分类效果。所以任选任何100个基因可以outperform现有signature的现象一点都不奇

f**********e
发帖数: 1994
105
BN 把一个高维联合分布用 acyclic directed graph (DAG) 写成
许多的条件分布。所有的随机变量都是用有向的边连接的,这自然隐含
了因果关系。如果你能准确地知道所有随机变量的联合分布,你自然
可以对这系统进行任何推论。

【在 l*********s 的大作中提到】
: good to know.Intuitively, how and why BN works?
D*a
发帖数: 6830
106
同意这个看法,我觉得他就是给大家提醒下不要瞎胡闹,我觉得他潜在意思应该是,
就算不是任选的100个基因,你们各位发表的据说有生物学效用的基因,又有多少人(
包括你们自己)会相信这些基因可以推出未知的癌症调控机理?

【在 n***a 的大作中提到】
: 我觉得他这个文章指出的是统计学在生物里的的应用的问题。
: 我觉得他得出这个结论的前提条件就是对biomarker定义的一个误导。
: 至少我是这样认为的
: biomarker首先是要有bio然后才有marker。
: biomarker的重要一点就是它要在bio上说的过去。而且biomarker目前也不是用于诊断
: ,它只是给你一个大方向,让你可以试着有的放矢,尽可能的避免资源浪费,尽可能的
: 使病人得到最有效的治疗。
: 单就统计方法来说,biomarker的产生其实就是比较两组数据之间的最大差别。任和已
: 知方法的目的就是通过各种分类,简化来找出最大区别。说白了就是通过数据优化来达
: 到分类效果。所以任选任何100个基因可以outperform现有signature的现象一点都不奇

l**********1
发帖数: 5204
107
BN is belong to one
time independently stochastic analysis.
one possible mentor for this field:
//www.math.umn.edu/~othmer/
his refresh new paper:
//www.math.umn.edu/~othmer/papers/final.pdf

【在 f**********e 的大作中提到】
: BN 把一个高维联合分布用 acyclic directed graph (DAG) 写成
: 许多的条件分布。所有的随机变量都是用有向的边连接的,这自然隐含
: 了因果关系。如果你能准确地知道所有随机变量的联合分布,你自然
: 可以对这系统进行任何推论。

l*********s
发帖数: 5409
108
However, knowing conditional probabilities is not the same as know the
causal relationship. a-> b and b-> a are statistically equivalent structures
.I think in the end, the causal relationship can only be established from temporal orders.If you don't have any prior knowledge, no shapshot analysis can help you, including the allmighty BN.

【在 f**********e 的大作中提到】
: BN 把一个高维联合分布用 acyclic directed graph (DAG) 写成
: 许多的条件分布。所有的随机变量都是用有向的边连接的,这自然隐含
: 了因果关系。如果你能准确地知道所有随机变量的联合分布,你自然
: 可以对这系统进行任何推论。

s******s
发帖数: 13035
109
我自己做过structural equation modeling, 也是用有向边连接
的,貌似很容易解释成因果,实际上都不能。不知道这个causality
inference怎么做的,对我来说,无法想想不加其他条件,只靠stat
就能确定因果关系。前面一位也提到了一个causality test, 我wiki
了一下,里面说明其实只是一个hint, 无法证明因果.

【在 f**********e 的大作中提到】
: BN 把一个高维联合分布用 acyclic directed graph (DAG) 写成
: 许多的条件分布。所有的随机变量都是用有向的边连接的,这自然隐含
: 了因果关系。如果你能准确地知道所有随机变量的联合分布,你自然
: 可以对这系统进行任何推论。

f**********e
发帖数: 1994
110
如果没有 prior 的话,A->B 的确和 B->A 是对称的。但你只要对这个体系知道一
点点信息(打破这个对称),因果关系就会在一定程度上确立。
BN 只有在多变量,而且在模型结构有约束时才能用。如果你不加约束的话,你
会发现所有的 complete graph DAG 的 likelihood 都一样好 (overfitting)。 是的,
你得有一些 structural prior。是的,我同意时间资料很重要。BN 还有一个讨厌的
问题:隐变量。如果有一个无法观察的变量 X 在条件独立的情形下影响下面的 10
个变数,看起来就是那 10 个变数彼此纠缠。

structures
temporal orders.If you don't have any prior knowledge, no shapshot analysis
can help you, including the allmighty BN.

【在 l*********s 的大作中提到】
: However, knowing conditional probabilities is not the same as know the
: causal relationship. a-> b and b-> a are statistically equivalent structures
: .I think in the end, the causal relationship can only be established from temporal orders.If you don't have any prior knowledge, no shapshot analysis can help you, including the allmighty BN.

相关主题
machine learning来对GWAS结果建模简单介绍 Bioinformatics Tools for NGS 分析
怎样检测一个基因的变异与疾病的关系打听 一下 illumina, life tech 工资
求科普Next Generation SequenceGSEA questions
进入Biology版参与讨论
f**********e
发帖数: 1994
111
100% 的空手套白狼的确是不可能的。一组 data 可以存在多个 fit
得很好的 BN。很难解释成因果的原因我认为是模型本身的不确定性。

【在 s******s 的大作中提到】
: 我自己做过structural equation modeling, 也是用有向边连接
: 的,貌似很容易解释成因果,实际上都不能。不知道这个causality
: inference怎么做的,对我来说,无法想想不加其他条件,只靠stat
: 就能确定因果关系。前面一位也提到了一个causality test, 我wiki
: 了一下,里面说明其实只是一个hint, 无法证明因果.

o********r
发帖数: 775
112
Then the mutation is called a "germline" mutation, not a "somatic" mutation.
It is impossible to identify driver mutations from bioinformatics alone
using a single patient.

【在 V***b 的大作中提到】
: “其他的组织”也会有这个somatic mutation的。就算没有,这个mutation也不见得是
: 病因,各个组织的微环境/细胞群很不同。在这个问题上,没有perfect control。

V***b
发帖数: 3419
113
我现在不明白大规模测序之后,拿到一堆数据,和什么去比对?怎样定义“正常组织”
?比如说Steve Jobs的测序结果怎样?如果发现EGFR/PI3K/Ras这些常见突变倒好说(
其实即便这样也很难下定论),最怕就是发现很多突变,却无法将5%,甚至更少的
cancerous mutation,以及各种cancerous mutation组合,从95%的harmless mutation
中分离出来。把Jobs的胰腺癌细胞和他身上正常组织的序列比较,或者跟另一个“健康
人”的序列比较,肯定有非常多的不一样。

mutation.

【在 o********r 的大作中提到】
: Then the mutation is called a "germline" mutation, not a "somatic" mutation.
: It is impossible to identify driver mutations from bioinformatics alone
: using a single patient.

o********r
发帖数: 775
114
For diseases not related to blood, blood cells are a good candidate for
germline sample.
How to use the WGS data is a big issue in this NGS era. One common strategy
used in paired tumor/germline analyses is to compare the mutation spectrum
across multiple patients (from the same cohort or at least same disease type
/subtype) to identify recurrent mutations, which provides leads to wet lab.
If you think bioinformatics alone can give you the definite answer for
driver mutations, probably you will be disappointed. Just like a highly
significant GWAS marker is not necessary a good predictor and not a verdict
for the guilty of nearby genes, I consider bioinformatics as a hypothesis
generator, which give you leads to the solution rather than the definitive
conclusion itself.
Some tumor cells can be dramatically different from the matching germline
samples while others bear very few functional somatic mutations.

mutation

【在 V***b 的大作中提到】
: 我现在不明白大规模测序之后,拿到一堆数据,和什么去比对?怎样定义“正常组织”
: ?比如说Steve Jobs的测序结果怎样?如果发现EGFR/PI3K/Ras这些常见突变倒好说(
: 其实即便这样也很难下定论),最怕就是发现很多突变,却无法将5%,甚至更少的
: cancerous mutation,以及各种cancerous mutation组合,从95%的harmless mutation
: 中分离出来。把Jobs的胰腺癌细胞和他身上正常组织的序列比较,或者跟另一个“健康
: 人”的序列比较,肯定有非常多的不一样。
:
: mutation.

s******y
发帖数: 28562
115
David Venet from the Université Libre de Bruxelles 用胡乱挑选的基因组合
和已经发表的所谓的癌基因的marker 用在未知的病人的数据上,发现胡乱挑选
的基因的准确率比那些所谓的marker 还要好。
文章结尾直接点了几个杂志的名:Cell, Nature Genetics, PNAS, 认为这些杂志
过分鼓吹所谓的 gene marker 的意义。从文章里面的行文来看,估计这些也是
把这个文章据掉的杂志 (lol)
文章最后发表在
PLoS Comput Biol. 2011 Oct;7(10):e1002240. Epub 2011 Oct 20.
http://blog.f1000.com/2012/01/10/random-gene-sets-can-predict-b
Random gene sets can predict breast cancer survival better than cancer-
related signatures
And top-tier journals did not want to publish this surprising study.
By Ed Yong
10 January 2012
Email
Print
1 comment
Tumours are bundles of cells that grow and divide uncontrollably, and their
genes are deployed in unusual ways. By analysing the genes from different
tumour samples, scientists have tried to pin down the chaotic events that
lead to cancer. They seem to be making headway. Dozens of papers have
reported “gene expression signatures” that predict the risk of dying or
surviving from cancer, and new ones come out every month.
These signatures purportedly hint at how healthy cells transform into
tumours in the first place. If, for example, the genes in question are
involved in wound healing, this tells you that the healing process is
somehow involved in a tumour’s progression. These collections of genes
reveal deeper truths about the disease they’re associated with.
This idea sounds reasonable, but David Venet from the Université Libre de
Bruxelles has thrown a big spanner into the works. He has shown that
completely random sets of genes can predict the odds of surviving breast
cancer better than published signatures.
Venet found three signatures that are completely unconnected to cancer.
Instead, these collections of genes were associated with laughing at jokes
after lunch, with the experience of social defeat in mice, and with the
positioning of skin cells. All of them were associated with breast cancer
outcomes.
It got worse. Venet collected 47 breast cancer signatures from published
papers and compared them to sets of random genes. The random sets were
equally (or more) strongly associated with breast cancer outcomes than 60%
of the published ones. In fact, you can randomly select a group of 100 genes
or more, and be 90% sure of finding a statistically significant link with
breast cancer. Venet wrote, “Investigators are bound to find an association
however whimsical their marker is.”
Tubular Adenoma of Breast. Image from Flickr, by Ed Uthman
Venet’s study was described as a “must-read” by F1000 member Jinfeng Liu
from Genentech Inc. The results may seem unbelievable, but there is a simple
reason for them. The activities of thousands of genes across a breast
cancer cell’s genome are related to how quickly that cell proliferates (
grows and divides). And that is related to a patient’s prognosis.
As an analogy, you could find hundreds of things that correlate with a
person’s wellbeing and lifespan: the number of Apple products they own,
whether they have university degrees, how many cars they have, and so on.
But this doesn’t mean that these things improve our health; instead, they
reflect how wealthy we are, our lifestyle choices, and our access to good
healthcare.
Gene signatures may be relatively useless at illuminating the causes of
cancer, but the team stresses that they can still help doctors – after all,
they’re still related to prognosis. Writing in The Scientist, the study’s
lead author Vince Detours says, “Smoke does not drive fire, yet it is
powerful indicator of when and where a fire is burning.”
Detours also aims a blow at scientific publishers who have let studies of
genetic signatures proliferate uncontrollably. He wrote:
It took us four years and six rejections to get this work finally
published in a computational biology journal – not the most efficient venue
to reach the oncology community. Meanwhile, a steady stream of studies
confounded by proliferation rates has appeared.
He added,
This has to be said; one can no longer stay silent about the rather
limited self-correction capability of the top tier publishing system (Cell,
Nature Genetics, PNAS, etc.), which promoted these studies in the first
place
K******S
发帖数: 10109
116
nice

【在 s******y 的大作中提到】
: David Venet from the Université Libre de Bruxelles 用胡乱挑选的基因组合
: 和已经发表的所谓的癌基因的marker 用在未知的病人的数据上,发现胡乱挑选
: 的基因的准确率比那些所谓的marker 还要好。
: 文章结尾直接点了几个杂志的名:Cell, Nature Genetics, PNAS, 认为这些杂志
: 过分鼓吹所谓的 gene marker 的意义。从文章里面的行文来看,估计这些也是
: 把这个文章据掉的杂志 (lol)
: 文章最后发表在
: PLoS Comput Biol. 2011 Oct;7(10):e1002240. Epub 2011 Oct 20.
: http://blog.f1000.com/2012/01/10/random-gene-sets-can-predict-b
: Random gene sets can predict breast cancer survival better than cancer-

s******s
发帖数: 13035
117
他那几个基因怎么来的?有没有general的意义还是碰巧?

【在 s******y 的大作中提到】
: David Venet from the Université Libre de Bruxelles 用胡乱挑选的基因组合
: 和已经发表的所谓的癌基因的marker 用在未知的病人的数据上,发现胡乱挑选
: 的基因的准确率比那些所谓的marker 还要好。
: 文章结尾直接点了几个杂志的名:Cell, Nature Genetics, PNAS, 认为这些杂志
: 过分鼓吹所谓的 gene marker 的意义。从文章里面的行文来看,估计这些也是
: 把这个文章据掉的杂志 (lol)
: 文章最后发表在
: PLoS Comput Biol. 2011 Oct;7(10):e1002240. Epub 2011 Oct 20.
: http://blog.f1000.com/2012/01/10/random-gene-sets-can-predict-b
: Random gene sets can predict breast cancer survival better than cancer-

p*****m
发帖数: 7030
118
Venet found three signatures that are completely unconnected to cancer.
Instead, these collections of genes were associated with laughing at jokes
after lunch, with the experience of social defeat in mice, and with the
positioning of skin cells.
哈哈哈哈哈

【在 s******y 的大作中提到】
: David Venet from the Université Libre de Bruxelles 用胡乱挑选的基因组合
: 和已经发表的所谓的癌基因的marker 用在未知的病人的数据上,发现胡乱挑选
: 的基因的准确率比那些所谓的marker 还要好。
: 文章结尾直接点了几个杂志的名:Cell, Nature Genetics, PNAS, 认为这些杂志
: 过分鼓吹所谓的 gene marker 的意义。从文章里面的行文来看,估计这些也是
: 把这个文章据掉的杂志 (lol)
: 文章最后发表在
: PLoS Comput Biol. 2011 Oct;7(10):e1002240. Epub 2011 Oct 20.
: http://blog.f1000.com/2012/01/10/random-gene-sets-can-predict-b
: Random gene sets can predict breast cancer survival better than cancer-

a********k
发帖数: 2273
119
扫了一眼
大意应该是随便抓100个以上的基因,(包括那些发表的看了joke表达不同的,social
有问题的,皮肤细胞问题的基因)90%的可能cancer和正常细胞的表达谱就会有区别。
作者抓了几十篇paper里面报道的所谓在breast cancer里面表达有区别的基因,和他随
便抓的基因比较,只要抓到100个基因以上,两个结果就相差不显著了。
然后他看了一下发表的那些所谓marker,大部分都和cell cycle/PCNA有关,如果拿
PCNA的表达做normalization,世界清静了,cancer marker基本失效。
结论就是cancer marker就是看细胞分裂的,没啥奇怪。

【在 s******y 的大作中提到】
: David Venet from the Université Libre de Bruxelles 用胡乱挑选的基因组合
: 和已经发表的所谓的癌基因的marker 用在未知的病人的数据上,发现胡乱挑选
: 的基因的准确率比那些所谓的marker 还要好。
: 文章结尾直接点了几个杂志的名:Cell, Nature Genetics, PNAS, 认为这些杂志
: 过分鼓吹所谓的 gene marker 的意义。从文章里面的行文来看,估计这些也是
: 把这个文章据掉的杂志 (lol)
: 文章最后发表在
: PLoS Comput Biol. 2011 Oct;7(10):e1002240. Epub 2011 Oct 20.
: http://blog.f1000.com/2012/01/10/random-gene-sets-can-predict-b
: Random gene sets can predict breast cancer survival better than cancer-

s******s
发帖数: 13035
120
抓100个基因有区别没啥问题啊!统计里面你做panel data (longitudinal)
对一堆random的东西regression, 总是抓住一堆dummy variable的

别。

【在 a********k 的大作中提到】
: 扫了一眼
: 大意应该是随便抓100个以上的基因,(包括那些发表的看了joke表达不同的,social
: 有问题的,皮肤细胞问题的基因)90%的可能cancer和正常细胞的表达谱就会有区别。
: 作者抓了几十篇paper里面报道的所谓在breast cancer里面表达有区别的基因,和他随
: 便抓的基因比较,只要抓到100个基因以上,两个结果就相差不显著了。
: 然后他看了一下发表的那些所谓marker,大部分都和cell cycle/PCNA有关,如果拿
: PCNA的表达做normalization,世界清静了,cancer marker基本失效。
: 结论就是cancer marker就是看细胞分裂的,没啥奇怪。

相关主题
prognostic data也来说说GWAS
基因检测靠谱吗和MD老板谈话,被郁闷了
吵起来了,关于GWASwhat is the connection between linkage disequlibrium and GWAS?
进入Biology版参与讨论
p*****m
发帖数: 7030
121
是不奇怪 但是这个不奇怪才真的奇怪 因为大家都可以想象cancer cell和normal cell
应该有巨大差异 整体基因表达就应该有巨大差异 居然如此做biomarker的paper是怎么
发出来的呢?

别。

【在 a********k 的大作中提到】
: 扫了一眼
: 大意应该是随便抓100个以上的基因,(包括那些发表的看了joke表达不同的,social
: 有问题的,皮肤细胞问题的基因)90%的可能cancer和正常细胞的表达谱就会有区别。
: 作者抓了几十篇paper里面报道的所谓在breast cancer里面表达有区别的基因,和他随
: 便抓的基因比较,只要抓到100个基因以上,两个结果就相差不显著了。
: 然后他看了一下发表的那些所谓marker,大部分都和cell cycle/PCNA有关,如果拿
: PCNA的表达做normalization,世界清静了,cancer marker基本失效。
: 结论就是cancer marker就是看细胞分裂的,没啥奇怪。

s******y
发帖数: 28562
122
我觉得他的文章的意思就是大部分基因的表达程度都和细胞的活跃程度有关,
所以随便乱抓几个都能看出区别来,但是和癌症的机理基本上就是打酱油的关系。
总体意思就是目前的主流方法找出来的marker不能作为推测机理的起点。
他们在faculty 1000上抱怨说他们这篇文章一共投了4年,前后被六个
顶级杂志据了(他们直接点名的几家估计是对他们态度最糟糕的,哈哈哈)
这里是他们在PLoS Comp Biol 发表的文章的摘要。
Bridging the gap between animal or in vitro models and human disease is
essential in medical research. Researchers often suggest that a biological
mechanism is relevant to human cancer from the statistical association of a
gene expression marker (a signature) of this mechanism, that was discovered
in an experimental system, with disease outcome in humans. We examined this
argument for breast cancer. Surprisingly, we found that gene expression
signatures-unrelated to cancer-of the effect of postprandial laughter, of
mice social defeat and of skin fibroblast localization were all
significantly associated with breast cancer outcome. We next compared 47
published breast cancer outcome signatures to signatures made of random
genes. Twenty-eight of them (60%) were not significantly better outcome
predictors than random signatures of identical size and 11 (23%) were worst
predictors than the median random signature. More than 90% of random
signatures >100 genes were significant outcome predictors. We next derived a
metagene, called meta-PCNA, by selecting the 1% genes most positively
correlated with proliferation marker PCNA in a compendium of normal tissues
expression. Adjusting breast cancer expression data for meta-PCNA abrogated
almost entirely the outcome association of published and random signatures.
We also found that, in the absence of adjustment, the hazard ratio of
outcome association of a signature strongly correlated with meta-PCNA (R(2)&
#8202;= 0.9). This relation also applied to single-gene expression
markers. Moreover, >50% of the breast cancer transcriptome was correlated
with meta-PCNA. A corollary was that purging cell cycle genes out of a
signature failed to rule out the confounding effect of proliferation. Hence,
it is questionable to suggest that a mechanism is relevant to human breast
cancer from the finding that a gene expression marker for this mechanism
predicts human breast cancer outcome, because most markers do. The methods
we present help to overcome this problem.

cell

【在 p*****m 的大作中提到】
: 是不奇怪 但是这个不奇怪才真的奇怪 因为大家都可以想象cancer cell和normal cell
: 应该有巨大差异 整体基因表达就应该有巨大差异 居然如此做biomarker的paper是怎么
: 发出来的呢?
:
: 别。

i*e
发帖数: 352
123
那些做gene signature的文章用的p值都是设定在什么level?0.05?

【在 s******s 的大作中提到】
: 抓100个基因有区别没啥问题啊!统计里面你做panel data (longitudinal)
: 对一堆random的东西regression, 总是抓住一堆dummy variable的
:
: 别。

s******y
发帖数: 28562
124
一般都比这个严格,经常就是 0.000001

【在 i*e 的大作中提到】
: 那些做gene signature的文章用的p值都是设定在什么level?0.05?
i*e
发帖数: 352
125
GWAS的结果本来就不应该作为推测机理
它理论依据本来就是基于几个假说
就算E-8的显著性阈值都还是假阳性很多

a
discovered

【在 s******y 的大作中提到】
: 我觉得他的文章的意思就是大部分基因的表达程度都和细胞的活跃程度有关,
: 所以随便乱抓几个都能看出区别来,但是和癌症的机理基本上就是打酱油的关系。
: 总体意思就是目前的主流方法找出来的marker不能作为推测机理的起点。
: 他们在faculty 1000上抱怨说他们这篇文章一共投了4年,前后被六个
: 顶级杂志据了(他们直接点名的几家估计是对他们态度最糟糕的,哈哈哈)
: 这里是他们在PLoS Comp Biol 发表的文章的摘要。
: Bridging the gap between animal or in vitro models and human disease is
: essential in medical research. Researchers often suggest that a biological
: mechanism is relevant to human cancer from the statistical association of a
: gene expression marker (a signature) of this mechanism, that was discovered

p*****m
发帖数: 7030
126
GWAS的文章很多统计都是胡来的 如果p cutoff选0.000001 一般说明作者乱选的统计方法

【在 s******y 的大作中提到】
: 一般都比这个严格,经常就是 0.000001
s******s
发帖数: 13035
127
good point. 不过,这个难道不是大家早就应该知道的么?
本来也就仅仅能是hint可能的机理。另外,其实细胞活跃程度
也不能说是和癌症完全打酱油,倒是找机理的时候把这部分
effect给control掉确实十个good point

a
discovered

【在 s******y 的大作中提到】
: 我觉得他的文章的意思就是大部分基因的表达程度都和细胞的活跃程度有关,
: 所以随便乱抓几个都能看出区别来,但是和癌症的机理基本上就是打酱油的关系。
: 总体意思就是目前的主流方法找出来的marker不能作为推测机理的起点。
: 他们在faculty 1000上抱怨说他们这篇文章一共投了4年,前后被六个
: 顶级杂志据了(他们直接点名的几家估计是对他们态度最糟糕的,哈哈哈)
: 这里是他们在PLoS Comp Biol 发表的文章的摘要。
: Bridging the gap between animal or in vitro models and human disease is
: essential in medical research. Researchers often suggest that a biological
: mechanism is relevant to human cancer from the statistical association of a
: gene expression marker (a signature) of this mechanism, that was discovered

s******y
发帖数: 28562
128
其实能在高引用杂志发表出来的,大多数都是 10E -30 这么狠的P value.

方法

【在 p*****m 的大作中提到】
: GWAS的文章很多统计都是胡来的 如果p cutoff选0.000001 一般说明作者乱选的统计方法
s******s
发帖数: 13035
129
其实,我觉得做生物的都至少要去上一门stat 101.
一个是大家天天搞的sd, error bar的问题
另一个是搞清楚association和causality的关系
最后,好好理解一下multitest correction

【在 s******y 的大作中提到】
: 其实能在高引用杂志发表出来的,大多数都是 10E -30 这么狠的P value.
:
: 方法

p*****m
发帖数: 7030
130
这样的P value本质上就是用错统计方法的结果

【在 s******y 的大作中提到】
: 其实能在高引用杂志发表出来的,大多数都是 10E -30 这么狠的P value.
:
: 方法

相关主题
如果genotyping结果发现一个SNP不符合HWE说明啥?关于职业方向选择
解释一下——今后一二十年的推演可以发一个招人信息吗?
有谁谈谈从零开始学NGS数据分析都需要具备什么知识?Ask a simple question...
进入Biology版参与讨论
l*****a
发帖数: 1431
131
ls 给讲讲multetest correction吧。真心求教。
n********k
发帖数: 2818
132
Maybe I am not getting it...several quick points:
1. The paper/study set up the assumptions/targets and then shot down...
pretty amusing, isn't it? well, they might have a point that there is component of poor scientific publishing...
2. the study went to where it might deserve...I don't see why it shall fair
better...that said, it is agreed that some of those NCS are a step away from
junk:)))...
3. P value in biomedicine sucks and purely a joke---esp with so many
American biologists and beyond whose math intelligence is virtually zero but
always insistent on a P value...
4. Who cares if biomarkers have no bearing in mechanisms...I think this is
inevitably the trend/true for many complex diseases...otherwise it wouldn't
be called biomarkers...

【在 s******y 的大作中提到】
: David Venet from the Université Libre de Bruxelles 用胡乱挑选的基因组合
: 和已经发表的所谓的癌基因的marker 用在未知的病人的数据上,发现胡乱挑选
: 的基因的准确率比那些所谓的marker 还要好。
: 文章结尾直接点了几个杂志的名:Cell, Nature Genetics, PNAS, 认为这些杂志
: 过分鼓吹所谓的 gene marker 的意义。从文章里面的行文来看,估计这些也是
: 把这个文章据掉的杂志 (lol)
: 文章最后发表在
: PLoS Comput Biol. 2011 Oct;7(10):e1002240. Epub 2011 Oct 20.
: http://blog.f1000.com/2012/01/10/random-gene-sets-can-predict-b
: Random gene sets can predict breast cancer survival better than cancer-

n********k
发帖数: 2818
133
no hope, you have to go back to the preschool and educate the american and
many more---the basic math...even it is possible, it would be a generation
away...I am amazed by many biologists who has no math intelligence
whatsoever but are solely possessed by P-value when reviewing data/MSs...

【在 s******s 的大作中提到】
: 其实,我觉得做生物的都至少要去上一门stat 101.
: 一个是大家天天搞的sd, error bar的问题
: 另一个是搞清楚association和causality的关系
: 最后,好好理解一下multitest correction

s******y
发帖数: 28562
134

of
你说的那个assumptions是因为你在直觉/理论上觉得那个是assumptions。
但是在这个文章之前没有人认真去检查过这个问题。
fair
from
but

【在 n********k 的大作中提到】
: Maybe I am not getting it...several quick points:
: 1. The paper/study set up the assumptions/targets and then shot down...
: pretty amusing, isn't it? well, they might have a point that there is component of poor scientific publishing...
: 2. the study went to where it might deserve...I don't see why it shall fair
: better...that said, it is agreed that some of those NCS are a step away from
: junk:)))...
: 3. P value in biomedicine sucks and purely a joke---esp with so many
: American biologists and beyond whose math intelligence is virtually zero but
: always insistent on a P value...
: 4. Who cares if biomarkers have no bearing in mechanisms...I think this is

sa
发帖数: 1384
135
good one. finally someone come to say" the emperor has no clothes"
i*e
发帖数: 352
136
这不用我去说啊
早就已经争吵多时了
严谨点说,应该是GWAS不能“完全”用来推测机理
它只test一部分(尚不知大多比例)复杂疾病/性状
就这能验证出来就很了不起了
再说了,没有replication,GWAS自个假阳性太多太多

【在 s******y 的大作中提到】
:
: of
: 你说的那个assumptions是因为你在直觉/理论上觉得那个是assumptions。
: 但是在这个文章之前没有人认真去检查过这个问题。
: fair
: from
: but

e*******e
发帖数: 1837
137
话说发这种文章算不算scientific suicide? 美国人拿NIH钱的就算做了同样的结果估
计也不敢发。

【在 s******y 的大作中提到】
: David Venet from the Université Libre de Bruxelles 用胡乱挑选的基因组合
: 和已经发表的所谓的癌基因的marker 用在未知的病人的数据上,发现胡乱挑选
: 的基因的准确率比那些所谓的marker 还要好。
: 文章结尾直接点了几个杂志的名:Cell, Nature Genetics, PNAS, 认为这些杂志
: 过分鼓吹所谓的 gene marker 的意义。从文章里面的行文来看,估计这些也是
: 把这个文章据掉的杂志 (lol)
: 文章最后发表在
: PLoS Comput Biol. 2011 Oct;7(10):e1002240. Epub 2011 Oct 20.
: http://blog.f1000.com/2012/01/10/random-gene-sets-can-predict-b
: Random gene sets can predict breast cancer survival better than cancer-

l*********s
发帖数: 5409
138
Next generation sequence is going to replace GWAS anyway,it is beating a
dying horse.
p*****m
发帖数: 7030
139
这个有什么关系?

【在 l*********s 的大作中提到】
: Next generation sequence is going to replace GWAS anyway,it is beating a
: dying horse.

p*****m
发帖数: 7030
140
你这个搞笑了不是,病人的取病理组织 正常人的对照呢?

【在 s******y 的大作中提到】
:
: of
: 你说的那个assumptions是因为你在直觉/理论上觉得那个是assumptions。
: 但是在这个文章之前没有人认真去检查过这个问题。
: fair
: from
: but

相关主题
Ask a simple question...怎样检测一个基因的变异与疾病的关系
求教生物信息学问题求科普Next Generation Sequence
machine learning来对GWAS结果建模简单介绍 Bioinformatics Tools for NGS 分析
进入Biology版参与讨论
s******y
发帖数: 28562
141
可以和自己身上其他组织相比啊。
有这么做的。而且已经有人开始这么建数据库了。

【在 p*****m 的大作中提到】
: 你这个搞笑了不是,病人的取病理组织 正常人的对照呢?
p*****m
发帖数: 7030
142
这样测出来比GWAS还离谱吧 我知道有人做这种实验(microarray时代就有无数人这么
做cancer了) 但是这样解决的问题和GWAS是不一样的,或者说,试图解决的问题是不
一样的。。所以谈不上什么取代什么

【在 s******y 的大作中提到】
: 可以和自己身上其他组织相比啊。
: 有这么做的。而且已经有人开始这么建数据库了。

n********k
发帖数: 2818
143
Please define GWAS, I think I am lost now...have to admit I am very naive
about GWAS...NGS V GWAS?? I thought one is technology, one is methodology..
.right?

【在 s******y 的大作中提到】
: 可以和自己身上其他组织相比啊。
: 有这么做的。而且已经有人开始这么建数据库了。

s******s
发帖数: 13035
144
i guess they mean SNP vs Transcriptome.

..

【在 n********k 的大作中提到】
: Please define GWAS, I think I am lost now...have to admit I am very naive
: about GWAS...NGS V GWAS?? I thought one is technology, one is methodology..
: .right?

k****o
发帖数: 589
145

..
同困惑
另外,看了这个文章有点哭笑不得啊。不知道除了癌症,其它领域的biomarker数据又
有多可靠。

【在 n********k 的大作中提到】
: Please define GWAS, I think I am lost now...have to admit I am very naive
: about GWAS...NGS V GWAS?? I thought one is technology, one is methodology..
: .right?

k****o
发帖数: 589
146

个人觉得组织间的差异太难控制了。

【在 s******y 的大作中提到】
: 可以和自己身上其他组织相比啊。
: 有这么做的。而且已经有人开始这么建数据库了。

s******y
发帖数: 28562
147
snp mutations between tissues should be very reliable.
they are not talking about transcription levels.

【在 k****o 的大作中提到】
:
: 个人觉得组织间的差异太难控制了。

n********k
发帖数: 2818
148
In this article, I thought they are not talking or emphasizing about the
reliability of the biomarkers as markers but for mechanisms...That said, it
is surprising that randomly chosen set performed well or even better...what
one might say is too many sloppy studies from influential groups without
proper/well-thought controls...or there might be some inherited problems/
complexity with the methodology or math or biology here...God knows...

【在 k****o 的大作中提到】
:
: 个人觉得组织间的差异太难控制了。

s******y
发帖数: 28562
149
Yeah, I think one of the main points is:
the current mothdology doesn't work

it
what

【在 n********k 的大作中提到】
: In this article, I thought they are not talking or emphasizing about the
: reliability of the biomarkers as markers but for mechanisms...That said, it
: is surprising that randomly chosen set performed well or even better...what
: one might say is too many sloppy studies from influential groups without
: proper/well-thought controls...or there might be some inherited problems/
: complexity with the methodology or math or biology here...God knows...

n********k
发帖数: 2818
150
Does this study have anything to do with GAWS? It is about transcriptional
molecular signature, right? I am very naive about the field but now I am
completely lost with your discussion and response to mine...

【在 s******y 的大作中提到】
: snp mutations between tissues should be very reliable.
: they are not talking about transcription levels.

相关主题
打听 一下 illumina, life tech 工资基因检测靠谱吗
GSEA questions吵起来了,关于GWAS
prognostic data也来说说GWAS
进入Biology版参与讨论
s******y
发帖数: 28562
151
在我那个回复里的"they" 是指用NGS 作somatic mutation 的那些人,不是指
帖子标题相关的文章里的那些人。

【在 n********k 的大作中提到】
: Does this study have anything to do with GAWS? It is about transcriptional
: molecular signature, right? I am very naive about the field but now I am
: completely lost with your discussion and response to mine...

p*****m
发帖数: 7030
152
microarray时代大家对somatic mutation 和cancer的关系也是搞过不少研究的啊 我觉
得你说的这个样品量的问题不太成立 single cell microarray都做得了的

【在 s******y 的大作中提到】
: 在我那个回复里的"they" 是指用NGS 作somatic mutation 的那些人,不是指
: 帖子标题相关的文章里的那些人。

s******y
发帖数: 28562
153
transcriptome 的准确度远远比不上白纸黑字的DNA sequence mutation data 吧。
而且transcriptome 的可变性太高了,得出来的数据大部分都是垃圾。
别的不说,单是这个single cell microarray 的样品源就大有问题,
谁知道进去的那个细胞真的就是癌细胞?弄不好是样品里面污染的其他组织细胞
或者血细胞什么的,马上就和对照的transcriptome 不一样了。
但是单细胞的DNA sequencing 就不一样了,不管什么组织,在没有病变的
前提下,绝大部分的DNA sequence 应该都是相同的吧。

【在 p*****m 的大作中提到】
: microarray时代大家对somatic mutation 和cancer的关系也是搞过不少研究的啊 我觉
: 得你说的这个样品量的问题不太成立 single cell microarray都做得了的

p*****m
发帖数: 7030
154
也可以用genome microarray或者SNP array做GWAS,这样本质上和用NGS做好像没啥区别
事实上 做gwas的,用SNP array的比你说的彻底sequencing才是主流吧
所以我有点被你弄糊涂了。。

【在 s******y 的大作中提到】
: transcriptome 的准确度远远比不上白纸黑字的DNA sequence mutation data 吧。
: 而且transcriptome 的可变性太高了,得出来的数据大部分都是垃圾。
: 别的不说,单是这个single cell microarray 的样品源就大有问题,
: 谁知道进去的那个细胞真的就是癌细胞?弄不好是样品里面污染的其他组织细胞
: 或者血细胞什么的,马上就和对照的transcriptome 不一样了。
: 但是单细胞的DNA sequencing 就不一样了,不管什么组织,在没有病变的
: 前提下,绝大部分的DNA sequence 应该都是相同的吧。

p*****m
发帖数: 7030
155
我说的microarray不是说cDNA array...

【在 s******y 的大作中提到】
: transcriptome 的准确度远远比不上白纸黑字的DNA sequence mutation data 吧。
: 而且transcriptome 的可变性太高了,得出来的数据大部分都是垃圾。
: 别的不说,单是这个single cell microarray 的样品源就大有问题,
: 谁知道进去的那个细胞真的就是癌细胞?弄不好是样品里面污染的其他组织细胞
: 或者血细胞什么的,马上就和对照的transcriptome 不一样了。
: 但是单细胞的DNA sequencing 就不一样了,不管什么组织,在没有病变的
: 前提下,绝大部分的DNA sequence 应该都是相同的吧。

p*****m
发帖数: 7030
156
事实上好像也没有谁会用CDNA ARRAY做GWAS吧 我觉得你比较错东西了

【在 p*****m 的大作中提到】
: 我说的microarray不是说cDNA array...
s******y
发帖数: 28562
157
我的印象里SNP array 也是挺不准的。
因为本质上就是用很多很多的probe 来overlap 然后搞拼图游戏吧?
其准确度和probe 的设计,操作人员的水平,甚至环境温度都有关。
不如NGS 来个刨根问底的sequencing 干脆

【在 p*****m 的大作中提到】
: 我说的microarray不是说cDNA array...
s*******r
发帖数: 181
158
此文对GWAS/NGS (DNA) 没有什么影响。Microarray/RNA-seq 关心的基因表达本来就混
乱成网,搞不清楚原因结果。
p*****m
发帖数: 7030
159
所以你之前讨论microarry表达量测的不准啊样品用得多啊都应该打回去重写 呵呵 没
听说谁是用表达量(cDNA array)来做GWAS的,做GWAS无非就是几个办法,SNP array,
用得最多;genome tiling array,估计有些不差钱的人用。然后就是whole genome
sequnrcing,这个有了NGS估计会有很多人做。
不管哪个都和cDNA array没关系。。而且不管哪个也都解决不了GWAS本身不准的问题

【在 s******y 的大作中提到】
: 我的印象里SNP array 也是挺不准的。
: 因为本质上就是用很多很多的probe 来overlap 然后搞拼图游戏吧?
: 其准确度和probe 的设计,操作人员的水平,甚至环境温度都有关。
: 不如NGS 来个刨根问底的sequencing 干脆

p*****m
发帖数: 7030
160
这个定义很清楚吧。。你引得这个文章本身和GWAS一点关系都没有 其实我也不知道话
题怎么转到GWAS来了。。我好像就是随口说了个GWAS的统计问题 结果。。

【在 s******y 的大作中提到】
: 我的印象里SNP array 也是挺不准的。
: 因为本质上就是用很多很多的probe 来overlap 然后搞拼图游戏吧?
: 其准确度和probe 的设计,操作人员的水平,甚至环境温度都有关。
: 不如NGS 来个刨根问底的sequencing 干脆

相关主题
和MD老板谈话,被郁闷了解释一下——今后一二十年的推演
what is the connection between linkage disequlibrium and GWAS?有谁谈谈从零开始学NGS数据分析都需要具备什么知识?
如果genotyping结果发现一个SNP不符合HWE说明啥?关于职业方向选择
进入Biology版参与讨论
s******y
发帖数: 28562
161
呵呵,我觉得我是讨论着讨论着就进了一个歧途。
这里得向大家道歉并澄清两点,免得误人子弟。
1。这篇文章其实本身和GWAS 没有直接关系。他们直接打击的是用trancriptome
找 bio-marker 的那些人。
这个话题之所以会引到GWAS上,主要是因为我自己对GWAS有偏见,三句话
不忘顺便打击GWAS,结果就把这个话题说到那边去了。
其实这个文章本身打击的直接对象不是GWAS,这个得澄清一下。
2。GWAS (作为一个思路) 和是否用NGS (方法)没有关系。

【在 p*****m 的大作中提到】
: 所以你之前讨论microarry表达量测的不准啊样品用得多啊都应该打回去重写 呵呵 没
: 听说谁是用表达量(cDNA array)来做GWAS的,做GWAS无非就是几个办法,SNP array,
: 用得最多;genome tiling array,估计有些不差钱的人用。然后就是whole genome
: sequnrcing,这个有了NGS估计会有很多人做。
: 不管哪个都和cDNA array没关系。。而且不管哪个也都解决不了GWAS本身不准的问题

s******y
发帖数: 28562
162
因为有一个人在讨论的时候说NGS 会取代GWAS,
然后我纠正他的观点的时候又进行了一些思维跳跃。结果就变成了讨论到底什么
才是GWAS的问题了。呵呵

【在 p*****m 的大作中提到】
: 这个定义很清楚吧。。你引得这个文章本身和GWAS一点关系都没有 其实我也不知道话
: 题怎么转到GWAS来了。。我好像就是随口说了个GWAS的统计问题 结果。。

n********k
发帖数: 2818
163
en, I feel I am normal now:)))

【在 s******y 的大作中提到】
: 因为有一个人在讨论的时候说NGS 会取代GWAS,
: 然后我纠正他的观点的时候又进行了一些思维跳跃。结果就变成了讨论到底什么
: 才是GWAS的问题了。呵呵

n********k
发帖数: 2818
164
Single cell NGS for genome is a mess too...still long way to go...it seems
Quake just reported end of last year...unless you have some insider
information on this, what I have heard it is a mess---God knows after all
those amlification step etc...

【在 p*****m 的大作中提到】
: 所以你之前讨论microarry表达量测的不准啊样品用得多啊都应该打回去重写 呵呵 没
: 听说谁是用表达量(cDNA array)来做GWAS的,做GWAS无非就是几个办法,SNP array,
: 用得最多;genome tiling array,估计有些不差钱的人用。然后就是whole genome
: sequnrcing,这个有了NGS估计会有很多人做。
: 不管哪个都和cDNA array没关系。。而且不管哪个也都解决不了GWAS本身不准的问题

s******y
发帖数: 28562
165
这个你说的对

【在 s*******r 的大作中提到】
: 此文对GWAS/NGS (DNA) 没有什么影响。Microarray/RNA-seq 关心的基因表达本来就混
: 乱成网,搞不清楚原因结果。

F*Q
发帖数: 3259
166
那篇文章最重要的是点出了目前做文章的普遍问题。当前社会基本只有做文章而没有真
正做Science的,不幸中的万幸是有少数文章做得碰巧和science一致。

【在 s******y 的大作中提到】
: David Venet from the Université Libre de Bruxelles 用胡乱挑选的基因组合
: 和已经发表的所谓的癌基因的marker 用在未知的病人的数据上,发现胡乱挑选
: 的基因的准确率比那些所谓的marker 还要好。
: 文章结尾直接点了几个杂志的名:Cell, Nature Genetics, PNAS, 认为这些杂志
: 过分鼓吹所谓的 gene marker 的意义。从文章里面的行文来看,估计这些也是
: 把这个文章据掉的杂志 (lol)
: 文章最后发表在
: PLoS Comput Biol. 2011 Oct;7(10):e1002240. Epub 2011 Oct 20.
: http://blog.f1000.com/2012/01/10/random-gene-sets-can-predict-b
: Random gene sets can predict breast cancer survival better than cancer-

t*d
发帖数: 1290
167
It is weird.

【在 s******y 的大作中提到】
: David Venet from the Université Libre de Bruxelles 用胡乱挑选的基因组合
: 和已经发表的所谓的癌基因的marker 用在未知的病人的数据上,发现胡乱挑选
: 的基因的准确率比那些所谓的marker 还要好。
: 文章结尾直接点了几个杂志的名:Cell, Nature Genetics, PNAS, 认为这些杂志
: 过分鼓吹所谓的 gene marker 的意义。从文章里面的行文来看,估计这些也是
: 把这个文章据掉的杂志 (lol)
: 文章最后发表在
: PLoS Comput Biol. 2011 Oct;7(10):e1002240. Epub 2011 Oct 20.
: http://blog.f1000.com/2012/01/10/random-gene-sets-can-predict-b
: Random gene sets can predict breast cancer survival better than cancer-

i*****g
发帖数: 11893
168
本来就是么,这些都是自娱自乐的东东
版上好多wsn,都来米帝国这么多年了,早就应该看破一些学界的把戏了
但心里嘲笑这些,写东西还是一板一眼的按8股文风写啊
A*****n
发帖数: 243
169
不觉得这篇文章有那么轰动的意义。看了一下他们的方法,他们并不是用单个基因的信
息,而是100个基因做了PCA之后的PC1,很大程度上已经抹去了很多随机的因素,如果
有时间的话可以算一下100个基因的PC1和全基因组的PC1,说不定相关程度更大,这样
100个基因已经包含了很多的信息,具有一定的分类效果也就不奇怪了。其次本来
biomarker就不一定和机制有什么密不可分的联系,有些就是用来对病人进行分型,或
者预测治疗预后的,也早已经有很多报道表明不同的基因组合可以实现相同的分类性能
。但是如果都能实现较好的分类效果,并且基因数目相对较好的话,就已经可以达到
biomarker的目的啦。本来biomarker就是从实用性出发,而不应该包含太多因果的概念
在里面。就像癌症数据,找了那么mutation,而要找出driver mutation还是很不容易
,但并不代表找到的mutation没有意义了。

【在 s******y 的大作中提到】
: David Venet from the Université Libre de Bruxelles 用胡乱挑选的基因组合
: 和已经发表的所谓的癌基因的marker 用在未知的病人的数据上,发现胡乱挑选
: 的基因的准确率比那些所谓的marker 还要好。
: 文章结尾直接点了几个杂志的名:Cell, Nature Genetics, PNAS, 认为这些杂志
: 过分鼓吹所谓的 gene marker 的意义。从文章里面的行文来看,估计这些也是
: 把这个文章据掉的杂志 (lol)
: 文章最后发表在
: PLoS Comput Biol. 2011 Oct;7(10):e1002240. Epub 2011 Oct 20.
: http://blog.f1000.com/2012/01/10/random-gene-sets-can-predict-b
: Random gene sets can predict breast cancer survival better than cancer-

s******y
发帖数: 28562
170
可是如果随便选出来的基因能够比那些发表的基因更准确的话,那么人们干吗
还要做研究?
所以这里肯定有几个问题,要么就是那个方法本身就是有重大缺陷,
要么就是那些发表出来的基因都是错的。

【在 A*****n 的大作中提到】
: 不觉得这篇文章有那么轰动的意义。看了一下他们的方法,他们并不是用单个基因的信
: 息,而是100个基因做了PCA之后的PC1,很大程度上已经抹去了很多随机的因素,如果
: 有时间的话可以算一下100个基因的PC1和全基因组的PC1,说不定相关程度更大,这样
: 100个基因已经包含了很多的信息,具有一定的分类效果也就不奇怪了。其次本来
: biomarker就不一定和机制有什么密不可分的联系,有些就是用来对病人进行分型,或
: 者预测治疗预后的,也早已经有很多报道表明不同的基因组合可以实现相同的分类性能
: 。但是如果都能实现较好的分类效果,并且基因数目相对较好的话,就已经可以达到
: biomarker的目的啦。本来biomarker就是从实用性出发,而不应该包含太多因果的概念
: 在里面。就像癌症数据,找了那么mutation,而要找出driver mutation还是很不容易
: ,但并不代表找到的mutation没有意义了。

相关主题
关于职业方向选择求教生物信息学问题
可以发一个招人信息吗?machine learning来对GWAS结果建模
Ask a simple question...怎样检测一个基因的变异与疾病的关系
进入Biology版参与讨论
n********k
发帖数: 2818
171
I don't think you got it yet:)))...I was a bit confused, feeling something
not right but now after reading his post, I think I finally got it...Frankly
now I feel this paper could have deserved NCS but definitely not in the way
/angle they are going or you are suggesting...It would be exciting and I am
not gonna say anything in case it is wrong but wait to see any follow up:)))

【在 s******y 的大作中提到】
: 可是如果随便选出来的基因能够比那些发表的基因更准确的话,那么人们干吗
: 还要做研究?
: 所以这里肯定有几个问题,要么就是那个方法本身就是有重大缺陷,
: 要么就是那些发表出来的基因都是错的。

s******s
发帖数: 13035
172
这样的话,真没啥特别的。做统计的都知道,对一大堆毫无关联
的dummy variable做regression, 只要自变量够多,总是能match很好。如果
真的用了100个基因做出来的PC1,别说cancer marker了,几乎啥都
能解释

【在 A*****n 的大作中提到】
: 不觉得这篇文章有那么轰动的意义。看了一下他们的方法,他们并不是用单个基因的信
: 息,而是100个基因做了PCA之后的PC1,很大程度上已经抹去了很多随机的因素,如果
: 有时间的话可以算一下100个基因的PC1和全基因组的PC1,说不定相关程度更大,这样
: 100个基因已经包含了很多的信息,具有一定的分类效果也就不奇怪了。其次本来
: biomarker就不一定和机制有什么密不可分的联系,有些就是用来对病人进行分型,或
: 者预测治疗预后的,也早已经有很多报道表明不同的基因组合可以实现相同的分类性能
: 。但是如果都能实现较好的分类效果,并且基因数目相对较好的话,就已经可以达到
: biomarker的目的啦。本来biomarker就是从实用性出发,而不应该包含太多因果的概念
: 在里面。就像癌症数据,找了那么mutation,而要找出driver mutation还是很不容易
: ,但并不代表找到的mutation没有意义了。

a*******n
发帖数: 156
173

我没具体看过这些算法, 但是我想这些算法提到的P value, 应该跟sudent test这些方
法的P value意义应该是不一样的吧

【在 p*****m 的大作中提到】
: 这样的P value本质上就是用错统计方法的结果
a*******n
发帖数: 156
174

能不能推荐一本教材?

【在 s******s 的大作中提到】
: 其实,我觉得做生物的都至少要去上一门stat 101.
: 一个是大家天天搞的sd, error bar的问题
: 另一个是搞清楚association和causality的关系
: 最后,好好理解一下multitest correction

s******s
发帖数: 13035
175
我没看原文。如果别人只是几个或者十几个marker, 他搞一个100基因marker,
那是没啥可比的。就算都是100个基因的marker, 这么多dummy variable几乎
可以解释到极限了,其他的“未必”能有很大的提高。

【在 s******y 的大作中提到】
: 可是如果随便选出来的基因能够比那些发表的基因更准确的话,那么人们干吗
: 还要做研究?
: 所以这里肯定有几个问题,要么就是那个方法本身就是有重大缺陷,
: 要么就是那些发表出来的基因都是错的。

s******s
发帖数: 13035
176
意义都是一样。问题是统计学做这些test都有很多假设要求先满足,
生物上拿来主义很多不符合条件就用,比如很多要求independence的
大家都无所谓,所以p value做出来可能不对

【在 a*******n 的大作中提到】
:
: 能不能推荐一本教材?

A*****n
发帖数: 243
177
首先他们做完PCA之后就不再是完全的随机了,就像上面说的microarray数据一来,直
接做个PCA,实际上就能做到很好的效果了。之所以作biomarker的研究就是希望能够用
尽量少的基因数实现同样的目的。想象一下有个完美的基因,同时还有100个基因的表
达模式和其高度相关,不同的方法会选出这100个里面中间的一个。这个时候,方法没
有什么重大缺陷,基因也没有错,每个也都能作为一个很好的biomarker。错的其实就
是有些人在希望这个基因有很好分类性能的同时,还希望证明这个特定的基因和机制有
关系,这就相当于对biomarker寄予了太高的要求。

【在 s******y 的大作中提到】
: 可是如果随便选出来的基因能够比那些发表的基因更准确的话,那么人们干吗
: 还要做研究?
: 所以这里肯定有几个问题,要么就是那个方法本身就是有重大缺陷,
: 要么就是那些发表出来的基因都是错的。

z*t
发帖数: 863
178
GWAS一般用bonfferoni test

【在 a*******n 的大作中提到】
:
: 能不能推荐一本教材?

s******s
发帖数: 13035
179
没啥教材,也就一两句话的事情
比如统计基本上只能做出association,要做causality要design实验或者trial一类的
multitest的意思是,统计里面95%的意思就算两个population一模一样,你随机
抽二十组sample,估计就会有一组是statistically different的,所以这个算出来
的p<0.05很可能有问题

【在 a*******n 的大作中提到】
:
: 能不能推荐一本教材?

s******y
发帖数: 28562
180
从文章的摘要里面看,当他们把那些随便挑出来的marker 和已知的
markers set 相比的时候,是用同样多的size 来比较的:
Twenty-eight of them (60%) were not significantly better outcome predictors
than random signatures of identical size and 11 (23%) were worst predictors
than the median random signature
不过我也只看了摘要,没有看全文(因为看不懂。。。)

【在 s******s 的大作中提到】
: 我没看原文。如果别人只是几个或者十几个marker, 他搞一个100基因marker,
: 那是没啥可比的。就算都是100个基因的marker, 这么多dummy variable几乎
: 可以解释到极限了,其他的“未必”能有很大的提高。

相关主题
求科普Next Generation SequenceGSEA questions
简单介绍 Bioinformatics Tools for NGS 分析prognostic data
打听 一下 illumina, life tech 工资基因检测靠谱吗
进入Biology版参与讨论
s*******2
发帖数: 499
181
现行的GWAS在方法学方面有严重缺陷,我正在投一篇paper更正一个问题。

【在 i*e 的大作中提到】
: GWAS的结果本来就不应该作为推测机理
: 它理论依据本来就是基于几个假说
: 就算E-8的显著性阈值都还是假阳性很多
:
: a
: discovered

s******s
发帖数: 13035
182
就像我前面说的“就算都是100个基因的marker, 这么多dummy variable几乎
可以解释到极限了,其他的“未必”能有很大的提高。”
举个例子,苹果股票的价格可能40%是predictable的,另外60%是random的。
你可以用iphone的销量,android的升级,苹果研发费用等10个参数预测,可能
能预测30%。这时周星驰跳出来,用苹果员工领带颜色,裙子长短,非洲人肤色,
太平洋大马哈鱼数量,人马座亮度变化等来预测,只要用的参数够多,比如100
个,就很可能得到更好的结果,比如35%。这个预测已经离40%够近了,就算股票
专家把参数也扩展到100个,也未必能好多少。

predictors
predictors

【在 s******y 的大作中提到】
: 从文章的摘要里面看,当他们把那些随便挑出来的marker 和已知的
: markers set 相比的时候,是用同样多的size 来比较的:
: Twenty-eight of them (60%) were not significantly better outcome predictors
: than random signatures of identical size and 11 (23%) were worst predictors
: than the median random signature
: 不过我也只看了摘要,没有看全文(因为看不懂。。。)

s******y
发帖数: 28562
183
那。。。你的意思是说。。。这个本来就是一个不可能测得很准的问题?或者
你的意思是说只要参数数量足够多,最后都能把一些不是紧密相关的参数和
结果联系起来?

【在 s******s 的大作中提到】
: 就像我前面说的“就算都是100个基因的marker, 这么多dummy variable几乎
: 可以解释到极限了,其他的“未必”能有很大的提高。”
: 举个例子,苹果股票的价格可能40%是predictable的,另外60%是random的。
: 你可以用iphone的销量,android的升级,苹果研发费用等10个参数预测,可能
: 能预测30%。这时周星驰跳出来,用苹果员工领带颜色,裙子长短,非洲人肤色,
: 太平洋大马哈鱼数量,人马座亮度变化等来预测,只要用的参数够多,比如100
: 个,就很可能得到更好的结果,比如35%。这个预测已经离40%够近了,就算股票
: 专家把参数也扩展到100个,也未必能好多少。
:
: predictors

i*e
发帖数: 352
184
没错
作者对prognostic biomarker“混淆”或者“不懂”或者“过多寄予厚望”
同理,很多人对GWAS的association和causality也是如此
只是现在都是先下手为强,有个hit就硬往functional靠

【在 A*****n 的大作中提到】
: 首先他们做完PCA之后就不再是完全的随机了,就像上面说的microarray数据一来,直
: 接做个PCA,实际上就能做到很好的效果了。之所以作biomarker的研究就是希望能够用
: 尽量少的基因数实现同样的目的。想象一下有个完美的基因,同时还有100个基因的表
: 达模式和其高度相关,不同的方法会选出这100个里面中间的一个。这个时候,方法没
: 有什么重大缺陷,基因也没有错,每个也都能作为一个很好的biomarker。错的其实就
: 是有些人在希望这个基因有很好分类性能的同时,还希望证明这个特定的基因和机制有
: 关系,这就相当于对biomarker寄予了太高的要求。

t*******o
发帖数: 424
185
你说的这个似乎只能解释对现有结果的regression之类的吧,对未来的预测应该不会那
么准吧。就比如说machine learning里面,只要model的复杂度高一些,用100个随机变
量大概总能解释50个样本的结果,但是对于独立的另外一批50个样本的结果基本就是错
误率超高了。感觉就是个overfitting的问题。。。

【在 s******s 的大作中提到】
: 就像我前面说的“就算都是100个基因的marker, 这么多dummy variable几乎
: 可以解释到极限了,其他的“未必”能有很大的提高。”
: 举个例子,苹果股票的价格可能40%是predictable的,另外60%是random的。
: 你可以用iphone的销量,android的升级,苹果研发费用等10个参数预测,可能
: 能预测30%。这时周星驰跳出来,用苹果员工领带颜色,裙子长短,非洲人肤色,
: 太平洋大马哈鱼数量,人马座亮度变化等来预测,只要用的参数够多,比如100
: 个,就很可能得到更好的结果,比如35%。这个预测已经离40%够近了,就算股票
: 专家把参数也扩展到100个,也未必能好多少。
:
: predictors

t*******o
发帖数: 424
186
对已经有的数据来说确实如此,但是对独立的另外一批样本应该就不行了,也就是说基
本没啥预测价值。

【在 s******y 的大作中提到】
: 那。。。你的意思是说。。。这个本来就是一个不可能测得很准的问题?或者
: 你的意思是说只要参数数量足够多,最后都能把一些不是紧密相关的参数和
: 结果联系起来?

i*e
发帖数: 352
187
这也就是1E-7阈值所在,那时候500M的SNP set
不过最近听一个报告,目前5M的SNP set
也被模拟论证不用再提高阈值了
其实最重要的是能否被replicate出来,p值倒是其次的

【在 z*t 的大作中提到】
: GWAS一般用bonfferoni test
k****o
发帖数: 589
188

统计学上有没有什么procedure是说明因果关系的?我不是学统计的,请教下。

【在 s******s 的大作中提到】
: 没啥教材,也就一两句话的事情
: 比如统计基本上只能做出association,要做causality要design实验或者trial一类的
: multitest的意思是,统计里面95%的意思就算两个population一模一样,你随机
: 抽二十组sample,估计就会有一组是statistically different的,所以这个算出来
: 的p<0.05很可能有问题

k****o
发帖数: 589
189
不知道把这篇文章的方法用到临床诊断会有什么后果..
i*e
发帖数: 352
190
也有可能很大程度heterogeneity的问题

【在 t*******o 的大作中提到】
: 你说的这个似乎只能解释对现有结果的regression之类的吧,对未来的预测应该不会那
: 么准吧。就比如说machine learning里面,只要model的复杂度高一些,用100个随机变
: 量大概总能解释50个样本的结果,但是对于独立的另外一批50个样本的结果基本就是错
: 误率超高了。感觉就是个overfitting的问题。。。

相关主题
吵起来了,关于GWASwhat is the connection between linkage disequlibrium and GWAS?
也来说说GWAS如果genotyping结果发现一个SNP不符合HWE说明啥?
和MD老板谈话,被郁闷了解释一下——今后一二十年的推演
进入Biology版参与讨论
s*******2
发帖数: 499
191
SNP数目的多少和p value没有直接关系。
p value和sample size有关。

【在 i*e 的大作中提到】
: 这也就是1E-7阈值所在,那时候500M的SNP set
: 不过最近听一个报告,目前5M的SNP set
: 也被模拟论证不用再提高阈值了
: 其实最重要的是能否被replicate出来,p值倒是其次的

i*e
发帖数: 352
192
我说的是p value multiple testing 的cutoff, alpha值

【在 s*******2 的大作中提到】
: SNP数目的多少和p value没有直接关系。
: p value和sample size有关。

i*e
发帖数: 352
193
biomark追求少比多好
J Natl Cancer Inst. 2012 Jan 18. [Epub ahead of print]
A Three-Gene Model to Robustly Identify Breast Cancer Molecular Subtypes.
Haibe-Kains B, Desmedt C, Loi S, Culhane AC, Bontempi G, Quackenbush J,
Sotiriou C.
PMID: 22262870

【在 A*****n 的大作中提到】
: 首先他们做完PCA之后就不再是完全的随机了,就像上面说的microarray数据一来,直
: 接做个PCA,实际上就能做到很好的效果了。之所以作biomarker的研究就是希望能够用
: 尽量少的基因数实现同样的目的。想象一下有个完美的基因,同时还有100个基因的表
: 达模式和其高度相关,不同的方法会选出这100个里面中间的一个。这个时候,方法没
: 有什么重大缺陷,基因也没有错,每个也都能作为一个很好的biomarker。错的其实就
: 是有些人在希望这个基因有很好分类性能的同时,还希望证明这个特定的基因和机制有
: 关系,这就相当于对biomarker寄予了太高的要求。

b*******n
发帖数: 8420
194
问题是不少clinical的文章就是这一批病人的数据,做出个模型就OK,如果下一批数据
明显不符合的话,这帮MD还可以bullshit一下说是其他原因。。

【在 t*******o 的大作中提到】
: 对已经有的数据来说确实如此,但是对独立的另外一批样本应该就不行了,也就是说基
: 本没啥预测价值。

s******s
发帖数: 13035
195
这是个哲学问题 应该没有

【在 k****o 的大作中提到】
: 不知道把这篇文章的方法用到临床诊断会有什么后果..
s******s
发帖数: 13035
196
数量够多就行
想象一下三维空间里面三个向量 不管某个坐标方向的分量多小
只要他们不线性相关 总能线性组合出三个正交坐标轴 也就是完美预测任何一个三维向量

【在 s******y 的大作中提到】
: 那。。。你的意思是说。。。这个本来就是一个不可能测得很准的问题?或者
: 你的意思是说只要参数数量足够多,最后都能把一些不是紧密相关的参数和
: 结果联系起来?

s******s
发帖数: 13035
197
是呀 所以独立sample的validation最重要啦

【在 t*******o 的大作中提到】
: 你说的这个似乎只能解释对现有结果的regression之类的吧,对未来的预测应该不会那
: 么准吧。就比如说machine learning里面,只要model的复杂度高一些,用100个随机变
: 量大概总能解释50个样本的结果,但是对于独立的另外一批50个样本的结果基本就是错
: 误率超高了。感觉就是个overfitting的问题。。。

f**u
发帖数: 346
198
对于cancer来说,我感觉理论上的predictability应该很高,而randomness很小吧。
所以理论上应该可以从genotype来预测prognosis,具体怎么预测那是另一回事。
如果机理完全明确了,那自然就很容易预测了,
在机理不明的情况下,就算用100个基因,如果预测准确率能很高,也挺好。
关键词是预测,不是解释。
这类模型通常是用一个有限样本来建立的,自然能很好地解释这个样本。
如果不能比较准确的预测下一个样本,那就是白费。

【在 s******s 的大作中提到】
: 就像我前面说的“就算都是100个基因的marker, 这么多dummy variable几乎
: 可以解释到极限了,其他的“未必”能有很大的提高。”
: 举个例子,苹果股票的价格可能40%是predictable的,另外60%是random的。
: 你可以用iphone的销量,android的升级,苹果研发费用等10个参数预测,可能
: 能预测30%。这时周星驰跳出来,用苹果员工领带颜色,裙子长短,非洲人肤色,
: 太平洋大马哈鱼数量,人马座亮度变化等来预测,只要用的参数够多,比如100
: 个,就很可能得到更好的结果,比如35%。这个预测已经离40%够近了,就算股票
: 专家把参数也扩展到100个,也未必能好多少。
:
: predictors

i*e
发帖数: 352
199
预测还是不容易啊
low-hanging fruits 像BRCA1/2这种的
现有的模型都还不能很好的predict risk
基因表达这种比DNA sequences更variable,更难QC的预测模型就更难了

【在 f**u 的大作中提到】
: 对于cancer来说,我感觉理论上的predictability应该很高,而randomness很小吧。
: 所以理论上应该可以从genotype来预测prognosis,具体怎么预测那是另一回事。
: 如果机理完全明确了,那自然就很容易预测了,
: 在机理不明的情况下,就算用100个基因,如果预测准确率能很高,也挺好。
: 关键词是预测,不是解释。
: 这类模型通常是用一个有限样本来建立的,自然能很好地解释这个样本。
: 如果不能比较准确的预测下一个样本,那就是白费。

f**********e
发帖数: 1994
200
Bayesian network

【在 s******s 的大作中提到】
: 这是个哲学问题 应该没有
相关主题
有谁谈谈从零开始学NGS数据分析都需要具备什么知识?Ask a simple question...
关于职业方向选择求教生物信息学问题
可以发一个招人信息吗?machine learning来对GWAS结果建模
进入Biology版参与讨论
f**********e
发帖数: 1994
201
他们有没有做 cross validation? 如果是你说的 overfitting
问题的话 10fold cross Val 还是 bootstrapping 应该能抓出来

【在 s******s 的大作中提到】
: 我没看原文。如果别人只是几个或者十几个marker, 他搞一个100基因marker,
: 那是没啥可比的。就算都是100个基因的marker, 这么多dummy variable几乎
: 可以解释到极限了,其他的“未必”能有很大的提高。

l**********1
发帖数: 5204
202
Oui
please refer Network-based genome-wide association studies (NWAS)
for identifying prognostic gene signatures to predict cancer recurrence.
report on
//www.cse.buffalo.edu/ACM-BCB2010/
by
Ying-Wooi Wan, Swetha Bose, James Denvir, and Nancy Lan Guo
Title:
A Novel Network Model for Molecular Prognosis
Abstracts:
Network-based genome-wide association studies (NWAS) utilize the molecular interactions between genes
and functional pathways in biomarker identification. This study presents a novel network-based
methodology for identifying prognostic gene signatures to predict cancer recurrence.
full text:
//www.hsc.wvu.edu/mbrcc/fs/GuoLab/pdfs/ACMBCB2010_our%20paper.pdf
also please go to
2012 one relative paper:
//www.ncbi.nlm.nih.gov/pubmed/22161328

【在 f**********e 的大作中提到】
: Bayesian network
s******l
发帖数: 125
203
This paper is nothing new except complaining, I rememberer to read a paper (
2010), they already reported that randomly genes have predictive power, but
often not roust. Then they focused on cancer hallmark genes (mechanism-based
?) and get very good results which are better than all others.
yes, I find it:
Nat Commun. 2010 Jul 13;1:34. doi: 10.1038/ncomms1033.
Identification of high-quality cancer prognostic markers and metastasis
network modules.
l**********1
发帖数: 5204
204
RE LS
LZ is not SysBio filed and not family with this field
so just take this Top O floor past as watching broadly just.
Ps:
plus one paper:
Development of a Bayesian Classifier for Breast Cancer Risk Stratification:
A Feasibility Study
Results: Independent predictors of biopsy outcome in the BBN model included personal breast disease
history, breast size, EIS (low vs high risk) and imaging results, and Gail cutoff (5-year risk: <1.66% vs
≥1.66%). Area under the receiver operating characteristic curve and positive predictive value for benign and
malignant biopsy outcomes were 0.88 and 97% and 0.97 and 42%,
//www.decisionq.com/pdfs/decq_clinicaldecisionsupport_casestudy02.pdf

(
but
based

【在 s******l 的大作中提到】
: This paper is nothing new except complaining, I rememberer to read a paper (
: 2010), they already reported that randomly genes have predictive power, but
: often not roust. Then they focused on cancer hallmark genes (mechanism-based
: ?) and get very good results which are better than all others.
: yes, I find it:
: Nat Commun. 2010 Jul 13;1:34. doi: 10.1038/ncomms1033.
: Identification of high-quality cancer prognostic markers and metastasis
: network modules.

s*******2
发帖数: 499
205
我知道。但是有缺陷。

【在 i*e 的大作中提到】
: 我说的是p value multiple testing 的cutoff, alpha值
w*****n
发帖数: 375
206
Google Causal Inference

【在 s******s 的大作中提到】
: 这是个哲学问题 应该没有
z******n
发帖数: 397
207
看了半天没看明白,他到底用的啥统计方法???谁看明白的说一下??
n***a
发帖数: 78
208
我觉得他这个文章指出的是统计学在生物里的的应用的问题。
我觉得他得出这个结论的前提条件就是对biomarker定义的一个误导。
至少我是这样认为的
biomarker首先是要有bio然后才有marker。
biomarker的重要一点就是它要在bio上说的过去。而且biomarker目前也不是用于诊断
,它只是给你一个大方向,让你可以试着有的放矢,尽可能的避免资源浪费,尽可能的
使病人得到最有效的治疗。
单就统计方法来说,biomarker的产生其实就是比较两组数据之间的最大差别。任和已
知方法的目的就是通过各种分类,简化来找出最大区别。说白了就是通过数据优化来达
到分类效果。所以任选任何100个基因可以outperform现有signature的现象一点都不奇
怪。有太多未知的因素可以使跟癌症可能完全不相关的基因产生更明显的差别。如果这
个差别大于你biomarker的差别,你当然会得出好的signature。我觉得这也是为什么好
多更为复杂,先进的数学方法没有应用到生物学的原因。因为没有必要,我们根本不知
道什么方法可以用来准确对生物数据进行简化。如果简单易懂,适合短时间,大批量操
作的方法,没有必要用复杂,局限性更大的方法。因为biomarker的产生重要的不是在
统计这一环。重要的是在如何选取数据,如何分类数据,从而更大程度的保证统计方法
中简化的数据真的是重复的数据。我不是学统计的。所以错误之处请谅解。
所以,一个好的biomarker着重的是生物学上的意义,而不是统计学上的score。 你有
再好的score不能从生物学上解释也不能算biomarker。所以通畅来说,发表一个
biomarker其实不是说我这些基因score有多好,而是说用这些基因来区别这种癌症在生
物学上说得通。这些基因的不同是在现有知识基础上有生物学意义的。比如说特定的
pathway被激活,特定的受体被抑制之类。其实一个biomarker重要的是它背后的这个生
物故事。我觉得。
当然,也存在很多paper为了说故事而说故事。这是在现存条件下不能避免的。所谓的
garbage in garbage out。但这不代表所有的biomarker都不可以相信。
我个人觉得这个paper不被顶级杂志接受是有道理的。不能说作者不懂生物,但我个人
觉得作者有哗众取宠之闲。因为所有我认识的搞biomarker的人都承认你可以fit任何一
组数据来达到更好的结果。但你这个结果是否通得过实验和临床得验证就不一定了。像
paper里说的任选的100个基因,有人会相信这些基因可以推出未知的癌症调控机理吗?
r****t
发帖数: 10904
209
granger causality

【在 k****o 的大作中提到】
: 不知道把这篇文章的方法用到临床诊断会有什么后果..
s******s
发帖数: 13035
210
看不懂。解释一下吧。看上去像是统计里面用了causality,而不是
用统计推导causality

【在 w*****n 的大作中提到】
: Google Causal Inference
相关主题
machine learning来对GWAS结果建模简单介绍 Bioinformatics Tools for NGS 分析
怎样检测一个基因的变异与疾病的关系打听 一下 illumina, life tech 工资
求科普Next Generation SequenceGSEA questions
进入Biology版参与讨论
X******2
发帖数: 5859
211
你这个说法老夫非常赞同。
老夫觉得作者的论证有问题,100个随机挑选的marker
得到的结果优于少数“精心”挑选出来的marker
并不能说明那少数marker没有价值。
老夫曾经由于其它问题研究过在混合高斯模型下,
从高维数据中随机抽取部分特征后的“表达力”问题。
发现这随机抽取的特征只需要满足很弱的协相关
性的假设,那么这些特征的表达能力跟用全部特
征差别不大。具体取决于全部特征本身的表达能
力,以及抽取的特征数量占全部特征数量的比例。
由于这样随机抽取100 个marker以后,其表达能
力跟用全部基因的表达能力差别不大,所以这100
个marker的表达能力就很强了。因此它们会跟“精心”
挑出来的少数基因结果差不多甚至更优越。
当然话说回来,目前的很多相关研究都是有问题
的。自欺欺人地在用统计却不管任何条件和假设,
反正投稿或是写proposal都没有问题,因为关系
的作用太大了,而且裁判很多都是没有严格科学
训练而又自以为是的MD。

【在 s******s 的大作中提到】
: 我没看原文。如果别人只是几个或者十几个marker, 他搞一个100基因marker,
: 那是没啥可比的。就算都是100个基因的marker, 这么多dummy variable几乎
: 可以解释到极限了,其他的“未必”能有很大的提高。

f**********e
发帖数: 1994
212
Causal inference 是个纲领,实际的技术(之一)
就是 Bayesian network. BN 的 structure learning
是很成熟的技术,虽然也有 over fitting 的问题。

【在 s******s 的大作中提到】
: 看不懂。解释一下吧。看上去像是统计里面用了causality,而不是
: 用统计推导causality

l*********s
发帖数: 5409
213
good to know.Intuitively, how and why BN works?

【在 f**********e 的大作中提到】
: Causal inference 是个纲领,实际的技术(之一)
: 就是 Bayesian network. BN 的 structure learning
: 是很成熟的技术,虽然也有 over fitting 的问题。

V***b
发帖数: 3419
214
“其他的组织”也会有这个somatic mutation的。就算没有,这个mutation也不见得是
病因,各个组织的微环境/细胞群很不同。在这个问题上,没有perfect control。

【在 s******y 的大作中提到】
: 可以和自己身上其他组织相比啊。
: 有这么做的。而且已经有人开始这么建数据库了。

V***b
发帖数: 3419
215
transcriptome和proteome的相关性非常差。DNA sequencing几乎100%准确。但是
transcriptome可以提供些epigenetics的信息,DNA却不能。

【在 s******y 的大作中提到】
: transcriptome 的准确度远远比不上白纸黑字的DNA sequence mutation data 吧。
: 而且transcriptome 的可变性太高了,得出来的数据大部分都是垃圾。
: 别的不说,单是这个single cell microarray 的样品源就大有问题,
: 谁知道进去的那个细胞真的就是癌细胞?弄不好是样品里面污染的其他组织细胞
: 或者血细胞什么的,马上就和对照的transcriptome 不一样了。
: 但是单细胞的DNA sequencing 就不一样了,不管什么组织,在没有病变的
: 前提下,绝大部分的DNA sequence 应该都是相同的吧。

V***b
发帖数: 3419
216
这篇文章发PLOS恰如其分。很水。这篇文章挑出来的那些著名的marker其实80%都是
driver;那些所谓随机挑的一些基因80%都是passenger。driver发生变化,乳腺癌了,
然后passenger也跟着变了,然后这几个作者跳出来说:你们看,这两堆基因没什么差
异嘛,都变了。
问题是:driver是有效的药物靶位点,passenger不是。

【在 s******y 的大作中提到】
: 可是如果随便选出来的基因能够比那些发表的基因更准确的话,那么人们干吗
: 还要做研究?
: 所以这里肯定有几个问题,要么就是那个方法本身就是有重大缺陷,
: 要么就是那些发表出来的基因都是错的。

V***b
发帖数: 3419
217
同意这句话。

【在 i*e 的大作中提到】
: 预测还是不容易啊
: low-hanging fruits 像BRCA1/2这种的
: 现有的模型都还不能很好的predict risk
: 基因表达这种比DNA sequences更variable,更难QC的预测模型就更难了

V***b
发帖数: 3419
218
同意。

【在 n***a 的大作中提到】
: 我觉得他这个文章指出的是统计学在生物里的的应用的问题。
: 我觉得他得出这个结论的前提条件就是对biomarker定义的一个误导。
: 至少我是这样认为的
: biomarker首先是要有bio然后才有marker。
: biomarker的重要一点就是它要在bio上说的过去。而且biomarker目前也不是用于诊断
: ,它只是给你一个大方向,让你可以试着有的放矢,尽可能的避免资源浪费,尽可能的
: 使病人得到最有效的治疗。
: 单就统计方法来说,biomarker的产生其实就是比较两组数据之间的最大差别。任和已
: 知方法的目的就是通过各种分类,简化来找出最大区别。说白了就是通过数据优化来达
: 到分类效果。所以任选任何100个基因可以outperform现有signature的现象一点都不奇

f**********e
发帖数: 1994
219
BN 把一个高维联合分布用 acyclic directed graph (DAG) 写成
许多的条件分布。所有的随机变量都是用有向的边连接的,这自然隐含
了因果关系。如果你能准确地知道所有随机变量的联合分布,你自然
可以对这系统进行任何推论。

【在 l*********s 的大作中提到】
: good to know.Intuitively, how and why BN works?
D*a
发帖数: 6830
220
同意这个看法,我觉得他就是给大家提醒下不要瞎胡闹,我觉得他潜在意思应该是,
就算不是任选的100个基因,你们各位发表的据说有生物学效用的基因,又有多少人(
包括你们自己)会相信这些基因可以推出未知的癌症调控机理?

【在 n***a 的大作中提到】
: 我觉得他这个文章指出的是统计学在生物里的的应用的问题。
: 我觉得他得出这个结论的前提条件就是对biomarker定义的一个误导。
: 至少我是这样认为的
: biomarker首先是要有bio然后才有marker。
: biomarker的重要一点就是它要在bio上说的过去。而且biomarker目前也不是用于诊断
: ,它只是给你一个大方向,让你可以试着有的放矢,尽可能的避免资源浪费,尽可能的
: 使病人得到最有效的治疗。
: 单就统计方法来说,biomarker的产生其实就是比较两组数据之间的最大差别。任和已
: 知方法的目的就是通过各种分类,简化来找出最大区别。说白了就是通过数据优化来达
: 到分类效果。所以任选任何100个基因可以outperform现有signature的现象一点都不奇

相关主题
prognostic data也来说说GWAS
基因检测靠谱吗和MD老板谈话,被郁闷了
吵起来了,关于GWASwhat is the connection between linkage disequlibrium and GWAS?
进入Biology版参与讨论
l**********1
发帖数: 5204
221
BN is belong to one
time independently stochastic analysis.
Boolean function to cancer stochastic prediction with Monte-Carlo for Estimation of Hidden Markov Models
details please go to
//ba.stat.cmu.edu/journal/2008/vol03/issue04/issue04.pdf
or
//ba.stat.cmu.edu/journal/2008/vol03/issue04/purutcuoglu.pdf
if anyone whom had interest to Mathematic/Statistic Biology.

【在 f**********e 的大作中提到】
: BN 把一个高维联合分布用 acyclic directed graph (DAG) 写成
: 许多的条件分布。所有的随机变量都是用有向的边连接的,这自然隐含
: 了因果关系。如果你能准确地知道所有随机变量的联合分布,你自然
: 可以对这系统进行任何推论。

l*********s
发帖数: 5409
222
However, knowing conditional probabilities is not the same as know the
causal relationship. a-> b and b-> a are statistically equivalent structures
.I think in the end, the causal relationship can only be established from temporal orders.If you don't have any prior knowledge, no shapshot analysis can help you, including the allmighty BN.

【在 f**********e 的大作中提到】
: BN 把一个高维联合分布用 acyclic directed graph (DAG) 写成
: 许多的条件分布。所有的随机变量都是用有向的边连接的,这自然隐含
: 了因果关系。如果你能准确地知道所有随机变量的联合分布,你自然
: 可以对这系统进行任何推论。

s******s
发帖数: 13035
223
我自己做过structural equation modeling, 也是用有向边连接
的,貌似很容易解释成因果,实际上都不能。不知道这个causality
inference怎么做的,对我来说,无法想想不加其他条件,只靠stat
就能确定因果关系。前面一位也提到了一个causality test, 我wiki
了一下,里面说明其实只是一个hint, 无法证明因果.

【在 f**********e 的大作中提到】
: BN 把一个高维联合分布用 acyclic directed graph (DAG) 写成
: 许多的条件分布。所有的随机变量都是用有向的边连接的,这自然隐含
: 了因果关系。如果你能准确地知道所有随机变量的联合分布,你自然
: 可以对这系统进行任何推论。

f**********e
发帖数: 1994
224
如果没有 prior 的话,A->B 的确和 B->A 是对称的。但你只要对这个体系知道一
点点信息(打破这个对称),因果关系就会在一定程度上确立。
BN 只有在多变量,而且在模型结构有约束时才能用。如果你不加约束的话,你
会发现所有的 complete graph DAG 的 likelihood 都一样好 (overfitting)。 是的,
你得有一些 structural prior。是的,我同意时间资料很重要。BN 还有一个讨厌的
问题:隐变量。如果有一个无法观察的变量 X 在条件独立的情形下影响下面的 10
个变数,看起来就是那 10 个变数彼此纠缠。

structures
temporal orders.If you don't have any prior knowledge, no shapshot analysis
can help you, including the allmighty BN.

【在 l*********s 的大作中提到】
: However, knowing conditional probabilities is not the same as know the
: causal relationship. a-> b and b-> a are statistically equivalent structures
: .I think in the end, the causal relationship can only be established from temporal orders.If you don't have any prior knowledge, no shapshot analysis can help you, including the allmighty BN.

f**********e
发帖数: 1994
225
100% 的空手套白狼的确是不可能的。一组 data 可以存在多个 fit
得很好的 BN。很难解释成因果的原因我认为是模型本身的不确定性。

【在 s******s 的大作中提到】
: 我自己做过structural equation modeling, 也是用有向边连接
: 的,貌似很容易解释成因果,实际上都不能。不知道这个causality
: inference怎么做的,对我来说,无法想想不加其他条件,只靠stat
: 就能确定因果关系。前面一位也提到了一个causality test, 我wiki
: 了一下,里面说明其实只是一个hint, 无法证明因果.

o********r
发帖数: 775
226
Then the mutation is called a "germline" mutation, not a "somatic" mutation.
It is impossible to identify driver mutations from bioinformatics alone
using a single patient.

【在 V***b 的大作中提到】
: “其他的组织”也会有这个somatic mutation的。就算没有,这个mutation也不见得是
: 病因,各个组织的微环境/细胞群很不同。在这个问题上,没有perfect control。

V***b
发帖数: 3419
227
我现在不明白大规模测序之后,拿到一堆数据,和什么去比对?怎样定义“正常组织”
?比如说Steve Jobs的测序结果怎样?如果发现EGFR/PI3K/Ras这些常见突变倒好说(
其实即便这样也很难下定论),最怕就是发现很多突变,却无法将5%,甚至更少的
cancerous mutation,以及各种cancerous mutation组合,从95%的harmless mutation
中分离出来。把Jobs的胰腺癌细胞和他身上正常组织的序列比较,或者跟另一个“健康
人”的序列比较,肯定有非常多的不一样。

mutation.

【在 o********r 的大作中提到】
: Then the mutation is called a "germline" mutation, not a "somatic" mutation.
: It is impossible to identify driver mutations from bioinformatics alone
: using a single patient.

o********r
发帖数: 775
228
For diseases not related to blood, blood cells are a good candidate for
germline sample.
How to use the WGS data is a big issue in this NGS era. One common strategy
used in paired tumor/germline analyses is to compare the mutation spectrum
across multiple patients (from the same cohort or at least same disease type
/subtype) to identify recurrent mutations, which provides leads to wet lab.
If you think bioinformatics alone can give you the definite answer for
driver mutations, probably you will be disappointed. Just like a highly
significant GWAS marker is not necessary a good predictor and not a verdict
for the guilty of nearby genes, I consider bioinformatics as a hypothesis
generator, which give you leads to the solution rather than the definitive
conclusion itself.
Some tumor cells can be dramatically different from the matching germline
samples while others bear very few functional somatic mutations.

mutation

【在 V***b 的大作中提到】
: 我现在不明白大规模测序之后,拿到一堆数据,和什么去比对?怎样定义“正常组织”
: ?比如说Steve Jobs的测序结果怎样?如果发现EGFR/PI3K/Ras这些常见突变倒好说(
: 其实即便这样也很难下定论),最怕就是发现很多突变,却无法将5%,甚至更少的
: cancerous mutation,以及各种cancerous mutation组合,从95%的harmless mutation
: 中分离出来。把Jobs的胰腺癌细胞和他身上正常组织的序列比较,或者跟另一个“健康
: 人”的序列比较,肯定有非常多的不一样。
:
: mutation.

o*****m
发帖数: 981
229
我觉得在你判断别人文章水的时候,是否真正理解了别人的文章?
这篇文章指出在现有的biomarker 研究中,利用survival证明他们找到的biomarkers具
有生物意义这个方法是不正确的。
如果只是用predicting survival就说明这个gene signantures是重要的biomarker的话
。我随便设计一个乱七八糟的实验,找到一组差异基因,然后预测一下survival,就说
我找到的差异基因是有意义的话。那正如曹操所说:不知天下几人称王几人称帝!
另外现在多数研究都是找研究中的差异基因,并不是所谓的driver,这些基因,我相信
多数是passenger gene,而不是driver。 Driver基因可能需要通过mutation,copy
number等去寻找,而现有的gene signantures多数都是differentially expressed
genes。
也就是说你假设的那些driver 根本就是不存在或者很稀少的。
殊不知,多少paper是就拿两种样本比比,找点差异基因,然后找个独立的数据预测一
下,然后忽悠说多么有意义。
真不敢科学竟然如此固执,就像当年哥白尼反对地心说一样。

【在 V***b 的大作中提到】
: 这篇文章发PLOS恰如其分。很水。这篇文章挑出来的那些著名的marker其实80%都是
: driver;那些所谓随机挑的一些基因80%都是passenger。driver发生变化,乳腺癌了,
: 然后passenger也跟着变了,然后这几个作者跳出来说:你们看,这两堆基因没什么差
: 异嘛,都变了。
: 问题是:driver是有效的药物靶位点,passenger不是。

o*****m
发帖数: 981
230
在定义一个biomarker是否是一个好的biomarker时,你首先要达到一定的统计标准,再
去谈生物意义。你连最基本的score都达不到,你后面牵强附会地加上生物意义谁信呢?
按照你的观点,那大家不要做分析了,直接去搜文献,读NCBI-GENE,找和疾病相关的
基因,然后使劲说生物意义,恐怕每个你都能说的很好。但是这样有什么意义呢?
那篇文章并不是说高score就是好的,他恰恰指出的是只是有score是不行的。他所研究
中的那些breast cancer gene signantures哪个不是响当当地具有显著p值?他正驳倒
的是这个p值。你认为有高的score,没有生物意义不行。他说的是有高的score,但这
个score所证明的不是生物意义上的高score,这也是不行的。所以他说的比你的要高。
你没懂,不能说他不对。

所以,一个好的biomarker着重的是生物学上的意义,而不是统计学上的score。 你有
再好的score不能从生物学上解释也不能算biomarker。所以通畅来说,发表一个
biomarker其实不是说我这些基因score有多好,而是说用这些基因来区别这种癌症在生
物学上说得通。这些基因的不同是在现有知识基础上有生物学意义的。比如说特定的
pathway被激活,特定的受体被抑制之类。其实一个biomarker重要的是它背后的这个生
物故事。我觉得。

【在 n***a 的大作中提到】
: 我觉得他这个文章指出的是统计学在生物里的的应用的问题。
: 我觉得他得出这个结论的前提条件就是对biomarker定义的一个误导。
: 至少我是这样认为的
: biomarker首先是要有bio然后才有marker。
: biomarker的重要一点就是它要在bio上说的过去。而且biomarker目前也不是用于诊断
: ,它只是给你一个大方向,让你可以试着有的放矢,尽可能的避免资源浪费,尽可能的
: 使病人得到最有效的治疗。
: 单就统计方法来说,biomarker的产生其实就是比较两组数据之间的最大差别。任和已
: 知方法的目的就是通过各种分类,简化来找出最大区别。说白了就是通过数据优化来达
: 到分类效果。所以任选任何100个基因可以outperform现有signature的现象一点都不奇

相关主题
如果genotyping结果发现一个SNP不符合HWE说明啥?关于职业方向选择
解释一下——今后一二十年的推演可以发一个招人信息吗?
有谁谈谈从零开始学NGS数据分析都需要具备什么知识?Ask a simple question...
进入Biology版参与讨论
o*****m
发帖数: 981
231
我不觉得你完全同意了那个哥们的回复。
但我同意你的观点,这个论文是提醒大家正确地理解统计p值说明的问题。不是说 苹果
比葡萄显著地大就证明苹果比葡萄甜。gene signantures能significantly predictive
survival,也只能说明这些,不能说明gene signantures就是有生物意义的东西。
我也在想,那些发表这些gene signantures的人有几个能真正相信自己的gene
signantures有什么生物意义?如果真信的话,为什么发了paper之后没见几个后续研究
呢,都继续转战到找其他gene signantures了呢?如果真那么有意义,继续开发下去,
岂不是能用于临床和药物,这才是更好的科学。正是因为他们不信,所以,只是发来
paper就算永远和他的biomarker说拜拜了。

【在 D*a 的大作中提到】
: 同意这个看法,我觉得他就是给大家提醒下不要瞎胡闹,我觉得他潜在意思应该是,
: 就算不是任选的100个基因,你们各位发表的据说有生物学效用的基因,又有多少人(
: 包括你们自己)会相信这些基因可以推出未知的癌症调控机理?

1 (共1页)
进入Biology版参与讨论
相关主题
和MD老板谈话,被郁闷了求教生物信息学问题
what is the connection between linkage disequlibrium and GWAS?machine learning来对GWAS结果建模
如果genotyping结果发现一个SNP不符合HWE说明啥?怎样检测一个基因的变异与疾病的关系
解释一下——今后一二十年的推演求科普Next Generation Sequence
有谁谈谈从零开始学NGS数据分析都需要具备什么知识?简单介绍 Bioinformatics Tools for NGS 分析
关于职业方向选择打听 一下 illumina, life tech 工资
可以发一个招人信息吗?GSEA questions
Ask a simple question...prognostic data
相关话题的讨论汇总
话题: cancer话题: gwas话题: genes话题: signatures话题: breast