由买买提看人间百态

boards

本页内容为未名空间相应帖子的节选和存档,一周内的贴子最多显示50字,超过一周显示500字 访问原贴
Biology版 - 小教程:从基因组数据到功能
相关主题
[求助]RNA-seq data怎么做broad的GSEA分析统计学在系统生物学的作用
请教RNA-Seq分析问题Gene expression数据做GSEA的问题
哪一种onlology analysis tool比较好?detecting GO over/under-representation只有p value和gene symbol做pathway 分析
请教gene ontology/enrichment真心求教:关于CHIP-Seq library 的数据分析问题
Gene Ontology分析一个有关cell enrichment的问题
Gene ontology和GSEA分析是不是糊弄人的啊?什么软件可以分析Chip-seq数据
没有写代码经验,如何进行Gene Ontology/Function ClassficatiGene length bias for ontology analysis.
请教Nanostring结果分析请教microarray的数据分析
相关话题的讨论汇总
话题: 基因话题: 功能话题: david话题: 列表话题: 工具
进入Biology版参与讨论
1 (共1页)
F*****d
发帖数: 23
1
很多朋友拿到芯片或二代测序结果(Microarray, RNA-Seq, ChIP-Seq, etc)后, 第一
个问题通常是“在我的实验中那些变化的基因有什么功能?”其实有很多工具可以解决
这个问题,但大多数生物学家仍需要很多帮助。所以我写了这个简单流程,希望对大家
有帮助。也欢迎高手指正并介绍其它好工具。
英文版链接:
http://goo.gl/ZlprLJ
步骤1 。原始数据分析
大多数时间,你拿到结果时会有基本的分析文件列出所有基因的表达值。
如果你只有原始数据,那么需要用相应软件处理。比如: GCRMA/RMA 分析表达芯片,
Homer/MACS分析 ChIP-Seq, Cufflink/RSEM 分析RNA-Seq.
步骤2。筛选差异表达基因
经常你会看到结果中有Fold Change (或 log Fold Change), P-value, FDR (或
adjusted P-value 或 Q-value). 如果没有,你可以使用limma来分析芯片,用DeSeq,
EdgeR, 或CuffDiff来分析RNA-Seq.
筛选基因时我建议用Fold Change大于2 和FDR小于0.05。你可以调节临界值获得不同数
量的基因。 你可以用Excel 做这一步,或者用更先进的工具比如BxGenomicDB来轻松地
测试不同的筛选条件。
http://goo.gl/ptK899
如果筛选得到很多基因,你可以用变化量(Fold Change)选最显著的基因 (比如
Top100 out of 1000 genes)。 有时Top基因的功能更清楚。
如果筛选得到很少几个基因,可能是变化较小,或者你样品重复不够。先不要放弃,你
可以用一个比较宽松的临界值(FDR< 0.2 ,或只是使用P-value)来找出TOP几十个基
因。 记住你可能需要额外的证据(Array, NGS,或Q- PCR )来验证你的结果。
步骤3。确定功能
这步的基本思路是寻找在你从第二步得到的基因列表中富集的功能类别。富集的意思就
是在你的基因列表中出现频率大大高于背景(通常为基因组中的所有基因)。功能类别
常见的有Gene Ontology(生物过程,分子功能,细胞成分),KEGG通路, INTERPRO蛋
白domain等.
有很多工具来找富集的功能,大概最流行的网上工具是DAVID
http://david.abcc.ncifcrf.gov/
BROAD的 GSEA (http://www.broadinstitute.org/gsea/‎;)近年也很流行,但它目前仅可作为离线工具而且要化些时间熟悉。DAVID比较好用,把你的基因列表拷贝到网上就行。DAVID认得各种ID, 功能类别数据库也很全。从富集分析得到的结果一般是功能根据P-value或FDR排名。这里有一个从基因列表到DAVID分析的逐步流程。
http://goo.gl/OnHouD
如果你的基因列表很长(例如1000个或更多),你可以使用整个列表,但也可试试变化
最大的TOP基因 。 TOP100-300基因有时会给你一个更清晰的画面。如果您的基因列表
是非常小的( 〜10) ,你可能不会得到任何显著的富集功能。尝试步骤2中用
比较宽松的临界值以得到更多的基因(至少30〜50 ) 。
当你有一组很好的数据时,你会看到许多富集功能。但经常很多都是相似的功能重复很
多遍。幸运的是,DAVID有个Functional Annotation Clustering功能自动合并和显示
类似的注解,这使得生物功能更清晰,更集中。我强烈推荐这个工具。http://goo.gl/NpxG7l
最后,介绍了一个我们开发的功能富集在线工具。你只要把基因列表拷贝上就行。这个
工具除了分析常见的功能类别外,还包括GSEA用到的Molecular Signatures Database
(MSigDB)。如果你懒得学GSEA, 这个工具可以把你的基因列表和MSigDB做比较。
http://goo.gl/4AFZRo
l******o
发帖数: 3764
2
竟然没人顶? 让我抢到沙发
虽然不懂 但是一定要赞一下
s**********d
发帖数: 1694
3
顶了慢慢学习~

【在 F*****d 的大作中提到】
: 很多朋友拿到芯片或二代测序结果(Microarray, RNA-Seq, ChIP-Seq, etc)后, 第一
: 个问题通常是“在我的实验中那些变化的基因有什么功能?”其实有很多工具可以解决
: 这个问题,但大多数生物学家仍需要很多帮助。所以我写了这个简单流程,希望对大家
: 有帮助。也欢迎高手指正并介绍其它好工具。
: 英文版链接:
: http://goo.gl/ZlprLJ
: 步骤1 。原始数据分析
: 大多数时间,你拿到结果时会有基本的分析文件列出所有基因的表达值。
: 如果你只有原始数据,那么需要用相应软件处理。比如: GCRMA/RMA 分析表达芯片,
: Homer/MACS分析 ChIP-Seq, Cufflink/RSEM 分析RNA-Seq.

o**********y
发帖数: 334
4
收藏了慢慢看。
g****0
发帖数: 425
5
Zan!

【在 F*****d 的大作中提到】
: 很多朋友拿到芯片或二代测序结果(Microarray, RNA-Seq, ChIP-Seq, etc)后, 第一
: 个问题通常是“在我的实验中那些变化的基因有什么功能?”其实有很多工具可以解决
: 这个问题,但大多数生物学家仍需要很多帮助。所以我写了这个简单流程,希望对大家
: 有帮助。也欢迎高手指正并介绍其它好工具。
: 英文版链接:
: http://goo.gl/ZlprLJ
: 步骤1 。原始数据分析
: 大多数时间,你拿到结果时会有基本的分析文件列出所有基因的表达值。
: 如果你只有原始数据,那么需要用相应软件处理。比如: GCRMA/RMA 分析表达芯片,
: Homer/MACS分析 ChIP-Seq, Cufflink/RSEM 分析RNA-Seq.

z*********8
发帖数: 1203
6
谢谢分享!
p****p
发帖数: 540
7
zan

【在 F*****d 的大作中提到】
: 很多朋友拿到芯片或二代测序结果(Microarray, RNA-Seq, ChIP-Seq, etc)后, 第一
: 个问题通常是“在我的实验中那些变化的基因有什么功能?”其实有很多工具可以解决
: 这个问题,但大多数生物学家仍需要很多帮助。所以我写了这个简单流程,希望对大家
: 有帮助。也欢迎高手指正并介绍其它好工具。
: 英文版链接:
: http://goo.gl/ZlprLJ
: 步骤1 。原始数据分析
: 大多数时间,你拿到结果时会有基本的分析文件列出所有基因的表达值。
: 如果你只有原始数据,那么需要用相应软件处理。比如: GCRMA/RMA 分析表达芯片,
: Homer/MACS分析 ChIP-Seq, Cufflink/RSEM 分析RNA-Seq.

v***a
发帖数: 1242
8
赞!收藏了

【在 F*****d 的大作中提到】
: 很多朋友拿到芯片或二代测序结果(Microarray, RNA-Seq, ChIP-Seq, etc)后, 第一
: 个问题通常是“在我的实验中那些变化的基因有什么功能?”其实有很多工具可以解决
: 这个问题,但大多数生物学家仍需要很多帮助。所以我写了这个简单流程,希望对大家
: 有帮助。也欢迎高手指正并介绍其它好工具。
: 英文版链接:
: http://goo.gl/ZlprLJ
: 步骤1 。原始数据分析
: 大多数时间,你拿到结果时会有基本的分析文件列出所有基因的表达值。
: 如果你只有原始数据,那么需要用相应软件处理。比如: GCRMA/RMA 分析表达芯片,
: Homer/MACS分析 ChIP-Seq, Cufflink/RSEM 分析RNA-Seq.

d***s
发帖数: 1062
9
赞,收藏了~
d***s
发帖数: 1062
10
赞,收藏了~
相关主题
Gene ontology和GSEA分析是不是糊弄人的啊?统计学在系统生物学的作用
没有写代码经验,如何进行Gene Ontology/Function ClassficatiGene expression数据做GSEA的问题
请教Nanostring结果分析只有p value和gene symbol做pathway 分析
进入Biology版参与讨论
l******o
发帖数: 62
11
good thanks
j******n
发帖数: 941
12
这个一定要顶 而且收藏
e******e
发帖数: 17
13
hen hao
l***y
发帖数: 4671
14
顺便问一下 DAVID 的 license 是哪种?没查到。。。NIH 这些年时不时地搞一些封闭
系统出来,跟过去风格变了很多啊。
对了,说到 GSEA,提醒一下同行,注意 Broad 的 license 可能跟你想的很不同。我
们被坑了一次,误以为是 MIT license,以至于重写了很多 codes。
很理解 Broad 这么做的原因,也很好奇他们会不会走出一条新的路来,并且 wish
them the best。但是 Broad 采用的毕竟不是传统学术界的开放风格,大家在使用他们
的数据、软件以及方法时,务必仔细读他们的版权说明,有疑问时最好跟他们确认一下
。不要像我们这样,到了最后才发现自己想当然了。

【在 F*****d 的大作中提到】
: 很多朋友拿到芯片或二代测序结果(Microarray, RNA-Seq, ChIP-Seq, etc)后, 第一
: 个问题通常是“在我的实验中那些变化的基因有什么功能?”其实有很多工具可以解决
: 这个问题,但大多数生物学家仍需要很多帮助。所以我写了这个简单流程,希望对大家
: 有帮助。也欢迎高手指正并介绍其它好工具。
: 英文版链接:
: http://goo.gl/ZlprLJ
: 步骤1 。原始数据分析
: 大多数时间,你拿到结果时会有基本的分析文件列出所有基因的表达值。
: 如果你只有原始数据,那么需要用相应软件处理。比如: GCRMA/RMA 分析表达芯片,
: Homer/MACS分析 ChIP-Seq, Cufflink/RSEM 分析RNA-Seq.

c***y
发帖数: 615
15
如果是罕见物种(基因组go term未知)的功能富集, GSEA可以用吗?

【在 l***y 的大作中提到】
: 顺便问一下 DAVID 的 license 是哪种?没查到。。。NIH 这些年时不时地搞一些封闭
: 系统出来,跟过去风格变了很多啊。
: 对了,说到 GSEA,提醒一下同行,注意 Broad 的 license 可能跟你想的很不同。我
: 们被坑了一次,误以为是 MIT license,以至于重写了很多 codes。
: 很理解 Broad 这么做的原因,也很好奇他们会不会走出一条新的路来,并且 wish
: them the best。但是 Broad 采用的毕竟不是传统学术界的开放风格,大家在使用他们
: 的数据、软件以及方法时,务必仔细读他们的版权说明,有疑问时最好跟他们确认一下
: 。不要像我们这样,到了最后才发现自己想当然了。

l***y
发帖数: 4671
16
GSEA 有两个意思,一个是 GSEA 这个方法本身,另一个是用 Broad 建的 gene sets
以及工具来做分析。
如果你做的数据没有现成的 gene sets,那可能你要自己定义一下了。
我们组平时主要用 GSEA 这个方法,自己定义自己的 gene sets 做分析。

【在 c***y 的大作中提到】
: 如果是罕见物种(基因组go term未知)的功能富集, GSEA可以用吗?
l**********1
发帖数: 5204
17
MADGENE
all official reported genome ID converter tool link:
http://cardioserve.nantes.inserm.fr/madtools/madgene/batch.php
http://cardioserve.nantes.inserm.fr/madtools/madgene/versions.p
might can cover beyond human/mouse/rat
cited from LZ null floor: such as
这个工具可以把你的基因列表和MSigDB做比较。
http://goo.gl/4AFZRo
http://apps.bioinforx.com/bxaf6/tools-functional-enrichment/?sr
>发信人: Farland (一杯茶), 信区: Biology
标 题: 小教程:从基因组数据到功能
发信站: BBS 未名空间站 (Fri Sep 13 16:20:23 2013, 美东)
ignored
这个工具可以把你的基因列表和MSigDB做比较。
http://goo.gl/4AFZRo
more please try
http://idconverter.bioinfo.cnio.es/
or
HTTPS: //sites.google.com/site/compgensite/idconver
hint was from past posters on Bio branch of mitbbs forum:
i,
http://www.weiming.info/zhuti/Biology/31694439/
ii.
http://www.weiming.info/zhuti/Biology/31649343/
iii,
http://www.weiming.info/zhuti/Biology/31734043/
F*****d
发帖数: 23
18
对于非经典的模式生物或罕见物种(基因组go term未知),建议先把ID转为人或其它模
型生物。
lotkaeuler11 推荐的MADGENE值得一试
http://cardioserve.nantes.inserm.fr/madtools/madgene/batch.php
另外有时你也可以就用Gene Symbol(如果你的annotation给基因起名参照了人或小鼠
基因组), 然后告诉DAVID就用人基因组做分析。比如把Chinese Hamster基因的
Symbol用人基因组做分析,大多数基因都有match。

【在 c***y 的大作中提到】
: 如果是罕见物种(基因组go term未知)的功能富集, GSEA可以用吗?
F*****d
发帖数: 23
19
DAVID网上是对所有用户免费。下载版是non-commercial only.
http://david.abcc.ncifcrf.gov/content.jsp?file=Licensing.html
Use of all DAVID web-based tools and web services is free to all users. The
downloads of DAVID Knowledgebase and stand-alone EASE application are free
to academic, government and non-profit users for non-commercial use. Use of
the stand-alone EASE application for commercial use by non-profit and for-
profit entities requires a license agreement.

【在 l***y 的大作中提到】
: 顺便问一下 DAVID 的 license 是哪种?没查到。。。NIH 这些年时不时地搞一些封闭
: 系统出来,跟过去风格变了很多啊。
: 对了,说到 GSEA,提醒一下同行,注意 Broad 的 license 可能跟你想的很不同。我
: 们被坑了一次,误以为是 MIT license,以至于重写了很多 codes。
: 很理解 Broad 这么做的原因,也很好奇他们会不会走出一条新的路来,并且 wish
: them the best。但是 Broad 采用的毕竟不是传统学术界的开放风格,大家在使用他们
: 的数据、软件以及方法时,务必仔细读他们的版权说明,有疑问时最好跟他们确认一下
: 。不要像我们这样,到了最后才发现自己想当然了。

z*********8
发帖数: 1203
20
Hi, have you tried IPA from invitrogen and metacore? It seems that it's easy
to use and fancy to generate nice looking figures but I have no idea how
reliable bioloigcally it is.
相关主题
真心求教:关于CHIP-Seq library 的数据分析问题Gene length bias for ontology analysis.
一个有关cell enrichment的问题请教microarray的数据分析
什么软件可以分析Chip-seq数据How to handle those hypothetical genes in microarray data
进入Biology版参与讨论
l**********1
发帖数: 5204
21
Toppgene might be better than IPA in some case,
http://toppgene.cchmc.org/
or
>ToppGene, which for the first times uses mouse phenotype data as one of the
features for gene >prioritization, greatly improves the human disease
candidate gene analysis and prioritization.
http://anil.cchmc.org/
more pls go to one former post on mitbbs :
http://www.weiming.info/zhuti/Biology/31649343/
its 17th floor

easy

【在 z*********8 的大作中提到】
: Hi, have you tried IPA from invitrogen and metacore? It seems that it's easy
: to use and fancy to generate nice looking figures but I have no idea how
: reliable bioloigcally it is.

l**********1
发帖数: 5204
22
plus capry (IA) can try
Ortholog Conversions
dbOrtho helps users run ortholog conversions where one identifier from one
species can be converted to an identifier in a different species. The input
and output identifer types can be the same or different. Visit our examples
page for a sample query.
web link:
http://biodbnet.abcc.ncifcrf.gov/db/dbOrtho.php
cited from
HTTPS : //sites.google.com/site/compgensite/idconver
bioDBnet Mudunuri U, 2009 Link click here pls.
>

>>

【在 F*****d 的大作中提到】
: 对于非经典的模式生物或罕见物种(基因组go term未知),建议先把ID转为人或其它模
: 型生物。
: lotkaeuler11 推荐的MADGENE值得一试
: http://cardioserve.nantes.inserm.fr/madtools/madgene/batch.php
: 另外有时你也可以就用Gene Symbol(如果你的annotation给基因起名参照了人或小鼠
: 基因组), 然后告诉DAVID就用人基因组做分析。比如把Chinese Hamster基因的
: Symbol用人基因组做分析,大多数基因都有match。

c********e
发帖数: 598
23

除了Broad gene sets, 有additional gene sets repositories 吗?

【在 l***y 的大作中提到】
: GSEA 有两个意思,一个是 GSEA 这个方法本身,另一个是用 Broad 建的 gene sets
: 以及工具来做分析。
: 如果你做的数据没有现成的 gene sets,那可能你要自己定义一下了。
: 我们组平时主要用 GSEA 这个方法,自己定义自己的 gene sets 做分析。

q****k
发帖数: 1023
24
zan!

【在 F*****d 的大作中提到】
: 很多朋友拿到芯片或二代测序结果(Microarray, RNA-Seq, ChIP-Seq, etc)后, 第一
: 个问题通常是“在我的实验中那些变化的基因有什么功能?”其实有很多工具可以解决
: 这个问题,但大多数生物学家仍需要很多帮助。所以我写了这个简单流程,希望对大家
: 有帮助。也欢迎高手指正并介绍其它好工具。
: 英文版链接:
: http://goo.gl/ZlprLJ
: 步骤1 。原始数据分析
: 大多数时间,你拿到结果时会有基本的分析文件列出所有基因的表达值。
: 如果你只有原始数据,那么需要用相应软件处理。比如: GCRMA/RMA 分析表达芯片,
: Homer/MACS分析 ChIP-Seq, Cufflink/RSEM 分析RNA-Seq.

1 (共1页)
进入Biology版参与讨论
相关主题
请教microarray的数据分析Gene Ontology分析
How to handle those hypothetical genes in microarray dataGene ontology和GSEA分析是不是糊弄人的啊?
求推荐gene expression pathway analysis的一些资料没有写代码经验,如何进行Gene Ontology/Function Classficati
推荐一个R package for gene-set/pathway analysis (转载)请教Nanostring结果分析
[求助]RNA-seq data怎么做broad的GSEA分析统计学在系统生物学的作用
请教RNA-Seq分析问题Gene expression数据做GSEA的问题
哪一种onlology analysis tool比较好?detecting GO over/under-representation只有p value和gene symbol做pathway 分析
请教gene ontology/enrichment真心求教:关于CHIP-Seq library 的数据分析问题
相关话题的讨论汇总
话题: 基因话题: 功能话题: david话题: 列表话题: 工具