由买买提看人间百态

boards

本页内容为未名空间相应帖子的节选和存档,一周内的贴子最多显示50字,超过一周显示500字 访问原贴
Biology版 - NGS数据分析的流程
相关主题
Variant Calling 的结果分析求教:如果SNP在dbSNP里找不到怎么办
版上有谁用过或知道Knome这个公司吗?tools to open GFF3 or GVF files
做 Next generation sequencing 这个方向怎么样? (转载)help on a question
Which method is better for copy number variation detection, NGS or microarray?请教一个基因的问题
小白问题,关于 gene/allele nomenclature急问:需要多少内存
生物信息phd 研究方向求意见小白弱问几个术语
怎样检测一个基因的变异与疾病的关系有谁谈谈从零开始学NGS数据分析都需要具备什么知识?
求教生物信息学问题新手请教CNV caller
相关话题的讨论汇总
话题: vcf话题: coverage话题: variant话题: bwa话题: regions
进入Biology版参与讨论
1 (共1页)
v***r
发帖数: 1046
1
关于Genotype calling的,哪位有经验的能否把从公司给的数据文件到最终结果的几个
步骤和文件介绍一下。谢过先。
T****u
发帖数: 424
2
this type of analysis needs training.
several files are not enough to fullfill this task

【在 v***r 的大作中提到】
: 关于Genotype calling的,哪位有经验的能否把从公司给的数据文件到最终结果的几个
: 步骤和文件介绍一下。谢过先。

v***r
发帖数: 1046
3
我只要知道公司给的结果是到哪一步,接下来的主要步骤有哪些就可以了。

【在 T****u 的大作中提到】
: this type of analysis needs training.
: several files are not enough to fullfill this task

l**********1
发帖数: 5204
4
LZ can try
GATK (Broad Institute)
>http://www.broadinstitute.org/gatk/guide/best-practices
Ref:
Nucleic Acids Res. 2014 Jan 11. [Epub ahead of print]
An integrated framework for discovery and genotyping of genomic variants
from high-throughput sequencing experiments.
>http://www.ncbi.nlm.nih.gov/pubmed/24413664

【在 v***r 的大作中提到】
: 关于Genotype calling的,哪位有经验的能否把从公司给的数据文件到最终结果的几个
: 步骤和文件介绍一下。谢过先。

a***e
发帖数: 1010
5
your sample --> company --> FQ or FA file
--> blat or bowtie or Tophat to align --> (.sam, .bam file)
--> Samtools or GATK to call variants --> .vcf file (excel file)
--> igvtools or genome browser to visualize
or it is said u can use CLC to replace the last three steps.
s******y
发帖数: 17729
6
一般仪器出来的结果,你通过那个软件,可以得到bam file
这个基本上买仪器的时候,都会培训,不难,包括上样操作到后面数据的简单分析
但是bam file 往后的分析就不是三两下能搞定的了,要会code才行

【在 v***r 的大作中提到】
: 我只要知道公司给的结果是到哪一步,接下来的主要步骤有哪些就可以了。
v***r
发帖数: 1046
7
就是说公司给的是aligned好的bam文件,接下来不就是用samtools, GATK做snp
calling吗?为什么不是很容易搞定呢?难点在哪?

【在 s******y 的大作中提到】
: 一般仪器出来的结果,你通过那个软件,可以得到bam file
: 这个基本上买仪器的时候,都会培训,不难,包括上样操作到后面数据的简单分析
: 但是bam file 往后的分析就不是三两下能搞定的了,要会code才行

v***r
发帖数: 1046
8
Thanks a lot!
This is very helpful!
Is there toy data that I can play with?

【在 a***e 的大作中提到】
: your sample --> company --> FQ or FA file
: --> blat or bowtie or Tophat to align --> (.sam, .bam file)
: --> Samtools or GATK to call variants --> .vcf file (excel file)
: --> igvtools or genome browser to visualize
: or it is said u can use CLC to replace the last three steps.

v***r
发帖数: 1046
9
haha, thanks.
Ylotkaeuler11 can find answer for every question posted here.

【在 l**********1 的大作中提到】
: LZ can try
: GATK (Broad Institute)
: >http://www.broadinstitute.org/gatk/guide/best-practices
: Ref:
: Nucleic Acids Res. 2014 Jan 11. [Epub ahead of print]
: An integrated framework for discovery and genotyping of genomic variants
: from high-throughput sequencing experiments.
: >http://www.ncbi.nlm.nih.gov/pubmed/24413664

d*******e
发帖数: 1649
10
如果你知道原理,或者自己做过一次的话,确实不算困难。难点在于:
1 这种data一般很大,一般通过服务器端计算而不是本机计算完成的
2 主要软件都是在linux下运行,需要用户有基本操作知识,至少会一点scripting
language
3 真正的困难在于down streaming analysis,即拿到variants call之后怎么办。每个
人的要求不一样,所以并没有统一的标准。如果对于用户到此为止就够了,那也可以。
相关主题
生物信息phd 研究方向求意见求教:如果SNP在dbSNP里找不到怎么办
怎样检测一个基因的变异与疾病的关系tools to open GFF3 or GVF files
求教生物信息学问题help on a question
进入Biology版参与讨论
v***r
发帖数: 1046
11
也就是说,如果我是做下游的分析,拿到vcf files就可以了,上游的那些不用重做或
者调整?

【在 d*******e 的大作中提到】
: 如果你知道原理,或者自己做过一次的话,确实不算困难。难点在于:
: 1 这种data一般很大,一般通过服务器端计算而不是本机计算完成的
: 2 主要软件都是在linux下运行,需要用户有基本操作知识,至少会一点scripting
: language
: 3 真正的困难在于down streaming analysis,即拿到variants call之后怎么办。每个
: 人的要求不一样,所以并没有统一的标准。如果对于用户到此为止就够了,那也可以。

d*******e
发帖数: 1649
12
if you trust the procedure and pipeline, it surely is.
I would suggest using different pipelines to get VCF files and do the
comparison if you can. There were quite a lot difference between methods.
Everybody declared his own method is the best.

【在 v***r 的大作中提到】
: 也就是说,如果我是做下游的分析,拿到vcf files就可以了,上游的那些不用重做或
: 者调整?

W***o
发帖数: 6519
13
其实我觉得主要工作 应该是如何分析VCF,VCF之前的那些步骤高中生都能run,主要学
问在于分析VCF

【在 v***r 的大作中提到】
: 也就是说,如果我是做下游的分析,拿到vcf files就可以了,上游的那些不用重做或
: 者调整?

v***r
发帖数: 1046
14
展开说说,为何分析VCF很重要

【在 W***o 的大作中提到】
: 其实我觉得主要工作 应该是如何分析VCF,VCF之前的那些步骤高中生都能run,主要学
: 问在于分析VCF

s******r
发帖数: 1245
15
怎么分析vcf确实是主要的
不过不同的pipeline出来的vcf都不一样
如果之前有建好的pipeline,参数都定好,能省很多事情,现搭的话还是要optimize一
下的

【在 W***o 的大作中提到】
: 其实我觉得主要工作 应该是如何分析VCF,VCF之前的那些步骤高中生都能run,主要学
: 问在于分析VCF

W***o
发帖数: 6519
16
VCF 数据对于一般的project来说还是太大,需要有一定的方法extract useful inform
ation。我得睡觉了,如果有兴趣明天继续

【在 v***r 的大作中提到】
: 展开说说,为何分析VCF很重要
v***r
发帖数: 1046
17
有兴趣,请继续

inform

【在 W***o 的大作中提到】
: VCF 数据对于一般的project来说还是太大,需要有一定的方法extract useful inform
: ation。我得睡觉了,如果有兴趣明天继续

v***r
发帖数: 1046
18
这正是我担心的,现在手头数据coverage比较低,skycolor君有什么好的建议请不吝赐
教。

【在 s******r 的大作中提到】
: 怎么分析vcf确实是主要的
: 不过不同的pipeline出来的vcf都不一样
: 如果之前有建好的pipeline,参数都定好,能省很多事情,现搭的话还是要optimize一
: 下的

l**********1
发帖数: 5204
19
i have no idea to mouse breeding trouble,
such as posted on the link,
http://www.mitbbs.com/article_t/Biology/31869195.html
those queries should ask mitbbs Mouse Queen 'Dua' or
other IDs..

【在 v***r 的大作中提到】
: haha, thanks.
: Ylotkaeuler11 can find answer for every question posted here.

v***r
发帖数: 1046
20
LOL
Queen of math/comp bio?

【在 l**********1 的大作中提到】
: i have no idea to mouse breeding trouble,
: such as posted on the link,
: http://www.mitbbs.com/article_t/Biology/31869195.html
: those queries should ask mitbbs Mouse Queen 'Dua' or
: other IDs..

相关主题
请教一个基因的问题有谁谈谈从零开始学NGS数据分析都需要具备什么知识?
急问:需要多少内存新手请教CNV caller
小白弱问几个术语NGS(GATK) vs Sanger results
进入Biology版参与讨论
t****d
发帖数: 89
21
coverage低的做什么都不行,你得先保证一定的coverage,才能保证你variant
calling的正确性。

【在 v***r 的大作中提到】
: 这正是我担心的,现在手头数据coverage比较低,skycolor君有什么好的建议请不吝赐
: 教。

t****d
发帖数: 89
22
比方说vcf文件里面的variant的位点属于哪个基因,或者是不是在重要的splicing
site上,这些都需要编程序代码来parse cvf文件来获得

【在 v***r 的大作中提到】
: 展开说说,为何分析VCF很重要
l**********1
发帖数: 5204
23
Plus
To LZ:
just check,
>http://bcbio.wordpress.com/tag/ngs/
cited:
>Access VCF variant information
>In addition to extending the GATK through walkers and annotations you can
also utilize the extensive API directly, taking advantage of parsers and
data structures to handle common file formats. Using Clojure’s Java
interoperability, the variantcontext module provides a high level API to
parse and extract information from VCF files. To loop through a VCF file and
print the location, reference allele and called alleles for each variant we:
Open a VCF source providing access to the underlying file inside a with-open
statement to ensure closing of the resource.
Parse the VCF source, returning an iterator of VariantContext maps for each
variant in the file.
Extract values from the map: the chromosome, start, reference allele and
called alleles for the first genotype.
******
1(use 'bcbio.variation.variantcontext)
2
3(with-open [vcf-source (get-vcf-source "test/data/gatk-calls.vcf")]
4 (doseq [vc (parse-vcf vcf-source)]
5 (println (:chr vc) (:start vc) (:ref-allele vc)
6 (-> vc :genotypes first :alleles)))
*****
or
To further identify causes of discordance, we subdivide the missing and
extra variants using annotations from the GEMINI variation framework:
Low coverage: positions with limited read coverage (4 to 9 reads).
Repetitive: regions identified by RepeatMasker.
Error prone: variants falling in motifs found to induce sequencing errors.
We subdivide and restrict our comparisons to help identify sources of
differences between methods indistinguishable when looking at total
discordant counts. A critical subdivison is comparing SNPs and indels
separately. With lower total counts of indels but higher error rates, each
variant type needs independent visualization. Secondly, it’s crucial to
distinguish between discordance caused by a lack of coverage, and
discordance caused by an actual difference in variant assessment. We
evaluate only in callable regions with 4 or more reads. This low minimum
cutoff provides a valuable evaluation of low coverage regions, which differ
the most between alignment and calling methods.
I’ll use this data to provide recommendations for alignment, post-alignment
preparation and variant calling. In addition to these high level summaries,
the full dataset and summary plots available below providing a starting
place for digging further into the data.
Aligners
We compared two recently released aligners designed to work with longer
reads coming from new sequencing technologies: novoalign (3.00.02) and bwa
mem (0.7.3a). bwa mem identified 1389 additional concordant SNPs and 145
indels not seen with novoalign. 1024 of these missing variants are in
regions where novoalign does not provide sufficient coverage for calling. Of
those, 92% (941) have low coverage with less than 10 reads in the bwa
alignments. Algorithmic changes impact low coverage regions more due to the
decreased evidence and susceptibility to crossing calling coverage
thresholds, so we need extra care and consideration of calls in these
regions.
Our standard workflow uses novoalign based on its stringency in resolving
large insertions and deletions. These results suggest equally good results
using bwa mem, along with improved processing times. One caveat to these
results is that some of the available Illumina call data that feeds into
NIST’s reference genomes comes from a bwa alignment, so some differences
may reflect a bias towards bwa alignment heuristics. Using non-simulated
reference data sets has the advantage of capturing real biological and
process errors, but requires iterative improvement of the reference
materials to avoid this type of potential algorithmic bias.
alternatively LZ can try 'Platypus' n.b. Python based,
>http://www.well.ox.ac.uk/platypus
or
>http://www.well.ox.ac.uk/~rimmer/README.txt
more,
try go to
>http://www-huber.embl.de/users/anders/HTSeq/doc/tour.html
or
>http://pyvcf.readthedocs.org/en/latest/INTRO.html

【在 t****d 的大作中提到】
: 比方说vcf文件里面的variant的位点属于哪个基因,或者是不是在重要的splicing
: site上,这些都需要编程序代码来parse cvf文件来获得

1 (共1页)
进入Biology版参与讨论
相关主题
新手请教CNV caller小白问题,关于 gene/allele nomenclature
NGS(GATK) vs Sanger results生物信息phd 研究方向求意见
next gen sequencing的data analysis需要的统计知识多吗?怎样检测一个基因的变异与疾病的关系
求bioinformatics在NGS或CNV方面的审稿机会求教生物信息学问题
Variant Calling 的结果分析求教:如果SNP在dbSNP里找不到怎么办
版上有谁用过或知道Knome这个公司吗?tools to open GFF3 or GVF files
做 Next generation sequencing 这个方向怎么样? (转载)help on a question
Which method is better for copy number variation detection, NGS or microarray?请教一个基因的问题
相关话题的讨论汇总
话题: vcf话题: coverage话题: variant话题: bwa话题: regions