由买买提看人间百态

topics

全部话题 - 话题: gatk
1 2 下页 末页 (共2页)
g**********y
发帖数: 423
1
来自主题: Biology版 - NGS(GATK) vs Sanger results
Below are two SNPs I obtained for two samples from Exom DNAseq and Sanger.
From Sanger's results, it seems both SNPs are heterozygous, while GATK(v3.2)
call one sample as homozygous.
Does this mean we still need to do filtering based on sequencing depth,
which is hard filtering, then why do we need the machine learning-based soft
filtering?
If we need to do filtering based on sequencing depth, what threshold would
you recommend?
Sample1:GATK Sample2:GATK Sanger for both samples Sample1:IGV Sampl... 阅读全帖
j*p
发帖数: 411
2
来自主题: Biology版 - 贡献一个SNP/Indel calling pipeline
攒人品,顺便回答一下 iiiir 的问题。
我们尝试过好几种不同的SNP calling的方法,包括GATK, Samtools, Varscan,
SeqGenes, 等,并且做了SNP array 作为gold standard比较各种方法的prediction
power。
从我们的经验,BWA + GATK 最好,sensitivity 和 specificity 都在95%以上。
以下是GATK 的pipeline
假设你有一个control 样品C 和一个样本样品A的pair-end sequencing,共4个文件,C
_R1.fastq, C_R2.fastq, A_R1.fastq and A_R2.fastq如何通过BWA/GATK去找样品A中
的SNPs (相对于C)
假设assembly 用的是hg19,你的BWA index 在这里:/bwa/indexes/hg19
Check this website if you have any questions:
http://seqanswers.com/wiki/How-to/exome_analysis
#s... 阅读全帖
j*p
发帖数: 411
3
来自主题: Biology版 - 贡献一个SNP/Indel calling pipeline
攒人品,顺便回答一下 iiiir 的问题。
我们尝试过好几种不同的SNP calling的方法,包括GATK, Samtools, Varscan,
SeqGenes, 等,并且做了SNP array 作为gold standard比较各种方法的prediction
power。
从我们的经验,BWA + GATK 最好,sensitivity 和 specificity 都在95%以上。
以下是GATK 的pipeline
假设你有一个control 样品C 和一个样本样品A的pair-end sequencing,共4个文件,C
_R1.fastq, C_R2.fastq, A_R1.fastq and A_R2.fastq如何通过BWA/GATK去找样品A中
的SNPs (相对于C)
假设assembly 用的是hg19,你的BWA index 在这里:/bwa/indexes/hg19
Check this website if you have any questions:
http://seqanswers.com/wiki/How-to/exome_analysis
#s... 阅读全帖
g**********y
发帖数: 423
4
来自主题: Biology版 - NGS_Illumina类
欢迎讨论,特别是各种程序的调用参数 。。。
http://dl.dropbox.com/u/62547840/NGS_Illumina.pm
http://dl.dropbox.com/u/62547840/NGS_Illumina.pl
screen output:
Illumina 1.3+ fastq format: ASCII(min, max) = (66, 102)
2012/08/25 11:41:15 START maq ill2sanger Run1_testicular-28T_lane2_read1_
sequence.txt Testis_T28_read1_sanger.fq
2012/08/25 11:42:57 SUCCESS after running 0 hours 1 minutes 42 seconds
2012/08/25 11:42:57 START maq ill2sanger Run1_testicular-28T_lane2_read2_
sequence.txt Testis_T28_read2_sanger.fq
2012/08/25... 阅读全帖
u*********1
发帖数: 2518
5
作为一个曾经0基础的菜鸟,我还是蛮有体会的。
想想一年前我连linux里的grep都不晓得是啥。老板说“grep”,我说gre。。啥?greb
吗?老板摇摇头说you really have a lot to learn...不过老板超好,想办法给我把
各种基础的东西讲清楚。。。包括RAM是啥。。汗。。。
做NGS/bioinformatics的,我觉得核心思想还是:如何利用计算机手段解决生物问题。
说起来简单但未必每个人都深刻体会的到。什么python/bash/perl啥啥的,要入门很快
,但也绝对不是什么两个星期就搞定。我现在和python打交道也一年了,但也完全就是
个皮毛,主要是你自己的project决定的。。如果你永远只需要简单的process下你的
text,而且text如果不大比如100MB,你可以永远for line in text。。或者readlines
(),但如果碰到很大的text,就不能readlines()了因为cluster可能没有那么大的
memory to load the whole text.
所以我觉得就是现学现用,除非你是CS系科班搞计算出身... 阅读全帖
W***o
发帖数: 6519
6
I'm running GATK downloaded from Broad Institute, when I run their .jar file
, I got below error. i guess this may be because of the awt headless setting
is wrong? I ran the .jar file on a remote Mac server through SSH, I guess
the program cannot initiate a window (awt swing?), it complains like below.
How can I fix this? - thanks a lot
##### ERROR ----------------------------------------------------------------
--------------------------
##### ERROR A GATK RUNTIME ERROR has occurred (version 2.... 阅读全帖
u*********1
发帖数: 2518
7
还需要知道那个SNP position 位点是不是 在我的新数据里面也是SNP
Don't quite understand. You mean "your new database"(我的新数据) is not SNP-
calling file? Then first use GATK/Samtools to call SNP/indel from "your new
database", then filter against your old database.
If you have no experience using GATK, and in a hurry to get results, I
strongly suggest using Samtools, which is basically just one bash command,
while GATK is monsterous algorithm. Also newest version of GATK is coming
out and all those old scripts may now be ... 阅读全帖
u*********1
发帖数: 2518
8
来自主题: Biology版 - 贡献一个SNP/Indel calling pipeline
你要确定你BWA产生bam file时候使用的ref,和你GATK command里的ref,是同一个
reference;GATK对这个要求很严,尤其不同版本的ref,比如g1k_37和hg19;g1k会包
含一些无法assembly的contig。总之ref里的chromosome的多少,排序都很重要,同时
要注意prefix比如“chr”;20和chr20是不一样的,GATK没办法识别的
u*********1
发帖数: 2518
9
来自主题: Biology版 - 请教有关Broad institute
另外随便说一句
比如做过SNP calling的人都知道GATK,就是Broad搞出来的
GATK是SNP calling的terminator;基本上GATK横扫其他所有的软件,他们把SNP/indel
calling的功能不管是深度(比如各种data clean和error-correction model以保证找
到的SNP是非常可信的)还是宽度(满足各种不同project的需求,功能多样化,比如
haplotype inference或者推广到population level)都做到极致,据说都要开始商业
化,不free了
另外包括sequencing library preparation protocol,data storage/processing等等
, 我感觉基本NGS这一块Broad做了太多原创工作,算是sets up a standard
那为什么Broad可以做到?我相信因为他们有足够的funding做sequencing,大量的来自
哈佛的patient samples,懂得计算工程的coding和data processing的人才,以及横扫
生物/计算/... 阅读全帖

发帖数: 1
10
做一回雷锋
如果你想从raw fastq data到结果,大概两个步骤:
1. raw fastq--bwa--mutation/gene expression
主要是read mapping,把GB level的原始数据BWA mapping得到bam file,然后如果你
的目标是找variants那就用GATK这样的主流软件
1a. 对于你来说,这个步骤里你主要需要学会linux environment,bash,学会用HPCC
来submit job,学会tune BWA/GATK的参数,是很容易的。
1b. 同时你要学会面对big data,都是比如300 million行的数据,处理一个全基因组
需要1TB空间,这个是很可怕的。大数据的storage,transfer都要注意。
1c. 什么BWA/GATK这种复杂算法高级原理C/JAVA的你不需要care
你可以理解这一步就是从海量海量的数据里初步filter出你要的东西,但是粗糙的东西
,不是完整产品
2. gene expression---统计分析/美丽的图图
这个主要是RNA-seq,你tophat之类的得到一堆基... 阅读全帖
u*********1
发帖数: 2518
11
来自主题: Biology版 - 贡献一个SNP/Indel calling pipeline
很感激。我赶紧去对比下你的GATK pipeline和我自己的
但问题是,貌似GATK的website更新了,貌似你的pipeline也是V3的吧。。现在都V4了

,C
u*********1
发帖数: 2518
12
来自主题: Biology版 - 贡献一个SNP/Indel calling pipeline
很感激。我赶紧去对比下你的GATK pipeline和我自己的
但问题是,貌似GATK的website更新了,貌似你的pipeline也是V3的吧。。现在都V4了

,C
s******r
发帖数: 91
13
来自主题: Biology版 - 贡献一个SNP/Indel calling pipeline
请问有lz用过GATK最新的HaplotypeCaller么
GATK自己说这是他们最先进的variants caller
不过我试了下 发现很多genotyps都和我在IGV里看的矛盾

,C
l**********1
发帖数: 5204
14
来自主题: Biology版 - NGS数据分析的流程
LZ can try
GATK (Broad Institute)
>http://www.broadinstitute.org/gatk/guide/best-practices
Ref:
Nucleic Acids Res. 2014 Jan 11. [Epub ahead of print]
An integrated framework for discovery and genotyping of genomic variants
from high-throughput sequencing experiments.
>http://www.ncbi.nlm.nih.gov/pubmed/24413664
l**********1
发帖数: 5204
15
来自主题: Biology版 - NGS数据分析的流程
Plus
To LZ:
just check,
>http://bcbio.wordpress.com/tag/ngs/
cited:
>Access VCF variant information
>In addition to extending the GATK through walkers and annotations you can
also utilize the extensive API directly, taking advantage of parsers and
data structures to handle common file formats. Using Clojure’s Java
interoperability, the variantcontext module provides a high level API to
parse and extract information from VCF files. To loop through a VCF file and
print the location, reference alle... 阅读全帖
r**********e
发帖数: 587
16
来自主题: Biology版 - 高年级PhD毕业求建议
不生气
我只想请教下您说的“算法”以及“web application”,能否举几个例子?
我的体会是bioinformatics怎么是越来越偏向biology,计算无非是个手段。
需要会的:
1,计算基本是linux,python和R;至少入门是挺容易的。很少人写C/java;除非你自
己做GATK一样的软件。如何在high-throuput cluster上跑big data, 如何
parallelization
2,各种NGS各种测序的原理
3,目前主流还是基因组研究,所以各种软件:BLAST/BLAT, bwa/bowtie, samtools,
GATK, Annovar, velvet, 转录组的tophat, cufflinks, RSEM, ChIP-seq的比如MACS,
这些现有软件学会用精就很不易了,大部分人也就是用用这些,你自己去写,写的过
Broad Institute么?写出来也就是junk paper,没有用户群
4,各种public data; UCSC, uniprot, GOterm, ENCODE, 1000Genome,
EpigenomeRo... 阅读全帖
b*******m
发帖数: 3
17
Hiring unit:
Garmire Group (PI starting 09/01/2012, the postdoc position available 09/01
or later) )
University of Hawaii Cancer Research Center
Job description:
Located on the beautiful sea shore of Honolulu, Hawaii, overlooking the
Pacific Ocean, the University of Hawaii Cancer Center (UHCC) is one of only
66 research organizations in the country designated by the National Cancer
Institute. Its mission is to focus on key cancers that impact the multi-
ethic population of Hawaii, as well as wor... 阅读全帖
s****l
发帖数: 10462
18
来自主题: Hardware版 - 急问:需要多少内存
Illumina targeted resequencing 产生比如说100M reads (10Gb data) for one
sample,需要把reads map to human genome (3GB), and use GATK to call variants
需要多少内存(最少要求多少,最好是多少,最多再多了也没有用)?
谢谢
t*****z
发帖数: 1598
19
来自主题: Hardware版 - 急问:需要多少内存
我在MacBook Pro本地上做过类似规模的运算,用Bowtie2,才16GB内存,没问题。至于
多加内存有没有显著效果我就不知道了。
最近有一些benchmark的文章,比如PMID:23758764,24708189。感觉内存不是大问题。
GATK我还没用过,感觉如何?

variants
[发表自未名空间手机版 - m.mitbbs.com]
s****l
发帖数: 10462
20
来自主题: Hardware版 - 急问:需要多少内存
GATK works quite well. But I never need worried memory before because the
cluster setting was a high end one. Now I need budget it, so...
Thanks for your input!

题。
n******7
发帖数: 12463
21
来自主题: Hardware版 - 急问:需要多少内存
你check一下内存使用不就完了
我的印象是GATK需要的资源不多
reads alignment 是高度并行的,你要尽可能多的cores
s****l
发帖数: 10462
22
来自主题: Hardware版 - 急问:需要多少内存
谢谢楼上各位
我其实不是具体跑这个map遇到什么内存的问题,而是我要跟IT部门打交道,想买一个
cluster。狗日的IT部门非要说,你做这个application,应该是什么样的设置的
cluster,每个node要多少内存,他们IT不清楚。否则按高了的设置买,浪费,按低的
设置买,不能用,所以需要做一个测试才能做决定。
所以具体的来说,我想知道的是用Novoalign来map 1M pairs of Illumina 150-bp
reads to human genome的,需要一个什么样的cluster, 我知道具体多少nodes, 取决
于我要run how many samples(假设1000 samples吧 and 1M pairs of reads per
sample),但是每个 node 需要什么样的CPU, 尤其是多少内存,我没有具体的答案给
IT。我说每个32G RAM,他们说要测试,或者要请一个consultant --- tmd,这一个测
试和consultant还不知道要花多少时间和金钱呢。我想要的最好的答案就是有些文献或
者网页给出具体的comput... 阅读全帖
w******y
发帖数: 8040
e*******e
发帖数: 1837
24
You can take a look at the article "Best Practice Variant Detection with the GATK" from the Broad Institute http://www.broadinstitute.org/gsa/wiki/index.php/Best_Practice_Variant_Detection_with_the_GATK_v2#Initial_read_mapping. This should give you some idea about how to proceed.
Honestly, if you have no experience with NGS data analysis and there is nobody to guide you, it could take months before you get anywhere.
Good luck.
m*****i
发帖数: 628
25
来自主题: Biology版 - 请教Bioinformatics职业规划~~~
you are right, maq is too slow
bowtie 不能做 gap alignment. no good.
GATK is one of the main stream tools now. BGI's soap tools are also good.

special
m*****i
发帖数: 628
26
来自主题: Biology版 - 请教Bioinformatics职业规划~~~
bwa is part of GATK
bwa is also written by Heng Li
a comparable tool is SOAP, by Ruiqiang Li

good.
m*****i
发帖数: 628
27
来自主题: Biology版 - 请教Bioinformatics职业规划~~~
GATK is a pipeline, BWA is part of it.
w******y
发帖数: 8040
28
来自主题: Biology版 - 请教Bioinformatics职业规划~~~
GATK is a variant caller. It takes bam file as the input.
You can use whatever aligners to generate the bam file.
As I said above, BWA is the one used in major genome centers for the
illumina platform. For the solid platform, BWA is not the ideal one.
t******r
发帖数: 209
29
作为一个两年经验的说两句
clc: best for 454 data assembling
各中其它open source,如bwa,gatk,galaxy: best for illumina high throuput
t******r
发帖数: 209
30
作为一个两年经验的说两句
clc: best for 454 data assembling
各中其它open source,如bwa,gatk,galaxy: best for illumina high throuput
k*****d
发帖数: 12
31
参观回来汇报一下。
公司不大,一起去的同事数了一下椅子,有30把左右,还有空着的办公桌和椅子。
没有wet lab,一间大办公室加几个小会议室。
可以把你的DNA sample给他们,他们给你找测序公司去测序,我的印象是送到Illumina
还有BGI或者类似的地方。
Alignment和call variants这些步骤就是用open source的软件,比如BWA和GATK。他们
的主要工作是用他们的数据库帮你annotate你的sample的variants,比如是不是已知的
somatic mutation或某个GWAS study里发现的相关SNP,这部分叫knome variant。这个
数据库包括已经报道的variants, 比如cosmic,还有一些文献报道的数据,但他们没有
力量跟踪所有的pubmed的文章。这个数据库和它的客户端的程序都可以卖给你,数据库
是SQLite,就放在local hard disk上,你也可以自己写SQL statement。还有一部分叫
knome pathway,帮助分析你的那些variants有没有集中在某些pathway里。
u*********1
发帖数: 2518
32
来自主题: Biology版 - bioinformatics吐下槽
坦白说对genomics/sequencing技术还是很有兴趣的。也喜欢交叉科学。而且sequencing成本越来越低,越来越多的data要产生。所以我是很看好这一行的。所以本科是读生物的;然后来了美国半路转到bioinformatics。但我觉得很郁闷的是,bioinformatician好像都是在跑别人写好的program。做alignment就是BWA/bowtie;然后call SNP就是GATK/samtools啥的。也就是自学一点bash code来做一些很平常的处理;然后大规模的fastq就写一点简单的python来pre-processing
一点成就感都没有。或者说一点技术含量都没有。感觉人家CS的,学到了技术,学到了那就是自己的;以后用的到。而我们这种随便run个人家写好的program,感觉是个人就可以学会。
另外,我在的这个一般的medical school都没有CS course。我都是自学,觉得很野鸡,一点都不科班。这个破烂bioinformatics program也很一般,很小很新,都没什么人。各位在综合性大学bioinformaticics phd p... 阅读全帖
d*****r
发帖数: 2583
33
来自主题: Biology版 - bioinformatics吐下槽
问题问得很好,可以转给SarahtheFool批阅。。
我的感觉是,这个主要看你的老板是bio background还是CS background的,你跟什么
背景的老板就学到什么东西,bio背景的老板用工具多一些,CS背景的老板主要自己
develop工具和算法。
Sarah以前实验室的工具都是自己C++写的。她好像也没有take什么课,就自己学,但是
他们学校的资源太强大了。应该是整个领域这方面最强的。

sequencing成本越来越低,越来越多的data要产生。所以我是很看好这一行的。所以本
科是读生物的;然后来了美国半路转到bioinformatics。但我觉得很郁闷的是,
bioinformatician好像都是在跑别人写好的program。做alignment就是BWA/bowtie;然
后call SNP就是GATK/samtools啥的。也就是自学一点bash code来做一些很平常的处理
;然后大规模的fastq就写一点简单的python来pre-processing
了那就是自己的;以后用的到。而我们这种随便run个人家写好的program,感觉是个人
就可以学会... 阅读全帖
G***y
发帖数: 1082
34
来自主题: Biology版 - bioinformatics吐下槽
对我来说生物信息是工具不是问题。你现在要想明白的是你自己的兴趣到底在哪边,是
生物还是计算机。
如果你喜欢的是生物,你要找到你感兴趣的,可以用生物信息学方法解决的生物问题,
比如rare SNP对疾病的贡献。
如果你喜欢的是计算机或者算法,你可能要再上一些CS的课程。你的研究方向可以是如
何提高现有的算法,比如如何快速精确的进行whole genome de novo assembly。
这两个方向虽说都归在生物信息下面,但是用到的知识和研究的性质还是有很大区别的。

sequencing成本越来越低,越来越多的data要产生。所以我是很看好这一行的。所以本
科是读生物的;然后来了美国半路转到bioinformatics。但我觉得很郁闷的是,
bioinformatician好像都是在跑别人写好的program。做alignment就是BWA/bowtie;然
后call SNP就是GATK/samtools啥的。也就是自学一点bash code来做一些很平常的处理
;然后大规模的fastq就写一点简单的python来pre-processing
了那就是自己的;以后用的到。而我们这种... 阅读全帖
S**********l
发帖数: 3835
35
来自主题: Biology版 - bioinformatics吐下槽
没关系的。别郁闷了。其实本科毕业,要是学生自己没兴趣的话什么都做不了,不管是
bio还是CS的。自己闲下来的时候提高提高就可以了。

sequencing成本越来越低,越来越多的data要产生。所以我是很看好这一行的。所以本
科是读生物的;然后来了美国半路转到bioinformatics。但我觉得很郁闷的是,
bioinformatician好像都是在跑别人写好的program。做alignment就是BWA/bowtie;然
后call SNP就是GATK/samtools啥的。也就是自学一点bash code来做一些很平常的处理
;然后大规模的fastq就写一点简单的python来pre-processing
了那就是自己的;以后用的到。而我们这种随便run个人家写好的program,感觉是个人
就可以学会。
鸡,一点都不科班。这个破烂bioinformatics program也很一般,很小很新,都没什么
人。各位在综合性大学bioinformaticics phd program的,你们都有上很正规的CS的
course么?还是说CS这个东西,就是自己瞎捣弄就ok了?
摸索。所... 阅读全帖
S*M
发帖数: 10832
36
来自主题: Biology版 - bioinformatics吐下槽
能把别人的算法发扬光大了,也是不错的事情

sequencing成本越来越低,越来越多的data要产生。所以我是很看好这一行的。所以本
科是读生物的;然后来了美国半路转到bioinformatics。但我觉得很郁闷的是,
bioinformatician好像都是在跑别人写好的program。做alignment就是BWA/bowtie;然
后call SNP就是GATK/samtools啥的。也就是自学一点bash code来做一些很平常的处理
;然后大规模的fastq就写一点简单的python来pre-processing
了那就是自己的;以后用的到。而我们这种随便run个人家写好的program,感觉是个人
就可以学会。
鸡,一点都不科班。这个破烂bioinformatics program也很一般,很小很新,都没什么
人。各位在综合性大学bioinformaticics phd program的,你们都有上很正规的CS的
course么?还是说CS这个东西,就是自己瞎捣弄就ok了?
摸索。所以想转到一个established的更好的bioinformatics program;但... 阅读全帖
N******n
发帖数: 3003
37
来自主题: Biology版 - bioinformatics吐下槽
很多生物信息学program或者faculty都是半路出家,水平可想而知。但是,他对个人的
要求很高,起码是EE,CS的本科基础知识,加上生物的课程,当然还有编程和数据库的
经验,没有4-5年,很难。
现在网络的资源很多,都很容易学的到。
至少要统计硕士的课程, cs算法课程,还有,一些sampling method, Bayesian,
optimization....这些是基本的工具。

sequencing成本越来越低,越来越多的data要产生。所以我是很看好这一行的。所以本
科是读生物的;然后来了美国半路转到bioinformatics。但我觉得很郁闷的是,
bioinformatician好像都是在跑别人写好的program。做alignment就是BWA/bowtie;然
后call SNP就是GATK/samtools啥的。也就是自学一点bash code来做一些很平常的处理
;然后大规模的fastq就写一点简单的python来pre-processing
了那就是自己的;以后用的到。而我们这种随便run个人家写好的program,感觉是个人
就可以学会。
鸡,一点都不科... 阅读全帖
t*d
发帖数: 1290
38
来自主题: Biology版 - bioinformatics吐下槽
看你自己适合什么了。和很多其它学科一样,bioinformatics也分理论多一些,和应用
多一些的领域。象物理中理论物理对数学要求高一些,实验物理就比较繁琐一些。
编程那点东西也是很繁琐的,是把别人开发好的成千上万 API,module 拼在一起用一
用。学起来不见得比bioinformatics更清爽。不过cs的应用面广,工作好找,工资也就
高了。
你先需要把自己的目标弄清楚。你是想写出一个大家都喜欢用的程序呢,还是想找出一
些 biomarker,drug targets。有了一个清楚的目标,再去学需要的技术。
写程序也很 boring 的。问问 macs 的作者 Tao Liu,看看每天对付mail-list 上的那
么多问题,不停的找出 bug,debug 一个程序是不是也蛮烦人的。

sequencing成本越来越低,越来越多的data要产生。所以我是很看好这一行的。所以本
科是读生物的;然后来了美国半路转到bioinformatics。但我觉得很郁闷的是,
bioinformatician好像都是在跑别人写好的program。做alignment就是BWA/bowtie;... 阅读全帖
f****b
发帖数: 2410
39
BIOINFORMATICS for Next Generation-Sequencing analysis @ ICBR of University of Florida
RESPONSIBILITIES:
• Provide high level bioinformatics support to molecular biologists
by applying information technology and statistics to genomic and proteomic
projects;
• Evaluate available bioinformatics tools for next generation-
sequencing data and prototype new methods and algorithms to enhance existing
analysis capabilities and pipelines;
• Provide computational support for in... 阅读全帖
b*******m
发帖数: 3
40
【 以下文字转载自 Postdoc 讨论区 】
发信人: bioinform (ngs), 信区: Postdoc
标 题: postdoc position available in bioinformatics
发信站: BBS 未名空间站 (Fri Jul 20 00:44:34 2012, 美东)
Hiring unit:
Garmire Group (PI starting 09/01/2012, the postdoc position available 09/01
or later)
University of Hawaii Cancer Research Center
Job description:
Located on the beautiful sea shore of Honolulu, Hawaii, overlooking the
Pacific Ocean, the University of Hawaii Cancer Center (UHCC) is one of only
66 research organizations in the coun... 阅读全帖
k****x
发帖数: 265
41
来自主题: Biology版 - NGS_Illumina类
bwa
gatk
k******d
发帖数: 76
42
GATK 和samtools可以call SNPs。annovar好像可以比较是否有交集,最简单的是写一
个程序直接比较两个SNP文件
x*****d
发帖数: 704
43
来自主题: Biology版 - 贡献一个SNP/Indel calling pipeline
我用的是Tophat1.4加freebayes。 GATK老是说我的reference有问题。
x*****d
发帖数: 704
44
来自主题: Biology版 - 贡献一个SNP/Indel calling pipeline

看了,这个流程要求pileup.问题是我的样品是100 million PE read. pileup后文件实
在太大了,没有GATK占的空间少.
u*********1
发帖数: 2518
45
这行普通技术性质职位
请问如何定义这个“普通技术”,都包括啥?就是会bwa,gatk啥的么?
coding/computing skill到底需要多高呢?
我觉得如果这么没前景的话,那估计大家都先工作几年,攒够钱,肯定就跳槽了学别的
去了
u*********1
发帖数: 2518
46
来自主题: Biology版 - 该转到computational bio领域吗
上面是我的经历,下面说下我的感想感悟:
1. 永远别怀疑自己的能力;尤其bioinformatics这一行。说白了我到现在也是个大外
行,不懂计算机。但bioinformatics != 计算机,bioinformatics != coding。除非
你做什么algorithm的开发,对coding技术要求很高,不然的话对我们大部分所谓的
bioinformatician,我们都是用人家已经开发好的program,什么BWA,什么GATK;你觉
得你开发的过人家Broad的那群天才吗?相反,我觉得很多CS出身人压根不懂生物或者
医学,他们能做的就是写点什么新的程序,然后证明下自己的计算power比已有的要强
,发个文章,他们也不maintain他们的program,N多bug,也不会有人用他们的program
;在我看来他们就是制造垃圾paper的。所以bioinformatics的本质不是coding,而是
等你有生物医学的问题的时候,你要会用计算机来解决你的生物问题。这才是核心。很
多不懂生物医学的计算背景的人,他们无非是看bio的funding多,钱多人傻来忽悠忽悠
,混口饭吃罢... 阅读全帖
u*********1
发帖数: 2518
47
来自主题: Biology版 - 该转到computational bio领域吗
爱一个人没有理由,不爱一个人可以找出一千条理由。
人家老师不要你或许有很多很多原因,他只是找个借口搪塞下罢了。
可以感觉你的这个老师应该是专门的pure dry lab吧。那么他自然有他自己的
preference
在我看来,很多人把bioinformatics和benchwork彻底划分开,是非常愚蠢的。或许90
年代刚兴起的时候,那时候运算能力低,各种算法软件都没有,而且能做bioinfor的单
位也很少(比如human genome project),所以需要非常专业的计算机人才来做。但现
在完全不同,各种program平台都有了,每个独立的小实验室都有sequencing数据,都
需要相关人才。
bioinform作为新兴的科学,那你可以质问你的老师:你一开始就是做这行的吗? 明显
他也不是。他也是从其他的学科转到bioinfor的,对不对?既然你能做成功,我为什么
不能做成功?我比你年轻,平台更好。所以我最不爽那些倚老卖老或者仗着自己是数理
出身觉得自己很了不起的所谓的bioinformatician
可以预料到未来,我们有很便捷快速的sequencer产生无数的data,非... 阅读全帖
u*********1
发帖数: 2518
48
来自主题: Biology版 - 新手请教CNV caller
SR methods are definitely the most accurate because it provides the exact
breakpoint; but we're not lucky enough to have reads encompassing
breakpoints all the time even for SV in unique region, not to mention those
complex structural variants involving repeats/duplication.
So till now, SV field or even indel calling, I would say still quite messy
with lots of false positives, and whole field is lagging behind compared
with SNP calling.
If you are interested in repeats, please first define "repe... 阅读全帖
l**********1
发帖数: 5204
49
Well said.
... and if you guys want to compare the somatic calls from GATK MuTect and
Illumina's Strelka
plus just go to
NGS Analysis Tools:
File to Download:
http://kimlab.surgery.ucsf.edu/media/5908286/tally_mutect_vs_st
more
RNASeq Tools:
File to Download:
web link:
http://kimlab.surgery.ucsf.edu/matlab-tools.aspx
1 2 下页 末页 (共2页)