有谁谈谈从零开始学NGS数据分析都需要具备什么知识？ - Biology版

本页内容为未名空间相应帖子的节选和存档，一周内的贴子最多显示50字，超过一周显示500字访问原贴

Biology版 - 有谁谈谈从零开始学NGS数据分析都需要具备什么知识？

相关主题
● 新手请教CNV caller	● 全基因组数据研究SV/CNV用什么软件
● 版上有谁用过或知道Knome这个公司吗?	● 大家来聊聊CNV，methylation和gene expression的关系
● 请教Bioinformatics职业规划~~~	● 请教neurogenomics职业规划
● bioinformatics吐下槽	● NGS数据分析的流程
● 贡献一个SNP/Indel calling pipeline	● NGS(GATK) vs Sanger results
● 该转到computational bio领域吗	● Which method is better for copy number variation detection, NGS or microarray?
● 请教染色体易位	● 胡乱选的基因比发表出来的“cancer marker”能更准确的预测癌
● Bioinformatics招人提供refer	● 关于职业方向选择

相关话题的讨论汇总
话题: bsdata话题: exprs话题: ngs话题: readlines话题: ylim

进入Biology版参与讨论

(共1页)

f*******a
发帖数: 671

纯生物背景的还需要学什么呢？我看很多软件的，还需要自己学习计算机语言编程，R
什么的吗？

y*****3
发帖数: 961

其实我也想知道

t****a
发帖数: 1212

至少应该学会linux + BWA/samtools系列
学会python/perl + R/bioconductor更好。

d******1
发帖数: 709

linux, python/perl 都挺简单的，2个礼拜应该就够了。BWA/samtools 和 R/
bioconductor是什么？有个简单的介绍么？

【在 t****a 的大作中提到】

: 至少应该学会linux + BWA/samtools系列
: 学会python/perl + R/bioconductor更好。

M*P
发帖数: 6456

合作才是王道。
自己不会，找到会作的合作，并且顺道学习才有机会。

R

【在 f*******a 的大作中提到】

: 纯生物背景的还需要学什么呢？我看很多软件的，还需要自己学习计算机语言编程，R
: 什么的吗？

j*p
发帖数: 411

做几个project,边做边学

k****z
发帖数: 1863

LOL
it seems most people think copy and type some command is 够了

【在 d******1 的大作中提到】

: linux, python/perl 都挺简单的，2个礼拜应该就够了。BWA/samtools 和 R/
: bioconductor是什么？有个简单的介绍么？

f*******a
发帖数: 671

能说说还需要什么呢？统计学的知识？

【在 k****z 的大作中提到】

: LOL
: it seems most people think copy and type some command is 够了

f*******a
发帖数: 671

问题是现在想找一个我们老板信任的合作者很难。我们系其它组有人找过生统的人来作
consulting,合作不是很愉快。搞统计和搞生物的看问题分歧太大吧。我作为学生只是
想如何在短时间内我自己学到的更多。另外我们实验室有专门的programmer,不过你要
高诉他你需要他做什么才行。并且能说出某些方法的优劣吧。

【在 M*P 的大作中提到】

: 合作才是王道。
: 自己不会，找到会作的合作，并且顺道学习才有机会。
:
: R

e*******o
发帖数: 4654

大牛实验室啊。

【在 f*******a 的大作中提到】

: 问题是现在想找一个我们老板信任的合作者很难。我们系其它组有人找过生统的人来作
: consulting,合作不是很愉快。搞统计和搞生物的看问题分歧太大吧。我作为学生只是
: 想如何在短时间内我自己学到的更多。另外我们实验室有专门的programmer,不过你要
: 高诉他你需要他做什么才行。并且能说出某些方法的优劣吧。

相关主题
● 该转到computational bio领域吗	● 全基因组数据研究SV/CNV用什么软件
● 请教染色体易位	● 大家来聊聊CNV，methylation和gene expression的关系
● Bioinformatics招人提供refer	● 请教neurogenomics职业规划
进入Biology版参与讨论

t****a
发帖数: 1212

2个礼拜？您老是天才，咱们一般人没办法那么快学会。
linux
想当年我从windows往linux上move用了半年/一年，况且我还是developer出身的。不是
说光学个login，mkdir之类就算linux哈，那样的干不了活。最起码学个vi or emacs编
辑文本，awk/sed处理txt/csv，再学点进程管理，后台任务什么的吧。
programming language
也没那么容易，况且还不是全脱产的学。不是说能写个helloworld就算学会了的。我自
个程序设计语言学了十几种了，要我再学一门语言并且用来干活，没有几个礼拜恐怕我
也干不成，真正到熟练语言特性，各种常用library，我至少得用上一年以上时间。
BWA/samtools是做基本的alignment/pileup之类，R/Bioconductor是用来做后期的统计
/数据分析/绘图。
详细的自个去google。

【在 d******1 的大作中提到】

: linux, python/perl 都挺简单的，2个礼拜应该就够了。BWA/samtools 和 R/
: bioconductor是什么？有个简单的介绍么？

l**********1
发帖数: 5204

RE: LZ
>有谁谈谈从零开始学NGS数据分析都需要具备什么知识？
为了通俗点各个阶段以古典交响乐的乐章编排作比方:
第一乐章 Sinfonia
please go to online lecture of Univ of Washington
its web link:
http://faculty.washington.edu/kenrice/sisg/
>
********************************************
Module 2: Computing for Statistical Genetics
Instructors: Thomas Lumley and Ken Rice
then if you want to save time for readind
just jump to below chapter:
Session 7; Handling Large Datasets
the free download that power point file (now already converted to PDF format)
from link:
http://faculty.washington.edu/kenrice/sisg/sisg-sea12-07.pdf

【在 f*******a 的大作中提到】

: 能说说还需要什么呢？统计学的知识？

K****n
发帖数: 5970

一个比一个能添乱啊你们

l**********1
发帖数: 5204

RE LS, Not at all.
To 楼主
第二乐章 Andante
如看不懂以下的捷克2011 的学士学位论文的 Illumina assay 数据数理的 90% 的内容
那为了保险起见千万不要进入第三乐章等以后的乐章不然那是大脑一团浆糊喽
One Bachelor's thesis of Masaryk University Czezh
title:
Evaluation of data from high-throughput sequencing
By Jan Oppelt
17. 6. 2011, the thesis was defended successfully.
Abstracts web link:
http://is.muni.cz/th/323639/prif_b/?jazyk=en;info
and full text PDF link:
http://is.muni.cz/th/323639/prif_b/thesis.pdf
Then 第三乐章 Allegro
please go to Univ of Edinburgh 2011 one PhD dissertation:
Title: Genome wide gene expression analysis of two ENU mouse models of
major mental illness
Authors: Brown, Sarah Mills
Brown2011.pdf 4.99 MB Adobe PDF
web link:
http://www.era.lib.ed.ac.uk/handle/1842/5541

【在 K****n 的大作中提到】

: 一个比一个能添乱啊你们

l**********1
发帖数: 5204

Continue:
第四乐章 Finale
找有关的PhD dissertation 里边的 R source code program
while U can debug it or even rewrite it for another task,
then you already masted NGS coding skills.
比如
http://www.dspace.cam.ac.uk/handle/1810/218542
DSpace at Cambridge
title: Genome-wide analyses using bead-based microarrays
Authors: Dunning, Mark J
Issue Date: 4-Sep-2008
Files in This Item:
File Description Size Format
dunning_thesis_.pdf 10.47 MB Adobe PDF
its Appendix B
R source Code for Chapter 4 illumina ChIP array
This chapter contains the R code required for the analysis of the BioC07
dataset in Chapter 4 (Preliminary Investigation into low-level Illumina data)
and assumes that the beadarray has been installed and le SAMExample.zip
downloaded into the current R working directory. These commands are intended
to give a guide to how the gures and data referred to in the chapter
were generated. Therefore to save space, some of the graphical options (e.g.
colours and labels of plots have been omitted.
First we load the package and read the bead level data
library(beadarray)
targets = read.table("targets.txt", sep="\t", header=TRUE, as.is=TRUE)
BLData = readIllumina(arrayNames=targets$arrayID, textType=".csv",
+ targets=targets, backgroundMethod="none")
BLData.bc = backgroundCorrect(BLData)
an=arrayNames(BLData)
Boxplots of the foreground, background and background corrected intensities
can be generated as follows
##Boxplots of foreground and background
ylim = c(4,16)
par(mfrow=c(1,3))
boxplotBeads(BLData,ylim=ylim)
boxplotBeads(BLData,ylim=ylim)
boxplotBeads(BLData.bc,ylim=ylim)
Now generating imageplots and plots of outlier locations
par(mfrow=c(2,5))
zlim = c(6,16)
for(i in 1:10){
imageplot(BLData.bc, array=i, nrow=50, ncol=50, high="red", low="yellow")
}
##Plot outlier locations for 3 arrays with apparent spatial aretefacts
par(mfrow=c(1,3))
for(i in c(1,3,6)){
o=findAllOutliers(BLData.bc, array=i)
plotBeadLocations(BLData.bc, array=i, BeadIDs=o,SAM=TRUE)
}
##Calculate number of outliers
outliers = NULL
for(i in 1:10) {
outliers[i] = length(findAllOutliers(BLData.bc, array=i))
}
outliers/numBeads(BLData)*100
Now create bead summary data, which uses the default method of Illumina,
and make boxplots of expression values and number of beads.
BSData = createBeadSummaryData(BLData, imagesPerArray=1)
##Boxplots of expression values and number of beads
par(mfrow=c(1,2))
boxplot(as.data.frame(log2(exprs((BSData)))))
boxplot(as.data.frame(NoBeads(BSData)[-1265,]))
par(mfrow=c(2,3))
plotMA(exprs(BSData), 1,2)
plotMA(exprs(BSData), 1,3)
plotMA(exprs(BSData), 2,3)
plotMA(exprs(BSData),6,7)
plotMA(exprs(BSData),6,8)
plotMA(exprs(BSData),7,8)
##Correlations between replicates
cor(exprs(BSData))
A simple DE analysis after applying a quantile normalisation on log2
transformed data. We will t two linear models using limma; the rst model
to all 10 arrays and the second with Array 1 removed. The eect on the
volcano plot can be used to judge the dierence of removing the array.
normData = normaliseIllumina(BSData,transform="log2")
design = matrix(nrow=10, ncol=2,0)
design[1:5,1]=1
design[6:10,2]=1
colnames(design) = LETTERS[1:2]
fit = lmFit(exprs(normData), design)
contrast = makeContrasts(AvsB = A -B, levels=design)
AvsB = contrasts.fit(fit,contrast)
ebFit = eBayes(AvsB)
fit2 = lmFit(exprs(normData)[,-1], design[-1,])
AvsB2 = contrasts.fit(fit2, contrast)
ebFit2 = eBayes(AvsB2)
par(mfrow=c(1,2))
volcanoplot(ebFit)
volcanoplot(ebFit2)
----

f*******a
发帖数: 671

多谢这位大虾,我得回头仔细看看.

【在 l**********1 的大作中提到】

: Continue:
: 第四乐章 Finale
: 找有关的PhD dissertation 里边的 R source code program
: while U can debug it or even rewrite it for another task,
: then you already masted NGS coding skills.
: 比如
: http://www.dspace.cam.ac.uk/handle/1810/218542
: DSpace at Cambridge
: title: Genome-wide analyses using bead-based microarrays
: Authors: Dunning, Mark J

f*******a
发帖数: 671

我老板很牛,不过我一点都不牛,应该也没有机会变牛

【在 e*******o 的大作中提到】

:
: 大牛实验室啊。

s******s
发帖数: 13035

我不是搞这行的，说了大家别信，呵呵
其实，只是想分析一下RNAseq，ChIPseq的data，不搞太复杂的东西，
比如算法，RNA editing等等，前面的linux/python/perl/BWA/samtools
都不用学，只要学会excel和R作图就行了。
galaxy.psu.edu

【在 d******1 的大作中提到】

: linux, python/perl 都挺简单的，2个礼拜应该就够了。BWA/samtools 和 R/
: bioconductor是什么？有个简单的介绍么？

f*******a
发帖数: 671

哈哈，我也想把R学好。

【在 s******s 的大作中提到】

: 我不是搞这行的，说了大家别信，呵呵
: 其实，只是想分析一下RNAseq，ChIPseq的data，不搞太复杂的东西，
: 比如算法，RNA editing等等，前面的linux/python/perl/BWA/samtools
: 都不用学，只要学会excel和R作图就行了。
: galaxy.psu.edu

l**********1
发帖数: 5204

Here you go
One Book
'R graphics'
by Murrell P.
Chapamn &Hall/CRC (2006)
PDF format E-book free download link:
http://e-reading.by/bookreader.php/137370/C486x_APPa.pdf
file size: about 4 MB
>【在 fairydina (fairydina) 的大作中提到: 】
>>

相关主题
● NGS数据分析的流程	● 胡乱选的基因比发表出来的“cancer marker”能更准确的预测癌
● NGS(GATK) vs Sanger results	● 关于职业方向选择
● Which method is better for copy number variation detection, NGS or microarray?	● 可以发一个招人信息吗?
进入Biology版参与讨论

f*******a
发帖数: 671

十分感谢！

【在 l**********1 的大作中提到】

: Here you go
: One Book
: 'R graphics'
: by Murrell P.
: Chapamn &Hall/CRC (2006)
: PDF format E-book free download link:
: http://e-reading.by/bookreader.php/137370/C486x_APPa.pdf
: file size: about 4 MB
: >【在 fairydina (fairydina) 的大作中提到: 】
: >>

l**********1
发帖数: 5204

De rein.

【在 f*******a 的大作中提到】

: 十分感谢！

f*******a
发帖数: 671

赞你的头像。

【在 l**********1 的大作中提到】

: De rein.

u*********1
发帖数: 2518

作为一个曾经0基础的菜鸟，我还是蛮有体会的。
想想一年前我连linux里的grep都不晓得是啥。老板说“grep”，我说gre。。啥？greb
吗？老板摇摇头说you really have a lot to learn...不过老板超好，想办法给我把
各种基础的东西讲清楚。。。包括RAM是啥。。汗。。。
做NGS/bioinformatics的，我觉得核心思想还是：如何利用计算机手段解决生物问题。
说起来简单但未必每个人都深刻体会的到。什么python/bash/perl啥啥的，要入门很快
，但也绝对不是什么两个星期就搞定。我现在和python打交道也一年了，但也完全就是
个皮毛，主要是你自己的project决定的。。如果你永远只需要简单的process下你的
text，而且text如果不大比如100MB，你可以永远for line in text。。或者readlines
（），但如果碰到很大的text，就不能readlines（）了因为cluster可能没有那么大的
memory to load the whole text.
所以我觉得就是现学现用，除非你是CS系科班搞计算出身的；而我们biologist出身的
，遇到问题就赶紧去google，自己摸索，解决问题的同时学到一些计算的概念内容就很
好了。当然你遇到的问题越多，经验就越多，收获的计算知识也越多。当然这也让人感
觉我们完全是鸟枪法打枪一样，没有系统科班的数学计算的训练，总感觉心里很心虚。
但你要说花固定的时间去读cs course，python 课程啥的，我看两页就要睡着了。。。
。你也没这么多的时间的。
说到BWA/Bowtie，敢问多少人可以立刻说出Burrow-Wheeler Alignment的原理的？和其
他的hash-based的algorithm有什么本质区别？优势劣势在哪里？Bowtie和BWA有什么区
别？最新版本的Bowtie/BWA有什么新的功能？。。。。。光是read mapping这一项，就
要延伸出很多很多东西，全基因组的short gun sequencing read是follow poisson
distribution的（所以对于whole genome我们可以通过read depth来寻找CNV，而对
exome绝对不行），我开始我连poisson distribution都不熟悉。。。还有什么smith-
waterman algorithm也要去弄清楚吧？BWA和bowtie在mapping的时候遇到mismatch和
indel怎么处理？是如何score的？如果遇到multiple location又是如何处理的？。。
。。。bam file里的那些CIGAR啊flag啊是不是都搞清楚了？我觉得我们能搞清楚这些
东西然后能灵活运用到自己的research里就很难了。。。不是每个人都有heng li的能
耐。。
mapping完了就是SNP/indel calling了，主要是samtools/GATK。。。。。敢问多少人
是真正清楚GATK里面的各种statistical model的？GATK group不断在更新版本，为了
增加calling的sensitivity/specificity，能keep up他们的节奏就很难了。。。别说
搞清楚GATK的原理，我觉得初学者能把GATK documentation耐心的看完，找到optimal
的pipeline就很难了吧。。。GATK is so monsterous....这还只是SNP/indel。。。。
large indel/CNV/structural variation到现在都还是一个challenge，如果对这个有
兴趣，还要用更小众的软件，这完全又是另外一个领域。。。
各种variation找到了，下面就是annotation了。。SNP在哪里？是不是nonsysnonymous
的？要用annovar；但这个时候就要遇到很多database的问题了吧。。比如exome
database，TF-binding sites database；exome database就有好多版本（UCSC，
refseq，ensembl。。。）有什么区别？你要filter SNP，可能要用
dbsnp，1000genome，nhlbiESP等等各种database。。。这些东西都要选择的，也要
keep up的，毕竟都是在变。。。别的不说，把1000genome project那些东西认真阅读
清楚都很难的吧？刚出来的ENCODE估计大家读起来也不容易吧。。。毕竟规模太大内容
细节太多。。。
BWA和GATK还是NNNNNNNNN多人用的主流软件，很多人用网上很容易找pipeline，也很多
人提bug，迫使作者要不断更新维护，越来越好用。而其实往往自己如果是做更小众的
研究，需要跑不怎么常用的program；而且尤其面对NGS这种大型的数据，如何提高速度
，submit job，降低空间占有量等等，这都是要动脑筋的。而很多时候program有bug，
就要联系author。。。总之要花很多时间来摸索。。。
如果你是做什么disease的association study啊GWAS啥的，这又是一个另外的行当；要
读很多paper了解GWAS的进展吧？GWAS有什么缺陷？missing heritability是什么？这
里面有无数的各种statistics和modification；很多人做collapsing method的，很多
人做的更fancy要考虑epistasis的等等。。。
我作为一个菜鸟，花了很多时间在computational skill和“run established program
”上面；这就是“做饭”，不管有没有基础你总是要把这顿饭做下去的；做的好不好吃
厨艺如何，你对烹饪技术食物选择是否有深刻的理解都再说。program不
work就要debug找原因，如何调节parameter to achieve optimal performance...但其
实这是最最最最最基础的。。。而在看这些program的原理的时候就可以读到很多
computer science的算法啊等等的东西，然后就可以去了解一下
我上面说的还是站在前人巨人的肩膀上。。。。当只有自己对这些非常非常熟悉了，然
后再找一个小的窗口可以创新----比如写自己的新的program。。。这个时候或许就对
coding的技术要求很高了。。。
还忘记说最最最重要的，还是project的biology啦。。。。所以大量的时间要放在读
paper方面。。一个是biology/medicine的paper，一个是computational biology方法
学的paper，比如谁又有新的algorithm啦更好的program啦，这都是需要关注的。。。
。其实这方面就占用了大量的时间。。。。
总结一下：
1. NGS/bioinformatics的方面，很多东西比如program啊model啊思路啊，前人已经建
立好了。我们首先要做的就是学好“历史”，看看前人做了什么。
2. 作为菜鸟新人，先赶紧上手，能上多少就上多少，把别人写的program run起来，这
样自己也增加自信心。
3. 更重要的是：run program的时候，要增加对整个原理的理解，这样才可能灵活调节
参数。。我觉得这个真的很重要。。如果对背后的algorithm完全不懂，那我直接找个
清洁工大妈都可以了，反正type in几个command就可以了。。。比如hidden markov
model。。很多都用这个。一方面要从数学上理解，另外一方面要多找点生物里的
example多多思考。
4. 最最最重要的，还是biology。自己的biology question是什么？说白了我们无非是
用计算机做实验罢了。。。所以找那种专门的programmer未必是好事，因为那不是他的
project，他可能完全不懂你的biology，而且交流的问题，你也未必能表达清楚你到底
要做什么。所以趁着年轻，生物，医学，数学，计算机都要学都要懂。所以一般
bioinformatics的phd，都有俩老板，一个做生物的提供数据平台，一个做计算的负责
计算指导。
5.在保证bioinformatics project很好的前提下，多多提高自己的computational
skill。。。比如优化各种程序啦。。学不同的语言啦。。当然了，对我来说很重要的
是，以后biology做不下去，还有一个能做码工的机会。。。。哈哈。。。只是不管做
什么，要为自己而做才有动力，都为别人做嫁衣裳其实蛮不开心的。
本菜鸟打了这么多。。。希望对其他的菜鸟有用。
希望高手多指点
尤其是computational skill怎么提高。。。。毕竟不是科班出身，而且很多时间花在
biology上。。。所以水平远远达不到做码工的水平呀。。

R

【在 f*******a 的大作中提到】

: 纯生物背景的还需要学什么呢？我看很多软件的，还需要自己学习计算机语言编程，R
: 什么的吗？

f*******a
发帖数: 671

哈哈，你说的这些我都不知道。从零开始学这么多挺厉害的。我们主要做differential
expression. 据说Facility会把mapping 和 reads都给我门。所以我们主要是后期的
分析。因为之前我们一直是microarray, sequencing对我们来说太陌生。

greb
readlines

【在 u*********1 的大作中提到】

: 作为一个曾经0基础的菜鸟，我还是蛮有体会的。
: 想想一年前我连linux里的grep都不晓得是啥。老板说“grep”，我说gre。。啥？greb
: 吗？老板摇摇头说you really have a lot to learn...不过老板超好，想办法给我把
: 各种基础的东西讲清楚。。。包括RAM是啥。。汗。。。
: 做NGS/bioinformatics的，我觉得核心思想还是：如何利用计算机手段解决生物问题。
: 说起来简单但未必每个人都深刻体会的到。什么python/bash/perl啥啥的，要入门很快
: ，但也绝对不是什么两个星期就搞定。我现在和python打交道也一年了，但也完全就是
: 个皮毛，主要是你自己的project决定的。。如果你永远只需要简单的process下你的
: text，而且text如果不大比如100MB，你可以永远for line in text。。或者readlines
: （），但如果碰到很大的text，就不能readlines（）了因为cluster可能没有那么大的

j*p
发帖数: 411

very well said.

greb
readlines

【在 u*********1 的大作中提到】

s***o
发帖数: 11

写的真好。
我在国内学过一段生物信息，至少自己动手算过smith-waterman alighment，呵呵。
但工作后自己生物信息用的少了，很多工作交给公司或者做计算的学生去做了。然后现
在来美国一个作bioinformatics的实验室从头开始学习transcriptome analysis，才做
了20多天，依然一头雾水，有你分享的这段经历，有信心多了。
而且和你有相同的体会，的确需要一个人，既懂一些计算，也懂一些生物，这样才能更
好更深刻的理解你所分析的东西。dry lab和wet lab结合的再好的地方，两个人毕竟是
两个人。
我也是抱着这样的目的，三十多了，还跑过米国学习生物信息。以前的项目看不懂公司
的分析结果，或者说只看懂了他们给我们看的哪些东西，不知道具体处理细节，结果找
出来SNV验证结果很不理想。

greb
readlines

【在 u*********1 的大作中提到】

n******7
发帖数: 12463

他明显是无知无畏了
我感觉linux/programming都是要用出来的，光看书没什么用
特别linux，我还真不知道要怎么学，都是慢慢用慢慢积累，没办法速成

【在 t****a 的大作中提到】

: 2个礼拜？您老是天才，咱们一般人没办法那么快学会。
: linux
: 想当年我从windows往linux上move用了半年/一年，况且我还是developer出身的。不是
: 说光学个login，mkdir之类就算linux哈，那样的干不了活。最起码学个vi or emacs编
: 辑文本，awk/sed处理txt/csv，再学点进程管理，后台任务什么的吧。
: programming language
: 也没那么容易，况且还不是全脱产的学。不是说能写个helloworld就算学会了的。我自
: 个程序设计语言学了十几种了，要我再学一门语言并且用来干活，没有几个礼拜恐怕我
: 也干不成，真正到熟练语言特性，各种常用library，我至少得用上一年以上时间。
: BWA/samtools是做基本的alignment/pileup之类，R/Bioconductor是用来做后期的统计

n******7
发帖数: 12463

写得真好，应该M

greb
readlines

【在 u*********1 的大作中提到】

u*********1
发帖数: 2518

是啊。别的不说，光是sed和awk，能用的很娴熟我就非常非常非常万般佩服了
光是这两个的用法，人家就写一本书了
俺也就是根据自己的需要摸索一下几个简单的套路；要碰到很复杂的计算，也要google
或者干脆用python了

【在 n******7 的大作中提到】

: 他明显是无知无畏了
: 我感觉linux/programming都是要用出来的，光看书没什么用
: 特别linux，我还真不知道要怎么学，都是慢慢用慢慢积累，没办法速成

相关主题
● 【包子求助】call SNPs 有哪些工具？？	● 版上有谁用过或知道Knome这个公司吗?
● 请教一个统计学问题，需要多少个SNPs去鉴定一个人	● 请教Bioinformatics职业规划~~~
● 新手请教CNV caller	● bioinformatics吐下槽
进入Biology版参与讨论

n******7
发帖数: 12463

这两个以前也学过，后来觉得复杂的例子还不如直接写脚本来得快了，也就只记得一些
初级用法了。 ChinaUnix shell版有些牛人，经常写的我看不懂...
不过术业有专攻，做bioinfo的能多快好省的完成分析就好。

google

【在 u*********1 的大作中提到】

: 是啊。别的不说，光是sed和awk，能用的很娴熟我就非常非常非常万般佩服了
: 光是这两个的用法，人家就写一本书了
: 俺也就是根据自己的需要摸索一下几个简单的套路；要碰到很复杂的计算，也要google
: 或者干脆用python了

e*******o
发帖数: 4654

http://www.homolog.us/blogs/2012/08/16/where-are-innovative-ngs

【在 s***o 的大作中提到】

: 写的真好。
: 我在国内学过一段生物信息，至少自己动手算过smith-waterman alighment，呵呵。
: 但工作后自己生物信息用的少了，很多工作交给公司或者做计算的学生去做了。然后现
: 在来美国一个作bioinformatics的实验室从头开始学习transcriptome analysis，才做
: 了20多天，依然一头雾水，有你分享的这段经历，有信心多了。
: 而且和你有相同的体会，的确需要一个人，既懂一些计算，也懂一些生物，这样才能更
: 好更深刻的理解你所分析的东西。dry lab和wet lab结合的再好的地方，两个人毕竟是
: 两个人。
: 我也是抱着这样的目的，三十多了，还跑过米国学习生物信息。以前的项目看不懂公司
: 的分析结果，或者说只看懂了他们给我们看的哪些东西，不知道具体处理细节，结果找

d******1
发帖数: 709

无知无畏? 这也太损人了吧，：）
linux作为和windows竞争的通用系统，虽然现在桌面版本的竞争力越来越弱，但还是有
不少人有过一段时间只用linux的经验（深受free software的毒害）。当然如果讨论
到linux内核深度编译，10台以上linux cluster maintenance，那是需要一段时间，不
过一般NGS分析也用不到。
python作为一种面向对象的高级语言，本来就比vc, vb，汇编等需要编译的语言容易上
手，两个礼拜熟悉一下，上上手，有什么难度的？有同学就直接转码工，但那么无聊的
工作，也不是每个人都喜欢。
NGS数据分析的困难主要是太新了，不仅概念没有一个全的，连一个流程图都没有。
university1就总结的非常好，至少给个流程，有个方向
echowuhao 提供的link也很有用
谢谢！

【在 n******7 的大作中提到】

: 他明显是无知无畏了
: 我感觉linux/programming都是要用出来的，光看书没什么用
: 特别linux，我还真不知道要怎么学，都是慢慢用慢慢积累，没办法速成

h****n
发帖数: 2552

你这个先看cufflink咋用吧

differential

【在 f*******a 的大作中提到】

: 哈哈，你说的这些我都不知道。从零开始学这么多挺厉害的。我们主要做differential
: expression. 据说Facility会把mapping 和 reads都给我门。所以我们主要是后期的
: 分析。因为之前我们一直是microarray, sequencing对我们来说太陌生。
:
: greb
: readlines

t****a
发帖数: 1212

有: 不少人有过一段时间只用linux的经验（深受free software的毒害）。
直说你没坚持下来就完了。更别扯什么深受毒害之类的话。作为computational
scientist不用linux用什么？Bioinformatics里的package有几个是for windows的？
上手，两个礼拜熟悉一下，上上手，有什么难度的？有同学就直接转码工，但那么无聊
的工作，也不是每个人都喜欢。
最烦这种什么都不懂还要满嘴跑火车的。VB是编译的么？Python是面向对象的么？这几
个语言你都用过么？没用过你怎么知道要多久？
不懂就谦虚点，表胡扯还误导别人。

e*******o
发帖数: 4654

http://stackoverflow.com/questions/6002955/visual-basic-net-com
http://stackoverflow.com/questions/3325343/why-python-is-not-fu

【在 t****a 的大作中提到】

: 有: 不少人有过一段时间只用linux的经验（深受free software的毒害）。
: 直说你没坚持下来就完了。更别扯什么深受毒害之类的话。作为computational
: scientist不用linux用什么？Bioinformatics里的package有几个是for windows的？
: 上手，两个礼拜熟悉一下，上上手，有什么难度的？有同学就直接转码工，但那么无聊
: 的工作，也不是每个人都喜欢。
: 最烦这种什么都不懂还要满嘴跑火车的。VB是编译的么？Python是面向对象的么？这几
: 个语言你都用过么？没用过你怎么知道要多久？
: 不懂就谦虚点，表胡扯还误导别人。

K****n
发帖数: 5970

10台和3台有啥区别？其实10台也太少。现在学校里的学生那都是用过EC2的，全懂load
balancer，都设计architecture，每个人都在车库里写过搜索引擎，从crawler写到
page rank。谁手下没有20台fedora都不好意思和人打招呼。我看到第87份简历的时候
忍不住问，你们每人20台VM，每月维护费用靠奖学金撑得住吗？学生立即显出鄙夷的申
请：三个月免费你都不知道？

【在 d******1 的大作中提到】

: 无知无畏? 这也太损人了吧，：）
: linux作为和windows竞争的通用系统，虽然现在桌面版本的竞争力越来越弱，但还是有
: 不少人有过一段时间只用linux的经验（深受free software的毒害）。当然如果讨论
: 到linux内核深度编译，10台以上linux cluster maintenance，那是需要一段时间，不
: 过一般NGS分析也用不到。
: python作为一种面向对象的高级语言，本来就比vc, vb，汇编等需要编译的语言容易上
: 手，两个礼拜熟悉一下，上上手，有什么难度的？有同学就直接转码工，但那么无聊的
: 工作，也不是每个人都喜欢。
: NGS数据分析的困难主要是太新了，不仅概念没有一个全的，连一个流程图都没有。
: university1就总结的非常好，至少给个流程，有个方向

K****n
发帖数: 5970

果然都是咱们scientists 关心的重要问题啊

【在 e*******o 的大作中提到】

:
: http://stackoverflow.com/questions/6002955/visual-basic-net-com
: http://stackoverflow.com/questions/3325343/why-python-is-not-fu

u**********d
发帖数: 573

赞！

greb
readlines

【在 u*********1 的大作中提到】

G***y
发帖数: 1082

Great Post. Thanks for sharing.

greb
readlines

【在 u*********1 的大作中提到】

相关主题
● bioinformatics吐下槽	● 请教染色体易位
● 贡献一个SNP/Indel calling pipeline	● Bioinformatics招人提供refer
● 该转到computational bio领域吗	● 全基因组数据研究SV/CNV用什么软件
进入Biology版参与讨论

l*********s
发帖数: 5409

very good read, thank you guys !

l**********1
发帖数: 5204

big aunt or uncle
BTW, including LX some post then by Matrix machine learning
LZ pls refer one E-Book
by NAOMI ALTMAN
its title is 'R lecture'
its pp9
>We will use the grep command to find the columns from the same biological
>replicate. Note that hexbin >resets the number of plots per gure
>back to one. If you want to use a loop to plot several pairs, you need to
>use par(ask=T) to page through
>the plots. Here we do only the rst 6 plots. The grayscale of the plot
>indicates the number of data values
>represented by the hexagon. The darkest spot is at (-1,-1) i.e. the genes
>with 0 counts in both lanes.
code line:
*********************
> par(ask = T)
> library(hexbin)
> biorep=unique(substr(colnames(logReadCounts),6,9))
> for (i in biorep[1:6]) {
+ colno=grep(i,colnames(logReadCounts))
+ plot(hexbin(logReadCounts[,colno[1]],logReadCounts[,colno[2]]),main=i)
+ }
*****************************************************************************
more grep command usage within R code
pls try free download that file from web link:
http://www.auxinevodevo.org/Site/Outreach/Workshops/October11/N

【在 f*******a 的大作中提到】

: 赞你的头像。

K****n
发帖数: 5970

让我想起了郭德钢的段子
你有病啊
你有药啊
你吃多少
你有多少
你吃多少有多少
你有多少吃多少
你有病啊
你有药啊

【在 l**********1 的大作中提到】

: big aunt or uncle
: BTW, including LX some post then by Matrix machine learning
: LZ pls refer one E-Book
: by NAOMI ALTMAN
: its title is 'R lecture'
: its pp9
: >We will use the grep command to find the columns from the same biological
: >replicate. Note that hexbin >resets the number of plots per gure
: >back to one. If you want to use a loop to plot several pairs, you need to
: >use par(ask=T) to page through

c****l
发帖数: 1086

mark

C******8
发帖数: 136

好多牛人出没啊

y*******5
发帖数: 37

刚开始接触NGS确实感谢颇多，说一下我对生物信息学的感想吧，n年前最最开始的时候
觉得不过是用用电脑，查查文献，四五年前正儿八经上了一门课，觉得类似于英语课，
净得看英文网页，数据库，用些乱七八糟的小程序，跟自己的实验也联系不紧密，感觉
就是个花里胡哨的东西。上学期学了个perl编程，这才发现生物信息要学的东西还非常
多。
比如受制于I/O的速度，我只能用数据库Mysql来存取数据，为了更好的展示计算结果，
还得学习R语言，做个统计。DNA序列分析涉及到很多算法、公式，我还得系统的学习概
率论，数理统计，然后用MetLab软件来实现。有时候为了学习别人的算法，我还得从零
学起C++语言。其实语言的东西还好说，学了一种其他很多种学起来就容易点。更难得
还是纯计算机科学，最难得就是我一直以来的克星-数学了。
在计算机科学上涉及到了数据库管理，数据挖掘。举个当前的例子吧，现在要做个系统
进化，所以得确定基因序列，得排除假基因。因为假基因的特征实在太多，现有的
genome annotation还是会掺杂很多假基因，所以我得学着文献里的样子自己排除，但
机器不是人，得一步步教它怎么排除，这就涉及到machine learning 乃至人工智能了
。下一代基因测序技术越来越发达了，有海量的数据等着要分析。现在很能吸引眼球的
当属网络科学了，研究怎么通过各种统计模型在基因组规模上解释各种基因直接的相关
性，会产生各种蜘蛛网似的图，看着就玄乎。还好近期我还涉及不到。数学是我怎么也
避免不了的。尤其因为我研究的是八倍体植物，遗传分析超级复杂。前一阵刚弄懂了四
倍体的遗传规律，碰到了马尔科夫模型就理解不了了。
以上这些还只针对DNA，到了RNA和蛋白质水平上用到的就更多了。归根结底，我还是个
搞生物的，所有这些工具都是为了解释生物学问题的，只有这样才有价值。所以不能为
了学而学，应该为了用而学。

greb
readlines

【在 u*********1 的大作中提到】

y*******5
发帖数: 37

刚接触NGS确实感谢颇多，说一下我对生物信息学的感想吧，n年前最最开始的时候觉得
不过是用用电脑，查查文献，四五年前正儿八经上了一门课，觉得类似于英语课，净得
看英文网页，数据库，用些乱七八糟的小程序，跟自己的实验也联系不紧密，感觉就是
个花里胡哨的东西。上学期学了个perl编程，这才发现生物信息要学的东西还非常多。
比如受制于I/O的速度，我只能用数据库Mysql来存取数据，为了更好的展示计算结果，
还得学习R语言，做个统计。DNA序列分析涉及到很多算法、公式，我还得系统的学习概
率论，数理统计，然后用MetLab软件来实现。有时候为了学习别人的算法，我还得从零
学起C++语言。其实语言的东西还好说，学了一种其他很多种学起来就容易点。更难得
还是纯计算机科学，最难得就是我一直以来的克星-数学了。
在计算机科学上涉及到了数据库管理，数据挖掘。举个当前的例子吧，现在要做个系统
进化，所以得确定基因序列，得排除假基因。因为假基因的特征实在太多，现有的
genome annotation还是会掺杂很多假基因，所以我得学着文献里的样子自己排除，但
机器不是人，得一步步教它怎么排除，这就涉及到machine learning 乃至人工智能了
。数学是我怎么也避免不了的。尤其因为我研究的是八倍体植物，遗传分析超级复杂。
前一阵刚弄懂了四倍体的遗传规律，碰到了马尔科夫模型就理解不了了。
以上这些还只针对DNA，到了RNA和蛋白质水平上用到的就更多了。要学的东西呈指数级
的增长，不禁由衷地感慨，人类创造的信息量简直太大了！归根结底，我还是个搞生物
的，所有这些工具都是为了解释生物学问题的，只有这样才有价值。所以不能为了学而
学，应该为了用而学。

greb
readlines

【在 u*********1 的大作中提到】

B****m
发帖数: 63

我的感觉，不同的计算方法就好比生物实验室不同的实验方法，要精通运用到自己的科
研中需要一个学习的过程，所以学习的过程也可以参考做实验的方法：多关注相关和即
将用到的技术，然后到需要的时候再重点强攻。我这段要重点学习R，需要用它作图。

d********f
发帖数: 43471

围观一下天才

【在 d******1 的大作中提到】

: linux, python/perl 都挺简单的，2个礼拜应该就够了。BWA/samtools 和 R/
: bioconductor是什么？有个简单的介绍么？

B******w
发帖数: 1040

呵呵

相关主题
● 大家来聊聊CNV，methylation和gene expression的关系	● NGS(GATK) vs Sanger results
● 请教neurogenomics职业规划	● Which method is better for copy number variation detection, NGS or microarray?
● NGS数据分析的流程	● 胡乱选的基因比发表出来的“cancer marker”能更准确的预测癌
进入Biology版参与讨论

c*****g
发帖数: 66

像你这种情况，
1. 找个commercial的软件做分析，最后给你output一个list of differentially
expressed/spliced/transcribed genes。很多大学的core facility可能有这样的
license，你们可以免费的用。这个方法是最好的，你甚至可以利用他们的技术支持给
你解决很多问题。
2. 你的facility既然都给你做mapping了，顺便让他们给你们call一下differential
expression，应该就是一两百块钱的事。
3. 用galaxy （galaxy.psu.edu），这个需要花的功夫比1.多，不过肯定比学什么编程
之类的少多了。galaxy的主页上有很多tutorial。基本上主流的软件都可以在galaxy上
用，等你熟悉了流程，是相当快的。只要你不是很复杂的实验设计，大部分的软件只要
accept default就行了。
很多给你的帖子回复的都是bioinformatician的mind set，不理解biologist的需要。
其实你需要的就是一个list，最多加上什么pathway analysis。你需要考虑的是如何多
快好省地到达那个list，学编程什么的那纯粹就是浪费你宝贵的时间。
当然了，你如果想用这个机会转行那是另外一回事了。

differential

【在 f*******a 的大作中提到】

B****m
发帖数: 63

同意cooldog的观点。其实上游的分析手段都一样的，也是最快的一步。但是到基因列
表之后，bioinfomatician能做的就很有限了，我们做生物的人要查找文献、围绕自己
关注的课题对结果进行解释，这是最困难的过程。
所以建议楼主先把结果拿到，进行下游的结果分析，等你把文章发表了，可以再回头学
习上游的数据分析技术。
下游的生物学分析，你可能要用的软件和工具：cytoscape（安装ClueGO，reactome
FIs等插件）、KEGG、DAVID等。如果你用excel不能做出你想要的图，这时候你要使用R
来作图。如果你想画出你的模型示意图，应该用inkscape。

y***i
发帖数: 11639

太太太有用了。多谢这位。

greb
readlines

【在 u*********1 的大作中提到】

u**********d
发帖数: 573

赞！

用R

【在 B****m 的大作中提到】

: 同意cooldog的观点。其实上游的分析手段都一样的，也是最快的一步。但是到基因列
: 表之后，bioinfomatician能做的就很有限了，我们做生物的人要查找文献、围绕自己
: 关注的课题对结果进行解释，这是最困难的过程。
: 所以建议楼主先把结果拿到，进行下游的结果分析，等你把文章发表了，可以再回头学
: 习上游的数据分析技术。
: 下游的生物学分析，你可能要用的软件和工具：cytoscape（安装ClueGO，reactome
: FIs等插件）、KEGG、DAVID等。如果你用excel不能做出你想要的图，这时候你要使用R
: 来作图。如果你想画出你的模型示意图，应该用inkscape。

l******0
发帖数: 232

学习了...

l**********1
发帖数: 5204

Merci LZ sent BAOZI
寄信人: deliver (自动发信系统)
标题: 本站转帐通知单
发信站: BBS 未名空间站 (Thu Oct 04 14:50:51 2012)
来源: mitbbs.com
lotkaeuler11,您好：
fairydina 转给您,现金(伪币): 10 .
附加留言:
多谢你回答我关于NGS分析的问题
fairydina

q****r
发帖数: 26

不太想学python，最近在看java，谁能谈谈java在NGS方面的应用。

c****1
发帖数: 1095

这个要mark下。多谢分享！

greb
readlines

【在 u*********1 的大作中提到】

J******r
发帖数: 2806

(共1页)

进入Biology版参与讨论

相关主题
● 关于职业方向选择	● 贡献一个SNP/Indel calling pipeline
● 可以发一个招人信息吗?	● 该转到computational bio领域吗
● 【包子求助】call SNPs 有哪些工具？？	● 请教染色体易位
● 请教一个统计学问题，需要多少个SNPs去鉴定一个人	● Bioinformatics招人提供refer
● 新手请教CNV caller	● 全基因组数据研究SV/CNV用什么软件
● 版上有谁用过或知道Knome这个公司吗?	● 大家来聊聊CNV，methylation和gene expression的关系
● 请教Bioinformatics职业规划~~~	● 请教neurogenomics职业规划
● bioinformatics吐下槽	● NGS数据分析的流程

相关话题的讨论汇总
话题: bsdata话题: exprs话题: ngs话题: readlines话题: ylim

#	版面	帖数(主题数)
-	全站	4871 (796)
1	Military	3777 (569)
2	Stock	341 (51)
3	Joke	117 (17)
4	History	116 (3)
5	Automobile	100 (9)
6	USANews	55 (9)
7	Midlife	45 (1)
8	Headline	41 (41)
9	Dreamer	33 (13)
10	FleaMarket	32 (20)
11	Living	30 (7)

boards

未名新帖统计// 7月16日

历史上的今天