由买买提看人间百态

boards

本页内容为未名空间相应帖子的节选和存档,一周内的贴子最多显示50字,超过一周显示500字 访问原贴
Biology版 - 问一下Next generation sequence analysis主要做点什么内容?
相关主题
大家对Nova seq怎么看?做线虫的有人试过WGS+SNP的方法一步测序出mutant吗?
请教做单个病人的whole cancer genome 测序的意义machine learning来对GWAS结果建模
有没有谁有鼓捣生物信息服务公司的想法?【包子求助】call SNPs 有哪些工具??
基因测序未来前景如何,比如临床上,产业上怎样检测一个基因的变异与疾病的关系
请高手科普测序技术请教一个DNA sonication的问题
2nd generation sequencing能这么用吗?问个基因组的问题
请教基因测序求教:如果SNP在dbSNP里找不到怎么办
请教个DNA相关的实验问题拿到WGS data,鉴定出一堆SNP后做什么呢?
相关话题的讨论汇总
话题: next话题: 主要话题: analysis话题: sequence话题: 存储
进入Biology版参与讨论
1 (共1页)
M***7
发帖数: 2420
1
比如说主要用什么programming language, data minng 主要集中在什么方面, 数据存储用什么系统,是否开源,等等。
以前做过一阵GENOMICS,不知道现在是什么趋势?
Thanks.
d***y
发帖数: 8536
2
你找个太general了。好几种技术呢
y******e
发帖数: 277
3
找片nature的review看看就知道啦。
http://www.nature.com/subject/nextgenseq
e**s
发帖数: 513
4
I have the same questions for bioinformatics people.

存储用什么系统,是否开源,等等。

【在 M***7 的大作中提到】
: 比如说主要用什么programming language, data minng 主要集中在什么方面, 数据存储用什么系统,是否开源,等等。
: 以前做过一阵GENOMICS,不知道现在是什么趋势?
: Thanks.

h***0
发帖数: 248
5

存储用什么系统,是否开源,等等。
如果说sequence analysis, 主要是用PERL,
data mining主要用JAVA
data mining 你指什么?结合功能数据?
现在NGS相关的都很多, de novo的基因组注释已经没那么火了,现在主要是各种
comparative -omics的研究
还有各种分析软件的开发
测序成本降了以后,计算升级以后,好多以前测不起的现在都能测了
分析方法要跟上,工具/软件开发肯定有好多活可以做

【在 M***7 的大作中提到】
: 比如说主要用什么programming language, data minng 主要集中在什么方面, 数据存储用什么系统,是否开源,等等。
: 以前做过一阵GENOMICS,不知道现在是什么趋势?
: Thanks.

S**********l
发帖数: 3835
6
data mining 用java???

【在 h***0 的大作中提到】
:
: 存储用什么系统,是否开源,等等。
: 如果说sequence analysis, 主要是用PERL,
: data mining主要用JAVA
: data mining 你指什么?结合功能数据?
: 现在NGS相关的都很多, de novo的基因组注释已经没那么火了,现在主要是各种
: comparative -omics的研究
: 还有各种分析软件的开发
: 测序成本降了以后,计算升级以后,好多以前测不起的现在都能测了
: 分析方法要跟上,工具/软件开发肯定有好多活可以做

S**********l
发帖数: 3835
7
现在存储是个什么情况?

【在 h***0 的大作中提到】
:
: 存储用什么系统,是否开源,等等。
: 如果说sequence analysis, 主要是用PERL,
: data mining主要用JAVA
: data mining 你指什么?结合功能数据?
: 现在NGS相关的都很多, de novo的基因组注释已经没那么火了,现在主要是各种
: comparative -omics的研究
: 还有各种分析软件的开发
: 测序成本降了以后,计算升级以后,好多以前测不起的现在都能测了
: 分析方法要跟上,工具/软件开发肯定有好多活可以做

e*****t
发帖数: 642
8
linux clusters with storage on level of TB.

【在 S**********l 的大作中提到】
: 现在存储是个什么情况?
S**********l
发帖数: 3835
9
那就是distributed的storage了?我们学校用的还是那种一个head node,file system
的。看来真得改改了。

【在 e*****t 的大作中提到】
: linux clusters with storage on level of TB.
d*******e
发帖数: 1649
10
我的理解:
测序从机器里面出来的是一段段的nucleotide序列,后续工作一般从这里开始。
粗略的说,一般第一步是mapping,就是把读出来的片段根据reference genome一段段
拼接起来。由于数据量很大,比如现在一条lane至少有几百万个read,快速和有效的算
法是必不可少的。这对计算机的要求也比较高,主要指内存,硬盘读写的速度,和cpu
的快慢。有了这个aligned文件以后,就可以根据自己的问题研究不同的内容。比如找
SNP/SNV,copy number variation,insertion/deletion。由于整个过程处理的是大文
件,linux比windows要有效率的多,而且由于大部分数据处理只是data manipulation
,在这种情况下script language更加方便易用。
所以现阶段做NGS analysis主要有这几个要求:
1 linux的基本操作
2 会至少一种script language,比如perl/python
3 会submit job to cluster,因为绝大多数情况下程序是在服务器而不是单机上运行
上面的介绍可以基本回答你的问题。到目前为止,所有常用的软件都是free的,我认为
如果你一定要开源也没有问题。
我以前没有做过genomics所以不知道趋势的问题。但是现在所有这些analysis都是和测
序的技术紧密相关的,有极大的时效性。目前的测序技术决定了有很多问题是难以解决
的,比如由于两次PCR带来的误差,coverage depth非常不均衡,mapping中repetitive
region的处理,insertion/deletion call的准确性等。如果第三代测序有了
breakthrough,那么所有分析的手段将又有根本的变化。

存储用什么系统,是否开源,等等。

【在 M***7 的大作中提到】
: 比如说主要用什么programming language, data minng 主要集中在什么方面, 数据存储用什么系统,是否开源,等等。
: 以前做过一阵GENOMICS,不知道现在是什么趋势?
: Thanks.

相关主题
2nd generation sequencing能这么用吗?做线虫的有人试过WGS+SNP的方法一步测序出mutant吗?
请教基因测序machine learning来对GWAS结果建模
请教个DNA相关的实验问题【包子求助】call SNPs 有哪些工具??
进入Biology版参与讨论
n********t
发帖数: 1079
11
一般的NFS不行,很快IO就成了瓶颈,现在俺们用的是SONAS

system

【在 S**********l 的大作中提到】
: 那就是distributed的storage了?我们学校用的还是那种一个head node,file system
: 的。看来真得改改了。

h***0
发帖数: 248
12

cpu
manipulation
测序数据的误差也老雷人了
你总结的挺好

【在 d*******e 的大作中提到】
: 我的理解:
: 测序从机器里面出来的是一段段的nucleotide序列,后续工作一般从这里开始。
: 粗略的说,一般第一步是mapping,就是把读出来的片段根据reference genome一段段
: 拼接起来。由于数据量很大,比如现在一条lane至少有几百万个read,快速和有效的算
: 法是必不可少的。这对计算机的要求也比较高,主要指内存,硬盘读写的速度,和cpu
: 的快慢。有了这个aligned文件以后,就可以根据自己的问题研究不同的内容。比如找
: SNP/SNV,copy number variation,insertion/deletion。由于整个过程处理的是大文
: 件,linux比windows要有效率的多,而且由于大部分数据处理只是data manipulation
: ,在这种情况下script language更加方便易用。
: 所以现阶段做NGS analysis主要有这几个要求:

S**********l
发帖数: 3835
13
不是吧。。。。这个俺们买不起,准备手工搭一个了。。。

【在 n********t 的大作中提到】
: 一般的NFS不行,很快IO就成了瓶颈,现在俺们用的是SONAS
:
: system

S**********l
发帖数: 3835
14
听报告都说误差很小?

【在 h***0 的大作中提到】
:
: cpu
: manipulation
: 测序数据的误差也老雷人了
: 你总结的挺好

m*****i
发帖数: 628
15
精度比sanger sequencing 高不少。

【在 S**********l 的大作中提到】
: 听报告都说误差很小?
j******3
发帖数: 5244
16
如果测出来的和传统手段相差较远,信谁的

【在 S**********l 的大作中提到】
: 听报告都说误差很小?
n********t
发帖数: 1079
17
不做WGS会好很多,俺们做WGS,现在的paper要求一般是20X的coverage在80%以上,结
果就是一个BAM200G+。。。

【在 S**********l 的大作中提到】
: 不是吧。。。。这个俺们买不起,准备手工搭一个了。。。
h***0
发帖数: 248
18

比以前物美价廉,但是误差还是有
而且拼接(assembly)还有很大提升空间
当然这也跟你测什么有关系
大基因组的还是没法做
重测序,一些功能的还可以吧

【在 S**********l 的大作中提到】
: 听报告都说误差很小?
S**********l
发帖数: 3835
19
存储是便宜的。关键不能备份。备份只能自己搭了

【在 n********t 的大作中提到】
: 不做WGS会好很多,俺们做WGS,现在的paper要求一般是20X的coverage在80%以上,结
: 果就是一个BAM200G+。。。

h***0
发帖数: 248
20

你覆盖率太低了,不能服众啊
花点钱吧,然后NG就跟你招手了

【在 n********t 的大作中提到】
: 不做WGS会好很多,俺们做WGS,现在的paper要求一般是20X的coverage在80%以上,结
: 果就是一个BAM200G+。。。

相关主题
怎样检测一个基因的变异与疾病的关系求教:如果SNP在dbSNP里找不到怎么办
请教一个DNA sonication的问题拿到WGS data,鉴定出一堆SNP后做什么呢?
问个基因组的问题贡献一个SNP/Indel calling pipeline
进入Biology版参与讨论
n********t
发帖数: 1079
21
关键是IO速度,以前俺们用NFS的时候,经常把整个cluster搞得象蚂蚁爬,还会出一堆
stale file handler的问题,现在用SONAS之后情况干改善很多

【在 S**********l 的大作中提到】
: 存储是便宜的。关键不能备份。备份只能自己搭了
n********t
发帖数: 1079
22
没故事也没戏,而且这种东西bioinformatics的人能排在哪里呢?

【在 h***0 的大作中提到】
:
: 你覆盖率太低了,不能服众啊
: 花点钱吧,然后NG就跟你招手了

h***0
发帖数: 248
23

编故事啊
生物信息的估计最好也就并列一作,排在第N位,在二作隔壁吧
华大反正是这样的

【在 n********t 的大作中提到】
: 没故事也没戏,而且这种东西bioinformatics的人能排在哪里呢?
n********t
发帖数: 1079
24
不是Li Ding这种级别的大概并列一作都很难

【在 h***0 的大作中提到】
:
: 编故事啊
: 生物信息的估计最好也就并列一作,排在第N位,在二作隔壁吧
: 华大反正是这样的

h***0
发帖数: 248
25

哈哈,她是我偶像!
这种好几百人的文章,木有成就感啊
实际是因为排不上...哈哈

【在 n********t 的大作中提到】
: 不是Li Ding这种级别的大概并列一作都很难
n********t
发帖数: 1079
26
对了,听说华大算体制外,是不?

【在 h***0 的大作中提到】
:
: 哈哈,她是我偶像!
: 这种好几百人的文章,木有成就感啊
: 实际是因为排不上...哈哈

m*****i
发帖数: 628
27
是的。
它是个民办企业。

【在 n********t 的大作中提到】
: 对了,听说华大算体制外,是不?
h***0
发帖数: 248
28

是的,我觉得其实还挺好
做了一些实事,比许多科研机构强

【在 m*****i 的大作中提到】
: 是的。
: 它是个民办企业。

M***7
发帖数: 2420
29
这个,俺多年前在华大做过。

【在 m*****i 的大作中提到】
: 是的。
: 它是个民办企业。

n******7
发帖数: 12463
30
什么叫精度?Phred score?
用NGS测的clone序列好像还不能submit到genbank,得sanger 再测一遍

【在 m*****i 的大作中提到】
: 精度比sanger sequencing 高不少。
相关主题
请教neurogenomics职业规划请教做单个病人的whole cancer genome 测序的意义
生命攸关,请大家帮助我们理解和学习全基因组测序有没有谁有鼓捣生物信息服务公司的想法?
大家对Nova seq怎么看?基因测序未来前景如何,比如临床上,产业上
进入Biology版参与讨论
c*******d
发帖数: 192
31
可以submit到genbank,,没有问题。。

【在 n******7 的大作中提到】
: 什么叫精度?Phred score?
: 用NGS测的clone序列好像还不能submit到genbank,得sanger 再测一遍

a*****r
发帖数: 209
32
说得很好啊
最近打算了解一下处理NGS数据的工具,搜了一下找到了一堆。哪位大侠能建议一些最
常用/效果不错的工具或者软件吗?谢谢!

cpu
manipulation

【在 d*******e 的大作中提到】
: 我的理解:
: 测序从机器里面出来的是一段段的nucleotide序列,后续工作一般从这里开始。
: 粗略的说,一般第一步是mapping,就是把读出来的片段根据reference genome一段段
: 拼接起来。由于数据量很大,比如现在一条lane至少有几百万个read,快速和有效的算
: 法是必不可少的。这对计算机的要求也比较高,主要指内存,硬盘读写的速度,和cpu
: 的快慢。有了这个aligned文件以后,就可以根据自己的问题研究不同的内容。比如找
: SNP/SNV,copy number variation,insertion/deletion。由于整个过程处理的是大文
: 件,linux比windows要有效率的多,而且由于大部分数据处理只是data manipulation
: ,在这种情况下script language更加方便易用。
: 所以现阶段做NGS analysis主要有这几个要求:

1 (共1页)
进入Biology版参与讨论
相关主题
拿到WGS data,鉴定出一堆SNP后做什么呢?请高手科普测序技术
贡献一个SNP/Indel calling pipeline2nd generation sequencing能这么用吗?
请教neurogenomics职业规划请教基因测序
生命攸关,请大家帮助我们理解和学习全基因组测序请教个DNA相关的实验问题
大家对Nova seq怎么看?做线虫的有人试过WGS+SNP的方法一步测序出mutant吗?
请教做单个病人的whole cancer genome 测序的意义machine learning来对GWAS结果建模
有没有谁有鼓捣生物信息服务公司的想法?【包子求助】call SNPs 有哪些工具??
基因测序未来前景如何,比如临床上,产业上怎样检测一个基因的变异与疾病的关系
相关话题的讨论汇总
话题: next话题: 主要话题: analysis话题: sequence话题: 存储