由买买提看人间百态

boards

本页内容为未名空间相应帖子的节选和存档,一周内的贴子最多显示50字,超过一周显示500字 访问原贴
Hardware版 - 急问:需要多少内存
相关主题
Tesla C2050 还是3个GTX 480?AMD的GPGPU好像有点眉目了
一个有关GPU的问题为什么大家这么黑NV呢?
Xeon究竟好在哪?新版Macbook Pro技术参数 (转载)
大家说说 cuda 和 opencl 吧日本东京工业大学将用Tesla建全球最强超级计算机
new Tesla C2050 $235.50 @ eBay并行计算GPU>>CPU
有什么好的GPU计算平台推荐吗?这个ENVY 14的deal怎么样?
卧槽M2090是被动散热片?AMD新一代的穷人法拉利
CLEAR的4G WiMAX有人用过么? (转载)ZZ显卡之争:NVIDIA笔记本反弹 AMD桌面前进
相关话题的讨论汇总
话题: 内存话题: cluster话题: 多少话题: gatk话题: reads
进入Hardware版参与讨论
1 (共1页)
s****l
发帖数: 10462
1
Illumina targeted resequencing 产生比如说100M reads (10Gb data) for one
sample,需要把reads map to human genome (3GB), and use GATK to call variants
需要多少内存(最少要求多少,最好是多少,最多再多了也没有用)?
谢谢
t*****z
发帖数: 1598
2
我在MacBook Pro本地上做过类似规模的运算,用Bowtie2,才16GB内存,没问题。至于
多加内存有没有显著效果我就不知道了。
最近有一些benchmark的文章,比如PMID:23758764,24708189。感觉内存不是大问题。
GATK我还没用过,感觉如何?

variants
[发表自未名空间手机版 - m.mitbbs.com]

【在 s****l 的大作中提到】
: Illumina targeted resequencing 产生比如说100M reads (10Gb data) for one
: sample,需要把reads map to human genome (3GB), and use GATK to call variants
: 需要多少内存(最少要求多少,最好是多少,最多再多了也没有用)?
: 谢谢

s****l
发帖数: 10462
3
GATK works quite well. But I never need worried memory before because the
cluster setting was a high end one. Now I need budget it, so...
Thanks for your input!

题。

【在 t*****z 的大作中提到】
: 我在MacBook Pro本地上做过类似规模的运算,用Bowtie2,才16GB内存,没问题。至于
: 多加内存有没有显著效果我就不知道了。
: 最近有一些benchmark的文章,比如PMID:23758764,24708189。感觉内存不是大问题。
: GATK我还没用过,感觉如何?
:
: variants
: [发表自未名空间手机版 - m.mitbbs.com]

n******7
发帖数: 12463
4
你check一下内存使用不就完了
我的印象是GATK需要的资源不多
reads alignment 是高度并行的,你要尽可能多的cores

【在 s****l 的大作中提到】
: GATK works quite well. But I never need worried memory before because the
: cluster setting was a high end one. Now I need budget it, so...
: Thanks for your input!
:
: 题。

S****2
发帖数: 164
5
我在harvard orchestra cluster上算过,不记得那服务器是多少内存,但每时每刻这
么多人一起算,肯定也没多少吧
https://rc.hms.harvard.edu/
你能得到access to any cluster的话,绝对不要本地算

variants

【在 s****l 的大作中提到】
: Illumina targeted resequencing 产生比如说100M reads (10Gb data) for one
: sample,需要把reads map to human genome (3GB), and use GATK to call variants
: 需要多少内存(最少要求多少,最好是多少,最多再多了也没有用)?
: 谢谢

s****l
发帖数: 10462
6
谢谢楼上各位
我其实不是具体跑这个map遇到什么内存的问题,而是我要跟IT部门打交道,想买一个
cluster。狗日的IT部门非要说,你做这个application,应该是什么样的设置的
cluster,每个node要多少内存,他们IT不清楚。否则按高了的设置买,浪费,按低的
设置买,不能用,所以需要做一个测试才能做决定。
所以具体的来说,我想知道的是用Novoalign来map 1M pairs of Illumina 150-bp
reads to human genome的,需要一个什么样的cluster, 我知道具体多少nodes, 取决
于我要run how many samples(假设1000 samples吧 and 1M pairs of reads per
sample),但是每个 node 需要什么样的CPU, 尤其是多少内存,我没有具体的答案给
IT。我说每个32G RAM,他们说要测试,或者要请一个consultant --- tmd,这一个测
试和consultant还不知道要花多少时间和金钱呢。我想要的最好的答案就是有些文献或
者网页给出具体的computing power and tested with Novoalign(and GATK)on ILMN
reads.
刚已经问了NovoAlign他们,但是还没有答复。
t*****z
发帖数: 1598
7
所以我宁可自己想办法也不跟他们叽歪。

[发表自未名空间手机版 - m.mitbbs.com]

【在 s****l 的大作中提到】
: 谢谢楼上各位
: 我其实不是具体跑这个map遇到什么内存的问题,而是我要跟IT部门打交道,想买一个
: cluster。狗日的IT部门非要说,你做这个application,应该是什么样的设置的
: cluster,每个node要多少内存,他们IT不清楚。否则按高了的设置买,浪费,按低的
: 设置买,不能用,所以需要做一个测试才能做决定。
: 所以具体的来说,我想知道的是用Novoalign来map 1M pairs of Illumina 150-bp
: reads to human genome的,需要一个什么样的cluster, 我知道具体多少nodes, 取决
: 于我要run how many samples(假设1000 samples吧 and 1M pairs of reads per
: sample),但是每个 node 需要什么样的CPU, 尤其是多少内存,我没有具体的答案给
: IT。我说每个32G RAM,他们说要测试,或者要请一个consultant --- tmd,这一个测

t*****z
发帖数: 1598
8
你这个cluster买来堆在自己房间里呢,还是单位有专门机房替你放的?

[发表自未名空间手机版 - m.mitbbs.com]

【在 s****l 的大作中提到】
: 谢谢楼上各位
: 我其实不是具体跑这个map遇到什么内存的问题,而是我要跟IT部门打交道,想买一个
: cluster。狗日的IT部门非要说,你做这个application,应该是什么样的设置的
: cluster,每个node要多少内存,他们IT不清楚。否则按高了的设置买,浪费,按低的
: 设置买,不能用,所以需要做一个测试才能做决定。
: 所以具体的来说,我想知道的是用Novoalign来map 1M pairs of Illumina 150-bp
: reads to human genome的,需要一个什么样的cluster, 我知道具体多少nodes, 取决
: 于我要run how many samples(假设1000 samples吧 and 1M pairs of reads per
: sample),但是每个 node 需要什么样的CPU, 尤其是多少内存,我没有具体的答案给
: IT。我说每个32G RAM,他们说要测试,或者要请一个consultant --- tmd,这一个测

s****l
发帖数: 10462
9
IT will buy/maintain/take care of it, unfortunately.

【在 t*****z 的大作中提到】
: 你这个cluster买来堆在自己房间里呢,还是单位有专门机房替你放的?
:
: [发表自未名空间手机版 - m.mitbbs.com]

n******7
发帖数: 12463
10
IT的要求挺合理的,毕竟他们也不是搞这个的,就按照流程走了
不能100%优化配置是不可避免的,实际上你的aligner换个版本/参数就可能对硬件需求
不一样了。你要不是computational的group的话,很多计算都是一次性的,慢个一点其
实无所谓。也就是说,配置的弹性很大,没必要太纠结。alignment把genome index
load进内存就好,没多大
你可以去seqanswers问问做类似工作的都是用什么什么配置,你照葫芦画瓢

【在 s****l 的大作中提到】
: 谢谢楼上各位
: 我其实不是具体跑这个map遇到什么内存的问题,而是我要跟IT部门打交道,想买一个
: cluster。狗日的IT部门非要说,你做这个application,应该是什么样的设置的
: cluster,每个node要多少内存,他们IT不清楚。否则按高了的设置买,浪费,按低的
: 设置买,不能用,所以需要做一个测试才能做决定。
: 所以具体的来说,我想知道的是用Novoalign来map 1M pairs of Illumina 150-bp
: reads to human genome的,需要一个什么样的cluster, 我知道具体多少nodes, 取决
: 于我要run how many samples(假设1000 samples吧 and 1M pairs of reads per
: sample),但是每个 node 需要什么样的CPU, 尤其是多少内存,我没有具体的答案给
: IT。我说每个32G RAM,他们说要测试,或者要请一个consultant --- tmd,这一个测

相关主题
有什么好的GPU计算平台推荐吗?AMD的GPGPU好像有点眉目了
卧槽M2090是被动散热片?为什么大家这么黑NV呢?
CLEAR的4G WiMAX有人用过么? (转载)新版Macbook Pro技术参数 (转载)
进入Hardware版参与讨论
d***a
发帖数: 13752
11
IT部门问的问题其实是合理的。我们这配过几个cluster,硬件的开销
都在一百万美元以上,这还不算平时的人员费用和场地费用。确实不能
一拍脑袋就把配置定下来。:) 实在不行,请consultant也是一法。

【在 s****l 的大作中提到】
: 谢谢楼上各位
: 我其实不是具体跑这个map遇到什么内存的问题,而是我要跟IT部门打交道,想买一个
: cluster。狗日的IT部门非要说,你做这个application,应该是什么样的设置的
: cluster,每个node要多少内存,他们IT不清楚。否则按高了的设置买,浪费,按低的
: 设置买,不能用,所以需要做一个测试才能做决定。
: 所以具体的来说,我想知道的是用Novoalign来map 1M pairs of Illumina 150-bp
: reads to human genome的,需要一个什么样的cluster, 我知道具体多少nodes, 取决
: 于我要run how many samples(假设1000 samples吧 and 1M pairs of reads per
: sample),但是每个 node 需要什么样的CPU, 尤其是多少内存,我没有具体的答案给
: IT。我说每个32G RAM,他们说要测试,或者要请一个consultant --- tmd,这一个测

s****l
发帖数: 10462
12
也许吧
不过我已经quote cluster price了,四五万块钱的事情。一百万以上的配置,那得上
千个cores了。更何况买了cluster来,又不会只固定做某种运算。RD很多变数的,往上
配置些,多个几千一万的,也没什么大不了的。
请个consultant,一两万很快就打水漂了吧

【在 d***a 的大作中提到】
: IT部门问的问题其实是合理的。我们这配过几个cluster,硬件的开销
: 都在一百万美元以上,这还不算平时的人员费用和场地费用。确实不能
: 一拍脑袋就把配置定下来。:) 实在不行,请consultant也是一法。

w*****y
发帖数: 1201
13
做mapping的话,BWA是用的最多的吧,我们做30Gb whole genome sequencing mapping
,32G的内存没有任何问题。

variants

【在 s****l 的大作中提到】
: Illumina targeted resequencing 产生比如说100M reads (10Gb data) for one
: sample,需要把reads map to human genome (3GB), and use GATK to call variants
: 需要多少内存(最少要求多少,最好是多少,最多再多了也没有用)?
: 谢谢

t*****z
发帖数: 1598
14
生物学里需要超多内存的问题主要就是基因组assembly,具体数目跟基因组大小有关,
而跟data类型关系不大,比如昆虫要128GB,哺乳类要512GB,以此类推。楼主如果想要
说服IT买大内存,不妨从这个入手,用业界标准的benchmark网站GAGE提供的方法和数
据来跑一个benchmark,同时稍微阅读下de bruijn graph和assembly的原理概述,引用
这些文章就可以推导出你要assemble的基因组需要多少内存了。

[发表自未名空间手机版 - m.mitbbs.com]

【在 s****l 的大作中提到】
: 也许吧
: 不过我已经quote cluster price了,四五万块钱的事情。一百万以上的配置,那得上
: 千个cores了。更何况买了cluster来,又不会只固定做某种运算。RD很多变数的,往上
: 配置些,多个几千一万的,也没什么大不了的。
: 请个consultant,一两万很快就打水漂了吧

n******7
发帖数: 12463
15
他一个做mapping的,用不着牛刀

【在 t*****z 的大作中提到】
: 生物学里需要超多内存的问题主要就是基因组assembly,具体数目跟基因组大小有关,
: 而跟data类型关系不大,比如昆虫要128GB,哺乳类要512GB,以此类推。楼主如果想要
: 说服IT买大内存,不妨从这个入手,用业界标准的benchmark网站GAGE提供的方法和数
: 据来跑一个benchmark,同时稍微阅读下de bruijn graph和assembly的原理概述,引用
: 这些文章就可以推导出你要assemble的基因组需要多少内存了。
:
: [发表自未名空间手机版 - m.mitbbs.com]

d***a
发帖数: 13752
16
四五万的系统还要找consultant,IT部门确实有点没事找事。:)

【在 s****l 的大作中提到】
: 也许吧
: 不过我已经quote cluster price了,四五万块钱的事情。一百万以上的配置,那得上
: 千个cores了。更何况买了cluster来,又不会只固定做某种运算。RD很多变数的,往上
: 配置些,多个几千一万的,也没什么大不了的。
: 请个consultant,一两万很快就打水漂了吧

t*****z
发帖数: 1598
17
我是在探讨说服IT买高档机器的方法。

【在 n******7 的大作中提到】
: 他一个做mapping的,用不着牛刀
E***e
发帖数: 3430
18
拿回扣啊

【在 d***a 的大作中提到】
: 四五万的系统还要找consultant,IT部门确实有点没事找事。:)
b****a
发帖数: 460
19
http://www.mghpcc.org
随便找个你们学校的PI去申请使用权限 目前是免费的。
t*****z
发帖数: 1598
20
你的GPGPU神机拼得怎么样啦?

【在 E***e 的大作中提到】
: 拿回扣啊
E***e
发帖数: 3430
21
没来得及仔细弄但是一把辛酸泪
收到C2050援助
拆开一看立马跪下了
风扇针脚不一样
还得摆弄烙铁
手残星人不知道该怎么办
各种辛酸回头贴图慢叙

【在 t*****z 的大作中提到】
: 你的GPGPU神机拼得怎么样啦?
1 (共1页)
进入Hardware版参与讨论
相关主题
ZZ显卡之争:NVIDIA笔记本反弹 AMD桌面前进new Tesla C2050 $235.50 @ eBay
Larrbee原地满血复活?有什么好的GPU计算平台推荐吗?
独立显卡的作用是什么?卧槽M2090是被动散热片?
GPGPU Desktop/LaptopCLEAR的4G WiMAX有人用过么? (转载)
Tesla C2050 还是3个GTX 480?AMD的GPGPU好像有点眉目了
一个有关GPU的问题为什么大家这么黑NV呢?
Xeon究竟好在哪?新版Macbook Pro技术参数 (转载)
大家说说 cuda 和 opencl 吧日本东京工业大学将用Tesla建全球最强超级计算机
相关话题的讨论汇总
话题: 内存话题: cluster话题: 多少话题: gatk话题: reads