lightroom请科普下双路deep learning - Programming版 - 未名存档

本页内容为未名空间相应帖子的节选和存档，一周内的贴子最多显示50字，超过一周显示500字访问原贴

Programming版 - lightroom请科普下双路deep learning

相关主题
● tensorflow用小的batch size GPU吃不饱怎么破？	● 请问一个CNN结构设计的问题
● tf还是很混乱	● C++11 大家有用过吗？
● 几十层的神经网络用小机器能不能训练出来？	● tensorflow serving
● CNN 能对输入的image做patch normalization么？	● 这个应该咋做好？
● 再来问问tensorflow的问题	● Java job scheduler
● 卡马克一星期写了个CNN...	● 把windows batch放task scheduler里，一闪而过
● 没人讨论狗家最新开源的tensorflow？	● 大家spring batch都是怎么管理的，有ui的tool吗
● Theano, Spark ML, Microsoft’s CNTK, and Google’s TensorFlow	● 如何定时上传excel文件至sharepoint

相关话题的讨论汇总
话题: gpu话题: batch话题: 普下话题: 请科话题: 双路

进入Programming版参与讨论

1

(共1页)

w***g 发帖数: 5958	1 我一直是搞单路的。如果有12G内存还能同时训练两个模型。有两块GPU还需要手工分配其实不如两台单GPU的方便。我搞FCN，batch size永远都是1, 所以往往一个GPU都用不满。我想请教下双GPU对deep learning有啥实际的优势。
l*******m 发帖数: 1096	2 如果要用自己的网络结构，没有pretrained，就要自己训练imagenet, 这个可是GPU越多越好。对fcn而言，batch size=1, 就是在不同图像大小时比较方便，不过就不能用 batch norm了。其实，使用 patch/crop/pad整成一样大小的batch, 还是会快些，而且可以用batch norm 当然双路适合折腾，reduce, sync什么的。如果GPU的芯片相同，可能会支持P2P通信，不用走CPU. 还有如果网络中有batch norm, 为了速度，batch norm一般是local的，但是反而比单GPU(同步)的性能好一点点，我估计有些ensembling gain 【在 w***g 的大作中提到】 : 我一直是搞单路的。如果有12G内存还能同时训练两个模型。 : 有两块GPU还需要手工分配其实不如两台单GPU的方便。 : 我搞FCN，batch size永远都是1, 所以往往一个GPU都用不满。 : 我想请教下双GPU对deep learning有啥实际的优势。
N*****m 发帖数: 42603	3 你多机是用spark吗？有什么caveat？【在 w***g 的大作中提到】 : 我一直是搞单路的。如果有12G内存还能同时训练两个模型。 : 有两块GPU还需要手工分配其实不如两台单GPU的方便。 : 我搞FCN，batch size永远都是1, 所以往往一个GPU都用不满。 : 我想请教下双GPU对deep learning有啥实际的优势。
l*******m 发帖数: 1096	4 我就是单机，多机tensorflow就够了【在 N*****m 的大作中提到】 : 你多机是用spark吗？有什么caveat？
N*****m 发帖数: 42603	5 如果不用tensorflow呢？【在 l*******m 的大作中提到】 : 我就是单机，多机tensorflow就够了
w***g 发帖数: 5958	6 多机主要是按图片并行做预测，或者训练多个模型，不是多机并行训练一个模型。【在 N*****m 的大作中提到】 : 如果不用tensorflow呢？
N*****m 发帖数: 42603	7 这个我知道啊但是并行的job scheduler/orchastration啥的你用的啥？【在 w***g 的大作中提到】 : 多机主要是按图片并行做预测，或者训练多个模型， : 不是多机并行训练一个模型。
w***g 发帖数: 5958	8 没有scheduler。每个输入文件一个输出文件，开始处理前先写一个空文件占位，如果碰到位置占了就处理下一个。然后就是每台机器起n个进程算了。如果想用scheduler，torque/qsub比较适合这类问题。【在 N*****m 的大作中提到】 : 这个我知道啊 : 但是并行的job scheduler/orchastration啥的你用的啥？
N*****m 发帖数: 42603	9 好像这些没有文件分割，工作流程管理，failover，也不太适合云部署【在 w***g 的大作中提到】 : 没有scheduler。每个输入文件一个输出文件，开始处理前先写一个空文件 : 占位，如果碰到位置占了就处理下一个。然后就是每台机器起n个进程算了。 : 如果想用scheduler，torque/qsub比较适合这类问题。
l*******m 发帖数: 1096	10 装多GPU坑很多。比如 1。一定不要2.5slot宽的 2。最好冷却系统是blower，否则机箱温度过高 3。主板x16/x16/x8/NA的模式一般要在bios里开启 4. 每个PCIe插槽不是一样的，要看主板说明【在 w***g 的大作中提到】 : 我一直是搞单路的。如果有12G内存还能同时训练两个模型。 : 有两块GPU还需要手工分配其实不如两台单GPU的方便。 : 我搞FCN，batch size永远都是1, 所以往往一个GPU都用不满。 : 我想请教下双GPU对deep learning有啥实际的优势。
w*****r 发帖数: 197	11 我怎么觉得如果你有两块GPU,batch改为2，训练速度可以快将近一倍。caffe和mxnet应该都可以在PCIE上完成parameter同步，tensorflow不了解。【在 w***g 的大作中提到】 : 我一直是搞单路的。如果有12G内存还能同时训练两个模型。 : 有两块GPU还需要手工分配其实不如两台单GPU的方便。 : 我搞FCN，batch size永远都是1, 所以往往一个GPU都用不满。 : 我想请教下双GPU对deep learning有啥实际的优势。
S*******e 发帖数: 525	12 Yahoo 的玩意： Tensorflow on Spark（https://github.com/yahoo/ TensorFlowOnSpark）也不能用多机并行训练一个模型吗？【在 w***g 的大作中提到】 : 多机主要是按图片并行做预测，或者训练多个模型， : 不是多机并行训练一个模型。
N*****m 发帖数: 42603	13 yahoo还有caffeonspark 【在 S*******e 的大作中提到】 : Yahoo 的玩意： Tensorflow on Spark（https://github.com/yahoo/ : TensorFlowOnSpark）也不能用多机并行训练一个模型吗？

1

(共1页)

进入Programming版参与讨论

相关主题
● 如何定时上传excel文件至sharepoint	● 再来问问tensorflow的问题
● 写给对系统感兴趣的人	● 卡马克一星期写了个CNN...
● 神经网络识别多个目标	● 没人讨论狗家最新开源的tensorflow？
● 想上手deep learning的看过来	● Theano, Spark ML, Microsoft’s CNTK, and Google’s TensorFlow
● tensorflow用小的batch size GPU吃不饱怎么破？	● 请问一个CNN结构设计的问题
● tf还是很混乱	● C++11 大家有用过吗？
● 几十层的神经网络用小机器能不能训练出来？	● tensorflow serving
● CNN 能对输入的image做patch normalization么？	● 这个应该咋做好？

相关话题的讨论汇总
话题: gpu话题: batch话题: 普下话题: 请科话题: 双路

未名新帖统计// 7月16日

#	版面	帖数(主题数)
-	全站	4871 (796)
1	Military	3777 (569)
2	Stock	341 (51)
3	Joke	117 (17)
4	History	116 (3)
5	Automobile	100 (9)
6	USANews	55 (9)
7	Midlife	45 (1)
8	Headline	41 (41)
9	Dreamer	33 (13)
10	FleaMarket	32 (20)
11	Living	30 (7)

* 这里只显示发帖超过25的版面，努力灌水吧:-)