由买买提看人间百态

boards

本页内容为未名空间相应帖子的节选和存档,一周内的贴子最多显示50字,超过一周显示500字 访问原贴
Programming版 - 围棋人工智能Master只用了一个GPU(转)
相关主题
nv的显卡能战胜intel的CPU么发现的最简单的deep learning教程
问个选语言的问题svm/svr还是不错的
妈的怎么那么多鸡毛语言/软件胡扯几句什么叫Deep Learning入门
大家推荐clojure几个重要的库?问一个NN训练模型输入问题
a simple question about constructor求救:2个dense matrix的乘法
讨论个idea题求助:Wavelet 的 library (转载)
请教C++Matrix calculation in C++
问几个神经网络的问题do you use blas/lapack?
相关话题的讨论汇总
话题: gpu话题: 选点话题: 图像话题: master
进入Programming版参与讨论
1 (共1页)
a*****g
发帖数: 19398
1
发信人: nightwizard (JK), 信区: Weiqi
标 题: Master只用了一个GPU
发信站: 水木社区 (Sun Mar 26 23:19:17 2017), 转信
http://www.lifein19x19.com/viewtopic.php?p=217809#p217809
1. 好像用到了adversarial learning的思想,让一个anti-AlphaGo找出AlphaGo未考虑
到的选点,以减少漏算、避免过拟合(应该就是整天自我对局,容易不知如何应对新招
的意思吧)
2. 如果要增加开局变化,可调整一个“温度”参数,温度越高则选择评分不是最高但
接近最高的选点概率增加(这个应该是常识吧)
3. Master只用了一个GPU(!)
4. 关于不依赖人类棋谱训练的工作,暂时无可奉告
youtube的视频只有半个小时,并没有提到上面那四点,可能实在Q&A环节说的。
1. adversarial learning现在在图像生成和识别里面很火,也有用在自然语言处理里
面的。图像识别里面就是设置一个generator和一个discriminator,分别训练它们生成
尽可能真实的图像,和区分真实图像和generator生成的图像。对generator来说
discriminator就是一个目标函数,对discriminator来说generator探索真实图像以外
的空间中可能被discriminator误判为真是图像的样本,帮助discriminator更好的区别
真假图像。这里用在AG里的目标类似第二种。
2. 这个温度是指策略网络输出层也就是softmax层的一个参数,网络对每个选点给出一
个跟选点概率相关的数x_i, 然后分别计算exp(x_i/T), 归一化后得到最后的选点概率
。这里T就是温度,T越大不同选点的概率差异越小,这是一个受热力学启发的概念。这
点说明差不多质量的开局比人预想的要多。
3. 测试会比训练用的资源少,但只用1个GPU如果是真的只能说牛逼大发了。。
4. 也许开局变化多也跟没用人类棋谱bootstrap策略网络有关,如果是这样那第二点的
回答其实是避重就轻,因为调温度也是很老的技巧了。我才这点应该是真的,不过
Demis要留个悬念。。
n******7
发帖数: 12463
2
具体不懂
不过如果能在大规模cluster上training
然后单机运行model的话
这很nb啊
这样的架构可以让未来每个手机,每部车都集成一个强大的AI
x****u
发帖数: 44466
3
现在大部分的深度学习模型都是训练代价大使用代价低的

【在 n******7 的大作中提到】
: 具体不懂
: 不过如果能在大规模cluster上training
: 然后单机运行model的话
: 这很nb啊
: 这样的架构可以让未来每个手机,每部车都集成一个强大的AI

C*****5
发帖数: 8812
4
我得好好看看这文章。NVDA要哭倒在厕所里的意思吗?

【在 a*****g 的大作中提到】
: 发信人: nightwizard (JK), 信区: Weiqi
: 标 题: Master只用了一个GPU
: 发信站: 水木社区 (Sun Mar 26 23:19:17 2017), 转信
: http://www.lifein19x19.com/viewtopic.php?p=217809#p217809
: 1. 好像用到了adversarial learning的思想,让一个anti-AlphaGo找出AlphaGo未考虑
: 到的选点,以减少漏算、避免过拟合(应该就是整天自我对局,容易不知如何应对新招
: 的意思吧)
: 2. 如果要增加开局变化,可调整一个“温度”参数,温度越高则选择评分不是最高但
: 接近最高的选点概率增加(这个应该是常识吧)
: 3. Master只用了一个GPU(!)

C*****5
发帖数: 8812
5
其实把训练好的weight提取出来以后用BLAS就可以做inference了吧?

【在 x****u 的大作中提到】
: 现在大部分的深度学习模型都是训练代价大使用代价低的
x****u
发帖数: 44466
6
有不少人已经在树莓派上做了神经网络应用

【在 C*****5 的大作中提到】
: 其实把训练好的weight提取出来以后用BLAS就可以做inference了吧?
C*****5
发帖数: 8812
7
简单的MLP那肯定是没有问题。如果是大的网络树莓派内存估计连weights都装不下吧?
有专门pruning神经网络的文章,还没有仔细看。

【在 x****u 的大作中提到】
: 有不少人已经在树莓派上做了神经网络应用
x****u
发帖数: 44466
8
大的也就是几十到100MB规模啊,现在的都1GB内存了,瓶颈是arm太慢吧

【在 C*****5 的大作中提到】
: 简单的MLP那肯定是没有问题。如果是大的网络树莓派内存估计连weights都装不下吧?
: 有专门pruning神经网络的文章,还没有仔细看。

z****8
发帖数: 5023
9
亚麻的AWS就这么收费的 你花钱训练一个模型 然后丢到一个便宜的EC2上运行。。。
i**q
发帖数: 1
10
2.temperature 搞在policy net?
不同的temperature 搞一堆不同的player 然后self-play 生成data 训练value net?
一个GPU不奇怪吧 如果是训练好的网络只做forward inference.

【在 a*****g 的大作中提到】
: 发信人: nightwizard (JK), 信区: Weiqi
: 标 题: Master只用了一个GPU
: 发信站: 水木社区 (Sun Mar 26 23:19:17 2017), 转信
: http://www.lifein19x19.com/viewtopic.php?p=217809#p217809
: 1. 好像用到了adversarial learning的思想,让一个anti-AlphaGo找出AlphaGo未考虑
: 到的选点,以减少漏算、避免过拟合(应该就是整天自我对局,容易不知如何应对新招
: 的意思吧)
: 2. 如果要增加开局变化,可调整一个“温度”参数,温度越高则选择评分不是最高但
: 接近最高的选点概率增加(这个应该是常识吧)
: 3. Master只用了一个GPU(!)

l******t
发帖数: 55733
11
属实。train用的什么配置?

【在 i**q 的大作中提到】
: 2.temperature 搞在policy net?
: 不同的temperature 搞一堆不同的player 然后self-play 生成data 训练value net?
: 一个GPU不奇怪吧 如果是训练好的网络只做forward inference.

1 (共1页)
进入Programming版参与讨论
相关主题
do you use blas/lapack?a simple question about constructor
Linux下运行lapack和blas的问题讨论个idea题
How to use multi-core to speed Python program请教C++
C Library (一个统计方面的) 安装一问问几个神经网络的问题
nv的显卡能战胜intel的CPU么发现的最简单的deep learning教程
问个选语言的问题svm/svr还是不错的
妈的怎么那么多鸡毛语言/软件胡扯几句什么叫Deep Learning入门
大家推荐clojure几个重要的库?问一个NN训练模型输入问题
相关话题的讨论汇总
话题: gpu话题: 选点话题: 图像话题: master