阿法狗怎么做到每天练习几十万盘棋？ - Go版

本页内容为未名空间相应帖子的节选和存档，一周内的贴子最多显示50字，超过一周显示500字访问原贴

Go版 - 阿法狗怎么做到每天练习几十万盘棋？

相关主题
● 看来电脑围棋压倒人类就在今年了 (转载)	● 蒙特卡罗是不是有天生缺陷？
● 大家对Alphago的胜率理解有误	● 喆理围棋---关于Google人工智能围棋的访谈
● 田渊栋【facebook 围棋程序负责人】：我怎么看 AlphaGo？	● 我以前提到过阿法狗应该有更灵活的用时策略
● 阿法狗第二局最令人震惊的地方在于	● 接下来的李世石，将是痛不欲生的三局对局
● 金明完9段点评AlphaGo: 缺点明显	● 阿发狗仍然不是不可战胜
● 阿法狗生怕人类还不够绝望	● 哈比斯说没用高手期局训练啊
● 从第四盘棋看狗狗的弱点	● 仔细想了一下，阿法狗的算法在劫争上完全没有漏洞
● 写过程序的都知道	● 科学家发现新算法围棋程序将达职业棋手水平

相关话题的讨论汇总
话题: 阿法话题: 练习话题: 研讨话题: 搜索话题: 蒙特卡罗

进入Go版参与讨论

(共1页)

q*****C
发帖数: 114

它跟小李对局用了5个小时，如果它练习的时候跟比赛一模一样，就算它开启多线程，
但是因为计算资源有限，每天怎么可能真实模拟下几十万盘棋？除非它练习的时候根比
赛是不一样的。
懂行的解释一下。

h*h
发帖数: 27852

10000个进程，20分钟1局，3x24=72万盘

q*****C
发帖数: 114

我想到多进程了呀，但是你要说10000个进程，计算资源哪里来？你要说20分钟一局，
为什么它跟小李下不用20分钟自己的时间？
回过头来说，如果你说的数字对，那么它跟小李下的时候，因为计算资源全部用在唯一
一个线程上，那岂不是比它平时强了一万倍？或者说它平时学习的时候就是学了一堆渣
渣？：）

【在 h*h 的大作中提到】

: 10000个进程，20分钟1局，3x24=72万盘

q*****C
发帖数: 114

如果真是这样，那么我可以推论出来，阿法狗所谓的练习了上亿盘棋局，其实是假的，
因为它学习的时候不是真的模拟跟真人过招的棋局。当然，即使这样，它还是能进步，
能够丰富它的数据库和修正其算法参数，但是如果说跟人一样通过下真实的棋积累经验
，它其实没有那么多盘的棋力。
我的两分钱。

【在 q*****C 的大作中提到】

: 我想到多进程了呀，但是你要说10000个进程，计算资源哪里来？你要说20分钟一局，
: 为什么它跟小李下不用20分钟自己的时间？
: 回过头来说，如果你说的数字对，那么它跟小李下的时候，因为计算资源全部用在唯一
: 一个线程上，那岂不是比它平时强了一万倍？或者说它平时学习的时候就是学了一堆渣
: 渣？：）

h*********n
发帖数: 11319

不一样
阿发狗相当于用神经网络来优化搜索。练习的时候相当于训练这个神经网络，昨天是实
际用上这个神经网络
举个网友的解释
发信人: softmagic (魔术师), 信区: Weiqi
标题: 用一种真正便于棋手理解的方式解释alphago的算法
发信站: 水木社区 (Thu Mar 10 07:58:11 2016), 转信
其实讲深度学习没有什么太大意义，那些都是离线做好的，
alphago下棋的时候并不需要深度学习。
但是事先做好的深度学习训练的模型保证了下面讲的参与“研讨”的选手的质量水平。
AlphaGo 的MCTS算法相当于几万个业余3-5段的选手，经过合理的组织，在
1分钟内研讨了几百万盘当前局面下的后续对局发展。最终得出一个最有希望
获胜的招法。
这种合理组织并且表现在：
1.每个局面下，越有“合理招法”希望的落子，会被更多的“研讨对局”，通常比如当前
局面下，最有希望的落子位置会比，希望第二大的落子位置研讨次数多出一个数量级。
这个就是UCT算法，理论上来说，UCT一定会收敛到最优解。
但是需要的时间不切合实际。
2.比较容易被忽略的是，在研讨过程中，他们的各个局部的研究结论会以一种
高效的形式彼此沟通，换句话说，关于目前局面发现出来的知识是共享的。
这个非常有用是因为研讨的局面非常多的局部雷同性。
补充一点，
在MCTS+UCT刚出来的时候，一下子棋力提高了四个子。
但是发展起来后遇到的提高的瓶颈就是我这里说的“研讨对局”的质量不高，
有时候甚至相当于随机落子。
当时的研究就推测如果“研究对局”的质量达到业余3、5段的水平，
MCTS就可以PK职业选手了。
现在的发展只是证明了预测的正确。这种做法的威力确实很大。

【在 q*****C 的大作中提到】

: 它跟小李对局用了5个小时，如果它练习的时候跟比赛一模一样，就算它开启多线程，
: 但是因为计算资源有限，每天怎么可能真实模拟下几十万盘棋？除非它练习的时候根比
: 赛是不一样的。
: 懂行的解释一下。

D*******r
发帖数: 2323

我以前有帖子解释过，它自己和自己下棋是用成千上万的的对局来train自己的policy
network和value network，这两部分都非常快，微秒级就是一步，一局棋也就是几秒钟。
它真正对弈时耗时的部分还是蒙特卡罗搜索，但是蒙特卡罗搜索是不用training的，尤
其是它左右互搏时，两个狗都是用的同样的搜索algorithm在搜索计算，两只狗算的到
的变化都一模一样，对棋局的胜负没有任何影响。

【在 q*****C 的大作中提到】

q*****C
发帖数: 114

多谢多谢，这个就解释了我的困惑。
不过这样看来，阿法狗确实不可能跟人类高手十年高水平棋局积累的经验相比。我看如
果真人高手组个团，目前阶段应该能完胜阿法狗。

【在 h*********n 的大作中提到】

: 不一样
: 阿发狗相当于用神经网络来优化搜索。练习的时候相当于训练这个神经网络，昨天是实
: 际用上这个神经网络
: 举个网友的解释
: 发信人: softmagic (魔术师), 信区: Weiqi
: 标题: 用一种真正便于棋手理解的方式解释alphago的算法
: 发信站: 水木社区 (Thu Mar 10 07:58:11 2016), 转信
: 其实讲深度学习没有什么太大意义，那些都是离线做好的，
: alphago下棋的时候并不需要深度学习。
: 但是事先做好的深度学习训练的模型保证了下面讲的参与“研讨”的选手的质量水平。

o*****p
发帖数: 2977

我的印象不是这样。train的时候它不但会引入随机（不然会overfit)，而且是用不
同版本的alphago对弈。

policy
钟。

【在 D*******r 的大作中提到】

: 我以前有帖子解释过，它自己和自己下棋是用成千上万的的对局来train自己的policy
: network和value network，这两部分都非常快，微秒级就是一步，一局棋也就是几秒钟。
: 它真正对弈时耗时的部分还是蒙特卡罗搜索，但是蒙特卡罗搜索是不用training的，尤
: 其是它左右互搏时，两个狗都是用的同样的搜索algorithm在搜索计算，两只狗算的到
: 的变化都一模一样，对棋局的胜负没有任何影响。

h*h
发帖数: 27852

群殴一，就不是围棋了啊

【在 q*****C 的大作中提到】

: 多谢多谢，这个就解释了我的困惑。
: 不过这样看来，阿法狗确实不可能跟人类高手十年高水平棋局积累的经验相比。我看如
: 果真人高手组个团，目前阶段应该能完胜阿法狗。

D*******r
发帖数: 2323

不同版本的阿法狗也是在神经网络的train的version不同而已，不是蒙特卡罗搜索的版
本不同。

【在 o*****p 的大作中提到】

: 我的印象不是这样。train的时候它不但会引入随机（不然会overfit)，而且是用不
: 同版本的alphago对弈。
:
: policy
: 钟。

相关主题
● 阿法狗生怕人类还不够绝望	● 蒙特卡罗是不是有天生缺陷？
● 从第四盘棋看狗狗的弱点	● 喆理围棋---关于Google人工智能围棋的访谈
● 写过程序的都知道	● 我以前提到过阿法狗应该有更灵活的用时策略
进入Go版参与讨论

q*****C
发帖数: 114

sorry 这个我看不懂。
你是说它练习的时候根本不当真？就是走完一步棋就算完，然后再把结果当成数据库？
如果练习的时候不用蒙特卡罗搜索，那么它如何选择落子？这样的练习还有什么意义？
sorry 我可能太小白，之前一位说的相当于上万个普通棋手摆棋研讨，那个我懂了，而
且看起来是最适合目前计算机的方法。但是反过来说，如果我选出20个9段高手，也这
么搞，很大可能就轻松赢三万个业余选手组的队了吧？

policy
钟。

【在 D*******r 的大作中提到】

o*****p
发帖数: 2977

不同版本下，两个狗搜索的变化就会不同。

【在 D*******r 的大作中提到】

: 不同版本的阿法狗也是在神经网络的train的version不同而已，不是蒙特卡罗搜索的版
: 本不同。

q*****C
发帖数: 114

是，规则上说就不是一对一了。
但是，我也可以argue说阿法狗本身就不是“一个选手”在下棋啊。而且，更进一步说
，这说明AI其实还是赢不了人类思维的 teamwork 啊。
我小白，轻拍：）

【在 h*h 的大作中提到】

: 群殴一，就不是围棋了啊

s***u
发帖数: 80

人类的teamwork也只会是延缓失败的步伐吧

【在 q*****C 的大作中提到】

: 是，规则上说就不是一对一了。
: 但是，我也可以argue说阿法狗本身就不是“一个选手”在下棋啊。而且，更进一步说
: ，这说明AI其实还是赢不了人类思维的 teamwork 啊。
: 我小白，轻拍：）

q*****C
发帖数: 114

恩，所谓量变到质变，如果哪天电脑不是三万个业余3段在开会讨论，而是三万个职业5
段在组团对战，人类似乎把握就不大了。。。
很难想像去找200个职业9段来组团啊：）

【在 s***u 的大作中提到】

: 人类的teamwork也只会是延缓失败的步伐吧

D*******r
发帖数: 2323

是相当于摆了几十万到上百万个变化图研讨，根据每个变化图来调整自己的policy
network的走子策略有没有漏算，自己的value network的加权价值是否准确。
而蒙特卡罗是在走子策略选定的参考点范围内进行计算，而它的赢棋概率也是结合
value network做加权调整。蒙特卡罗搜索本身就是树状搜索，然后砍枝淘汰。这个是
固定的algorithm，不是同过train出来的，所以左右互搏训练时，不需要加入搜索计算。

【在 q*****C 的大作中提到】

: sorry 这个我看不懂。
: 你是说它练习的时候根本不当真？就是走完一步棋就算完，然后再把结果当成数据库？
: 如果练习的时候不用蒙特卡罗搜索，那么它如何选择落子？这样的练习还有什么意义？
: sorry 我可能太小白，之前一位说的相当于上万个普通棋手摆棋研讨，那个我懂了，而
: 且看起来是最适合目前计算机的方法。但是反过来说，如果我选出20个9段高手，也这
: 么搞，很大可能就轻松赢三万个业余选手组的队了吧？
:
: policy
: 钟。

D*******r
发帖数: 2323

你这么想吧，阿法狗左右互搏相当于职业棋手平时在网上下大量的10秒，20秒的超快棋
，它是为了培养棋感，而不是依靠计算的训练棋。

算。

【在 D*******r 的大作中提到】

: 是相当于摆了几十万到上百万个变化图研讨，根据每个变化图来调整自己的policy
: network的走子策略有没有漏算，自己的value network的加权价值是否准确。
: 而蒙特卡罗是在走子策略选定的参考点范围内进行计算，而它的赢棋概率也是结合
: value network做加权调整。蒙特卡罗搜索本身就是树状搜索，然后砍枝淘汰。这个是
: 固定的algorithm，不是同过train出来的，所以左右互搏训练时，不需要加入搜索计算。

q*****C
发帖数: 114

多谢！我有点感觉了！
我来复述以下，是不是绛紫：因为围棋变化实在太多，所以如果“死记硬背”式的用枚
举法，那么计算机似乎永远都算不过来。所以他们用了两个神经网络来减少了绝大部分
可能的排列组合，但是具体怎么减少，怎么优化，实际上是摸着石头过河。所以，平时
电脑就一直不停的这么下呀下，摆不同的走棋，然后根据这个结果来反馈调整之前的神
经网络设置，争取做到不是那么“摸着石头过河”。
我觉得，这样做，实际上是在用一种 assuming 高效的模式，但是本质上还是在枚举，
只不过现在是在进行电脑认为有价值的枚举。然后把这些结果存到数据库里面，真正比
赛的时候就遍历这个数据库，找到最接近的一个局势，然后选择赢棋概率最大的下一步
解决方案。
不知到这么说领会中心思想了没有？哇哈哈。

算。

【在 D*******r 的大作中提到】

k*l
发帖数: 2574

那还是在练定式？

l*****z
发帖数: 3022

狗的数据中心平时闲置的instance远远大于一万个。。。

【在 q*****C 的大作中提到】

相关主题
● 接下来的李世石，将是痛不欲生的三局对局	● 仔细想了一下，阿法狗的算法在劫争上完全没有漏洞
● 阿发狗仍然不是不可战胜	● 科学家发现新算法围棋程序将达职业棋手水平
● 哈比斯说没用高手期局训练啊	● 阿法狗怎样算气的？
进入Go版参与讨论

q*****C
发帖数: 114

我觉得看你怎么定义定式了。
计算机只能靠计算和遍历数据库，我想至少现阶段的电脑只能这样，大家没异议吧。传
统意义上的定式，对电脑来说，它数据库里面的咚咚要多多了啊。而且因为围棋不可能
枚举，所以它依靠神经网络下出来的训练棋，肯定不可能包罗万象。所以，真正比赛的
时候，它也只有选择一个最合适的局势，然后判断一个最合适的下一步，这些都只能依
靠它已经枚举过，并且已经保存到数据库里面的棋局了吧？

【在 k*l 的大作中提到】

: 那还是在练定式？

a****o
发帖数: 6612

因为可以开几万台电脑同时对下；然后把下出来的棋谱进行training。

【在 q*****C 的大作中提到】

E*******1
发帖数: 3464

计算机是可以多线程并行的，相当于几十万个李师师互掐，最后通通气交流一下今天的
学习心得

【在 q*****C 的大作中提到】

(共1页)

进入Go版参与讨论

相关主题
● 科学家发现新算法围棋程序将达职业棋手水平	● 金明完9段点评AlphaGo: 缺点明显
● 阿法狗怎样算气的？	● 阿法狗生怕人类还不够绝望
● 新买的棋具，摆了盘棋	● 从第四盘棋看狗狗的弱点
● 神经网络的结构决定了他的极限	● 写过程序的都知道
● 看来电脑围棋压倒人类就在今年了 (转载)	● 蒙特卡罗是不是有天生缺陷？
● 大家对Alphago的胜率理解有误	● 喆理围棋---关于Google人工智能围棋的访谈
● 田渊栋【facebook 围棋程序负责人】：我怎么看 AlphaGo？	● 我以前提到过阿法狗应该有更灵活的用时策略
● 阿法狗第二局最令人震惊的地方在于	● 接下来的李世石，将是痛不欲生的三局对局

相关话题的讨论汇总
话题: 阿法话题: 练习话题: 研讨话题: 搜索话题: 蒙特卡罗

#	版面	帖数(主题数)
-	全站	4871 (796)
1	Military	3777 (569)
2	Stock	341 (51)
3	Joke	117 (17)
4	History	116 (3)
5	Automobile	100 (9)
6	USANews	55 (9)
7	Midlife	45 (1)
8	Headline	41 (41)
9	Dreamer	33 (13)
10	FleaMarket	32 (20)
11	Living	30 (7)

boards

未名新帖统计// 7月16日

历史上的今天