q*****C 发帖数: 114 | 1 它跟小李对局用了5个小时,如果它练习的时候跟比赛一模一样,就算它开启多线程,
但是因为计算资源有限,每天怎么可能真实模拟下几十万盘棋?除非它练习的时候根比
赛是不一样的。
懂行的解释一下。 |
h*h 发帖数: 27852 | 2 10000个进程,20分钟1局,3x24=72万盘 |
q*****C 发帖数: 114 | 3 我想到多进程了呀,但是你要说10000个进程,计算资源哪里来?你要说20分钟一局,
为什么它跟小李下不用20分钟自己的时间?
回过头来说,如果你说的数字对,那么它跟小李下的时候,因为计算资源全部用在唯一
一个线程上,那岂不是比它平时强了一万倍?或者说它平时学习的时候就是学了一堆渣
渣?:)
【在 h*h 的大作中提到】 : 10000个进程,20分钟1局,3x24=72万盘
|
q*****C 发帖数: 114 | 4 如果真是这样,那么我可以推论出来,阿法狗所谓的练习了上亿盘棋局,其实是假的,
因为它学习的时候不是真的模拟跟真人过招的棋局。当然,即使这样,它还是能进步,
能够丰富它的数据库和修正其算法参数,但是如果说跟人一样通过下真实的棋积累经验
,它其实没有那么多盘的棋力。
我的两分钱。
【在 q*****C 的大作中提到】 : 我想到多进程了呀,但是你要说10000个进程,计算资源哪里来?你要说20分钟一局, : 为什么它跟小李下不用20分钟自己的时间? : 回过头来说,如果你说的数字对,那么它跟小李下的时候,因为计算资源全部用在唯一 : 一个线程上,那岂不是比它平时强了一万倍?或者说它平时学习的时候就是学了一堆渣 : 渣?:)
|
h*********n 发帖数: 11319 | 5 不一样
阿发狗相当于用神经网络来优化搜索。练习的时候相当于训练这个神经网络,昨天是实
际用上这个神经网络
举个网友的解释
发信人: softmagic (魔术师), 信区: Weiqi
标 题: 用一种真正便于棋手理解的方式解释alphago的算法
发信站: 水木社区 (Thu Mar 10 07:58:11 2016), 转信
其实讲深度学习没有什么太大意义,那些都是离线做好的,
alphago下棋的时候并不需要深度学习。
但是事先做好的深度学习训练的模型保证了下面讲的参与“研讨”的选手的质量水平。
AlphaGo 的MCTS算法相当于几万个业余3-5段的选手,经过合理的组织,在
1分钟内研讨了几百万盘当前局面下的后续对局发展。最终得出一个最有希望
获胜的招法。
这种合理组织并且表现在:
1.每个局面下,越有“合理招法”希望的落子,会被更多的“研讨对局”,通常比如当前
局面下,最有希望的落子位置会比,希望第二大的落子位置研讨次数多出一个数量级。
这个就是UCT算法,理论上来说,UCT一定会收敛到最优解。
但是需要的时间不切合实际。
2.比较容易被忽略的是,在研讨过程中,他们的各个局部的研究结论会以一种
高效的形式彼此沟通,换句话说,关于目前局面发现出来的知识是共享的。
这个非常有用是因为研讨的局面非常多的局部雷同性。
补充一点,
在MCTS+UCT刚出来的时候,一下子棋力提高了四个子。
但是发展起来后遇到的提高的瓶颈就是我这里说的“研讨对局”的质量不高,
有时候甚至相当于随机落子。
当时的研究就推测如果“研究对局”的质量达到业余3、5段的水平,
MCTS就可以PK职业选手了。
现在的发展只是证明了预测的正确。这种做法的威力确实很大。
【在 q*****C 的大作中提到】 : 它跟小李对局用了5个小时,如果它练习的时候跟比赛一模一样,就算它开启多线程, : 但是因为计算资源有限,每天怎么可能真实模拟下几十万盘棋?除非它练习的时候根比 : 赛是不一样的。 : 懂行的解释一下。
|
D*******r 发帖数: 2323 | 6 我以前有帖子解释过,它自己和自己下棋是用成千上万的的对局来train自己的policy
network和value network,这两部分都非常快,微秒级就是一步,一局棋也就是几秒钟。
它真正对弈时耗时的部分还是蒙特卡罗搜索,但是蒙特卡罗搜索是不用training的,尤
其是它左右互搏时,两个狗都是用的同样的搜索algorithm在搜索计算,两只狗算的到
的变化都一模一样,对棋局的胜负没有任何影响。
【在 q*****C 的大作中提到】 : 它跟小李对局用了5个小时,如果它练习的时候跟比赛一模一样,就算它开启多线程, : 但是因为计算资源有限,每天怎么可能真实模拟下几十万盘棋?除非它练习的时候根比 : 赛是不一样的。 : 懂行的解释一下。
|
q*****C 发帖数: 114 | 7 多谢多谢,这个就解释了我的困惑。
不过这样看来,阿法狗确实不可能跟人类高手十年高水平棋局积累的经验相比。我看如
果真人高手组个团,目前阶段应该能完胜阿法狗。
【在 h*********n 的大作中提到】 : 不一样 : 阿发狗相当于用神经网络来优化搜索。练习的时候相当于训练这个神经网络,昨天是实 : 际用上这个神经网络 : 举个网友的解释 : 发信人: softmagic (魔术师), 信区: Weiqi : 标 题: 用一种真正便于棋手理解的方式解释alphago的算法 : 发信站: 水木社区 (Thu Mar 10 07:58:11 2016), 转信 : 其实讲深度学习没有什么太大意义,那些都是离线做好的, : alphago下棋的时候并不需要深度学习。 : 但是事先做好的深度学习训练的模型保证了下面讲的参与“研讨”的选手的质量水平。
|
o*****p 发帖数: 2977 | 8 我的印象不是这样。train的时候它不但会引入随机(不然会overfit),而且是用不
同版本的alphago对弈。
policy
钟。
【在 D*******r 的大作中提到】 : 我以前有帖子解释过,它自己和自己下棋是用成千上万的的对局来train自己的policy : network和value network,这两部分都非常快,微秒级就是一步,一局棋也就是几秒钟。 : 它真正对弈时耗时的部分还是蒙特卡罗搜索,但是蒙特卡罗搜索是不用training的,尤 : 其是它左右互搏时,两个狗都是用的同样的搜索algorithm在搜索计算,两只狗算的到 : 的变化都一模一样,对棋局的胜负没有任何影响。
|
h*h 发帖数: 27852 | 9 群殴一,就不是围棋了啊
【在 q*****C 的大作中提到】 : 多谢多谢,这个就解释了我的困惑。 : 不过这样看来,阿法狗确实不可能跟人类高手十年高水平棋局积累的经验相比。我看如 : 果真人高手组个团,目前阶段应该能完胜阿法狗。
|
D*******r 发帖数: 2323 | 10 不同版本的阿法狗也是在神经网络的train的version不同而已,不是蒙特卡罗搜索的版
本不同。
【在 o*****p 的大作中提到】 : 我的印象不是这样。train的时候它不但会引入随机(不然会overfit),而且是用不 : 同版本的alphago对弈。 : : policy : 钟。
|
|
|
q*****C 发帖数: 114 | 11 sorry 这个我看不懂。
你是说它练习的时候根本不当真?就是走完一步棋就算完,然后再把结果当成数据库?
如果练习的时候不用蒙特卡罗搜索,那么它如何选择落子?这样的练习还有什么意义?
sorry 我可能太小白,之前一位说的相当于上万个普通棋手摆棋研讨,那个我懂了,而
且看起来是最适合目前计算机的方法。但是反过来说,如果我选出20个9段高手,也这
么搞,很大可能就轻松赢三万个业余选手组的队了吧?
policy
钟。
【在 D*******r 的大作中提到】 : 我以前有帖子解释过,它自己和自己下棋是用成千上万的的对局来train自己的policy : network和value network,这两部分都非常快,微秒级就是一步,一局棋也就是几秒钟。 : 它真正对弈时耗时的部分还是蒙特卡罗搜索,但是蒙特卡罗搜索是不用training的,尤 : 其是它左右互搏时,两个狗都是用的同样的搜索algorithm在搜索计算,两只狗算的到 : 的变化都一模一样,对棋局的胜负没有任何影响。
|
o*****p 发帖数: 2977 | 12 不同版本下,两个狗搜索的变化就会不同。
【在 D*******r 的大作中提到】 : 不同版本的阿法狗也是在神经网络的train的version不同而已,不是蒙特卡罗搜索的版 : 本不同。
|
q*****C 发帖数: 114 | 13 是,规则上说就不是一对一了。
但是,我也可以argue说阿法狗本身就不是“一个选手”在下棋啊。而且,更进一步说
,这说明AI其实还是赢不了人类思维的 teamwork 啊。
我小白,轻拍 :)
【在 h*h 的大作中提到】 : 群殴一,就不是围棋了啊
|
s***u 发帖数: 80 | 14 人类的teamwork也只会是延缓失败的步伐吧
【在 q*****C 的大作中提到】 : 是,规则上说就不是一对一了。 : 但是,我也可以argue说阿法狗本身就不是“一个选手”在下棋啊。而且,更进一步说 : ,这说明AI其实还是赢不了人类思维的 teamwork 啊。 : 我小白,轻拍 :)
|
q*****C 发帖数: 114 | 15 恩,所谓量变到质变,如果哪天电脑不是三万个业余3段在开会讨论,而是三万个职业5
段在组团对战,人类似乎把握就不大了。。。
很难想像去找200个职业9段来组团啊 :)
【在 s***u 的大作中提到】 : 人类的teamwork也只会是延缓失败的步伐吧
|
D*******r 发帖数: 2323 | 16 是相当于摆了几十万到上百万个变化图研讨,根据每个变化图来调整自己的policy
network的走子策略有没有漏算,自己的value network的加权价值是否准确。
而蒙特卡罗是在走子策略选定的参考点范围内进行计算,而它的赢棋概率也是结合
value network做加权调整。蒙特卡罗搜索本身就是树状搜索,然后砍枝淘汰。这个是
固定的algorithm,不是同过train出来的,所以左右互搏训练时,不需要加入搜索计算。
【在 q*****C 的大作中提到】 : sorry 这个我看不懂。 : 你是说它练习的时候根本不当真?就是走完一步棋就算完,然后再把结果当成数据库? : 如果练习的时候不用蒙特卡罗搜索,那么它如何选择落子?这样的练习还有什么意义? : sorry 我可能太小白,之前一位说的相当于上万个普通棋手摆棋研讨,那个我懂了,而 : 且看起来是最适合目前计算机的方法。但是反过来说,如果我选出20个9段高手,也这 : 么搞,很大可能就轻松赢三万个业余选手组的队了吧? : : policy : 钟。
|
D*******r 发帖数: 2323 | 17 你这么想吧,阿法狗左右互搏相当于职业棋手平时在网上下大量的10秒,20秒的超快棋
,它是为了培养棋感,而不是依靠计算的训练棋。
算。
【在 D*******r 的大作中提到】 : 是相当于摆了几十万到上百万个变化图研讨,根据每个变化图来调整自己的policy : network的走子策略有没有漏算,自己的value network的加权价值是否准确。 : 而蒙特卡罗是在走子策略选定的参考点范围内进行计算,而它的赢棋概率也是结合 : value network做加权调整。蒙特卡罗搜索本身就是树状搜索,然后砍枝淘汰。这个是 : 固定的algorithm,不是同过train出来的,所以左右互搏训练时,不需要加入搜索计算。
|
q*****C 发帖数: 114 | 18 多谢!我有点感觉了!
我来复述以下,是不是绛紫:因为围棋变化实在太多,所以如果“死记硬背”式的用枚
举法,那么计算机似乎永远都算不过来。所以他们用了两个神经网络来减少了绝大部分
可能的排列组合,但是具体怎么减少,怎么优化,实际上是摸着石头过河。所以,平时
电脑就一直不停的这么下呀下,摆不同的走棋,然后根据这个结果来反馈调整之前的神
经网络设置,争取做到不是那么“摸着石头过河”。
我觉得,这样做,实际上是在用一种 assuming 高效的模式,但是本质上还是在枚举,
只不过现在是在进行电脑认为有价值的枚举。然后把这些结果存到数据库里面,真正比
赛的时候就遍历这个数据库,找到最接近的一个局势,然后选择赢棋概率最大的下一步
解决方案。
不知到这么说领会中心思想了没有?哇哈哈。
算。
【在 D*******r 的大作中提到】 : 是相当于摆了几十万到上百万个变化图研讨,根据每个变化图来调整自己的policy : network的走子策略有没有漏算,自己的value network的加权价值是否准确。 : 而蒙特卡罗是在走子策略选定的参考点范围内进行计算,而它的赢棋概率也是结合 : value network做加权调整。蒙特卡罗搜索本身就是树状搜索,然后砍枝淘汰。这个是 : 固定的algorithm,不是同过train出来的,所以左右互搏训练时,不需要加入搜索计算。
|
k*l 发帖数: 2574 | |
l*****z 发帖数: 3022 | 20 狗的数据中心平时闲置的instance远远大于一万个。。。
【在 q*****C 的大作中提到】 : 我想到多进程了呀,但是你要说10000个进程,计算资源哪里来?你要说20分钟一局, : 为什么它跟小李下不用20分钟自己的时间? : 回过头来说,如果你说的数字对,那么它跟小李下的时候,因为计算资源全部用在唯一 : 一个线程上,那岂不是比它平时强了一万倍?或者说它平时学习的时候就是学了一堆渣 : 渣?:)
|
|
|
q*****C 发帖数: 114 | 21 我觉得看你怎么定义定式了。
计算机只能靠计算和遍历数据库,我想至少现阶段的电脑只能这样,大家没异议吧。传
统意义上的定式,对电脑来说,它数据库里面的咚咚要多多了啊。而且因为围棋不可能
枚举,所以它依靠神经网络下出来的训练棋,肯定不可能包罗万象。所以,真正比赛的
时候,它也只有选择一个最合适的局势,然后判断一个最合适的下一步,这些都只能依
靠它已经枚举过,并且已经保存到数据库里面的棋局了吧?
【在 k*l 的大作中提到】 : 那还是在练定式?
|
a****o 发帖数: 6612 | 22 因为可以开几万台电脑同时对下;然后把下出来的棋谱进行training。
【在 q*****C 的大作中提到】 : 它跟小李对局用了5个小时,如果它练习的时候跟比赛一模一样,就算它开启多线程, : 但是因为计算资源有限,每天怎么可能真实模拟下几十万盘棋?除非它练习的时候根比 : 赛是不一样的。 : 懂行的解释一下。
|
E*******1 发帖数: 3464 | 23 计算机是可以多线程并行的,相当于几十万个李师师互掐,最后通通气交流一下今天的
学习心得
【在 q*****C 的大作中提到】 : 它跟小李对局用了5个小时,如果它练习的时候跟比赛一模一样,就算它开启多线程, : 但是因为计算资源有限,每天怎么可能真实模拟下几十万盘棋?除非它练习的时候根比 : 赛是不一样的。 : 懂行的解释一下。
|