由买买提看人间百态

boards

本页内容为未名空间相应帖子的节选和存档,一周内的贴子最多显示50字,超过一周显示500字 访问原贴
Go版 - 阿法狗怎么做到每天练习几十万盘棋?
相关主题
看来电脑围棋压倒人类就在今年了 (转载)蒙特卡罗是不是有天生缺陷?
大家对Alphago的胜率理解有误喆理围棋---关于Google人工智能围棋的访谈
田渊栋【facebook 围棋程序负责人】:我怎么看 AlphaGo?我以前提到过阿法狗应该有更灵活的用时策略
阿法狗第二局最令人震惊的地方在于接下来的李世石,将是痛不欲生的三局对局
金明完9段点评AlphaGo: 缺点明显阿发狗仍然不是不可战胜
阿法狗生怕人类还不够绝望哈比斯说没用高手期局训练啊
从第四盘棋看狗狗的弱点仔细想了一下,阿法狗的算法在劫争上完全没有漏洞
写过程序的都知道科学家发现新算法 围棋程序将达职业棋手水平
相关话题的讨论汇总
话题: 阿法话题: 练习话题: 研讨话题: 搜索话题: 蒙特卡罗
进入Go版参与讨论
1 (共1页)
q*****C
发帖数: 114
1
它跟小李对局用了5个小时,如果它练习的时候跟比赛一模一样,就算它开启多线程,
但是因为计算资源有限,每天怎么可能真实模拟下几十万盘棋?除非它练习的时候根比
赛是不一样的。
懂行的解释一下。
h*h
发帖数: 27852
2
10000个进程,20分钟1局,3x24=72万盘
q*****C
发帖数: 114
3
我想到多进程了呀,但是你要说10000个进程,计算资源哪里来?你要说20分钟一局,
为什么它跟小李下不用20分钟自己的时间?
回过头来说,如果你说的数字对,那么它跟小李下的时候,因为计算资源全部用在唯一
一个线程上,那岂不是比它平时强了一万倍?或者说它平时学习的时候就是学了一堆渣
渣?:)

【在 h*h 的大作中提到】
: 10000个进程,20分钟1局,3x24=72万盘
q*****C
发帖数: 114
4
如果真是这样,那么我可以推论出来,阿法狗所谓的练习了上亿盘棋局,其实是假的,
因为它学习的时候不是真的模拟跟真人过招的棋局。当然,即使这样,它还是能进步,
能够丰富它的数据库和修正其算法参数,但是如果说跟人一样通过下真实的棋积累经验
,它其实没有那么多盘的棋力。
我的两分钱。

【在 q*****C 的大作中提到】
: 我想到多进程了呀,但是你要说10000个进程,计算资源哪里来?你要说20分钟一局,
: 为什么它跟小李下不用20分钟自己的时间?
: 回过头来说,如果你说的数字对,那么它跟小李下的时候,因为计算资源全部用在唯一
: 一个线程上,那岂不是比它平时强了一万倍?或者说它平时学习的时候就是学了一堆渣
: 渣?:)

h*********n
发帖数: 11319
5
不一样
阿发狗相当于用神经网络来优化搜索。练习的时候相当于训练这个神经网络,昨天是实
际用上这个神经网络
举个网友的解释
发信人: softmagic (魔术师), 信区: Weiqi
标 题: 用一种真正便于棋手理解的方式解释alphago的算法
发信站: 水木社区 (Thu Mar 10 07:58:11 2016), 转信
其实讲深度学习没有什么太大意义,那些都是离线做好的,
alphago下棋的时候并不需要深度学习。
但是事先做好的深度学习训练的模型保证了下面讲的参与“研讨”的选手的质量水平。
AlphaGo 的MCTS算法相当于几万个业余3-5段的选手,经过合理的组织,在
1分钟内研讨了几百万盘当前局面下的后续对局发展。最终得出一个最有希望
获胜的招法。
这种合理组织并且表现在:
1.每个局面下,越有“合理招法”希望的落子,会被更多的“研讨对局”,通常比如当前
局面下,最有希望的落子位置会比,希望第二大的落子位置研讨次数多出一个数量级。
这个就是UCT算法,理论上来说,UCT一定会收敛到最优解。
但是需要的时间不切合实际。
2.比较容易被忽略的是,在研讨过程中,他们的各个局部的研究结论会以一种
高效的形式彼此沟通,换句话说,关于目前局面发现出来的知识是共享的。
这个非常有用是因为研讨的局面非常多的局部雷同性。
补充一点,
在MCTS+UCT刚出来的时候,一下子棋力提高了四个子。
但是发展起来后遇到的提高的瓶颈就是我这里说的“研讨对局”的质量不高,
有时候甚至相当于随机落子。
当时的研究就推测如果“研究对局”的质量达到业余3、5段的水平,
MCTS就可以PK职业选手了。
现在的发展只是证明了预测的正确。这种做法的威力确实很大。

【在 q*****C 的大作中提到】
: 它跟小李对局用了5个小时,如果它练习的时候跟比赛一模一样,就算它开启多线程,
: 但是因为计算资源有限,每天怎么可能真实模拟下几十万盘棋?除非它练习的时候根比
: 赛是不一样的。
: 懂行的解释一下。

D*******r
发帖数: 2323
6
我以前有帖子解释过,它自己和自己下棋是用成千上万的的对局来train自己的policy
network和value network,这两部分都非常快,微秒级就是一步,一局棋也就是几秒钟。
它真正对弈时耗时的部分还是蒙特卡罗搜索,但是蒙特卡罗搜索是不用training的,尤
其是它左右互搏时,两个狗都是用的同样的搜索algorithm在搜索计算,两只狗算的到
的变化都一模一样,对棋局的胜负没有任何影响。

【在 q*****C 的大作中提到】
: 它跟小李对局用了5个小时,如果它练习的时候跟比赛一模一样,就算它开启多线程,
: 但是因为计算资源有限,每天怎么可能真实模拟下几十万盘棋?除非它练习的时候根比
: 赛是不一样的。
: 懂行的解释一下。

q*****C
发帖数: 114
7
多谢多谢,这个就解释了我的困惑。
不过这样看来,阿法狗确实不可能跟人类高手十年高水平棋局积累的经验相比。我看如
果真人高手组个团,目前阶段应该能完胜阿法狗。

【在 h*********n 的大作中提到】
: 不一样
: 阿发狗相当于用神经网络来优化搜索。练习的时候相当于训练这个神经网络,昨天是实
: 际用上这个神经网络
: 举个网友的解释
: 发信人: softmagic (魔术师), 信区: Weiqi
: 标 题: 用一种真正便于棋手理解的方式解释alphago的算法
: 发信站: 水木社区 (Thu Mar 10 07:58:11 2016), 转信
: 其实讲深度学习没有什么太大意义,那些都是离线做好的,
: alphago下棋的时候并不需要深度学习。
: 但是事先做好的深度学习训练的模型保证了下面讲的参与“研讨”的选手的质量水平。

o*****p
发帖数: 2977
8
我的印象不是这样。train的时候它不但会引入随机(不然会overfit),而且是用不
同版本的alphago对弈。

policy
钟。

【在 D*******r 的大作中提到】
: 我以前有帖子解释过,它自己和自己下棋是用成千上万的的对局来train自己的policy
: network和value network,这两部分都非常快,微秒级就是一步,一局棋也就是几秒钟。
: 它真正对弈时耗时的部分还是蒙特卡罗搜索,但是蒙特卡罗搜索是不用training的,尤
: 其是它左右互搏时,两个狗都是用的同样的搜索algorithm在搜索计算,两只狗算的到
: 的变化都一模一样,对棋局的胜负没有任何影响。

h*h
发帖数: 27852
9
群殴一,就不是围棋了啊

【在 q*****C 的大作中提到】
: 多谢多谢,这个就解释了我的困惑。
: 不过这样看来,阿法狗确实不可能跟人类高手十年高水平棋局积累的经验相比。我看如
: 果真人高手组个团,目前阶段应该能完胜阿法狗。

D*******r
发帖数: 2323
10
不同版本的阿法狗也是在神经网络的train的version不同而已,不是蒙特卡罗搜索的版
本不同。

【在 o*****p 的大作中提到】
: 我的印象不是这样。train的时候它不但会引入随机(不然会overfit),而且是用不
: 同版本的alphago对弈。
:
: policy
: 钟。

相关主题
阿法狗生怕人类还不够绝望蒙特卡罗是不是有天生缺陷?
从第四盘棋看狗狗的弱点喆理围棋---关于Google人工智能围棋的访谈
写过程序的都知道我以前提到过阿法狗应该有更灵活的用时策略
进入Go版参与讨论
q*****C
发帖数: 114
11
sorry 这个我看不懂。
你是说它练习的时候根本不当真?就是走完一步棋就算完,然后再把结果当成数据库?
如果练习的时候不用蒙特卡罗搜索,那么它如何选择落子?这样的练习还有什么意义?
sorry 我可能太小白,之前一位说的相当于上万个普通棋手摆棋研讨,那个我懂了,而
且看起来是最适合目前计算机的方法。但是反过来说,如果我选出20个9段高手,也这
么搞,很大可能就轻松赢三万个业余选手组的队了吧?

policy
钟。

【在 D*******r 的大作中提到】
: 我以前有帖子解释过,它自己和自己下棋是用成千上万的的对局来train自己的policy
: network和value network,这两部分都非常快,微秒级就是一步,一局棋也就是几秒钟。
: 它真正对弈时耗时的部分还是蒙特卡罗搜索,但是蒙特卡罗搜索是不用training的,尤
: 其是它左右互搏时,两个狗都是用的同样的搜索algorithm在搜索计算,两只狗算的到
: 的变化都一模一样,对棋局的胜负没有任何影响。

o*****p
发帖数: 2977
12
不同版本下,两个狗搜索的变化就会不同。

【在 D*******r 的大作中提到】
: 不同版本的阿法狗也是在神经网络的train的version不同而已,不是蒙特卡罗搜索的版
: 本不同。

q*****C
发帖数: 114
13
是,规则上说就不是一对一了。
但是,我也可以argue说阿法狗本身就不是“一个选手”在下棋啊。而且,更进一步说
,这说明AI其实还是赢不了人类思维的 teamwork 啊。
我小白,轻拍 :)

【在 h*h 的大作中提到】
: 群殴一,就不是围棋了啊
s***u
发帖数: 80
14
人类的teamwork也只会是延缓失败的步伐吧

【在 q*****C 的大作中提到】
: 是,规则上说就不是一对一了。
: 但是,我也可以argue说阿法狗本身就不是“一个选手”在下棋啊。而且,更进一步说
: ,这说明AI其实还是赢不了人类思维的 teamwork 啊。
: 我小白,轻拍 :)

q*****C
发帖数: 114
15
恩,所谓量变到质变,如果哪天电脑不是三万个业余3段在开会讨论,而是三万个职业5
段在组团对战,人类似乎把握就不大了。。。
很难想像去找200个职业9段来组团啊 :)

【在 s***u 的大作中提到】
: 人类的teamwork也只会是延缓失败的步伐吧
D*******r
发帖数: 2323
16
是相当于摆了几十万到上百万个变化图研讨,根据每个变化图来调整自己的policy
network的走子策略有没有漏算,自己的value network的加权价值是否准确。
而蒙特卡罗是在走子策略选定的参考点范围内进行计算,而它的赢棋概率也是结合
value network做加权调整。蒙特卡罗搜索本身就是树状搜索,然后砍枝淘汰。这个是
固定的algorithm,不是同过train出来的,所以左右互搏训练时,不需要加入搜索计算。

【在 q*****C 的大作中提到】
: sorry 这个我看不懂。
: 你是说它练习的时候根本不当真?就是走完一步棋就算完,然后再把结果当成数据库?
: 如果练习的时候不用蒙特卡罗搜索,那么它如何选择落子?这样的练习还有什么意义?
: sorry 我可能太小白,之前一位说的相当于上万个普通棋手摆棋研讨,那个我懂了,而
: 且看起来是最适合目前计算机的方法。但是反过来说,如果我选出20个9段高手,也这
: 么搞,很大可能就轻松赢三万个业余选手组的队了吧?
:
: policy
: 钟。

D*******r
发帖数: 2323
17
你这么想吧,阿法狗左右互搏相当于职业棋手平时在网上下大量的10秒,20秒的超快棋
,它是为了培养棋感,而不是依靠计算的训练棋。

算。

【在 D*******r 的大作中提到】
: 是相当于摆了几十万到上百万个变化图研讨,根据每个变化图来调整自己的policy
: network的走子策略有没有漏算,自己的value network的加权价值是否准确。
: 而蒙特卡罗是在走子策略选定的参考点范围内进行计算,而它的赢棋概率也是结合
: value network做加权调整。蒙特卡罗搜索本身就是树状搜索,然后砍枝淘汰。这个是
: 固定的algorithm,不是同过train出来的,所以左右互搏训练时,不需要加入搜索计算。

q*****C
发帖数: 114
18
多谢!我有点感觉了!
我来复述以下,是不是绛紫:因为围棋变化实在太多,所以如果“死记硬背”式的用枚
举法,那么计算机似乎永远都算不过来。所以他们用了两个神经网络来减少了绝大部分
可能的排列组合,但是具体怎么减少,怎么优化,实际上是摸着石头过河。所以,平时
电脑就一直不停的这么下呀下,摆不同的走棋,然后根据这个结果来反馈调整之前的神
经网络设置,争取做到不是那么“摸着石头过河”。
我觉得,这样做,实际上是在用一种 assuming 高效的模式,但是本质上还是在枚举,
只不过现在是在进行电脑认为有价值的枚举。然后把这些结果存到数据库里面,真正比
赛的时候就遍历这个数据库,找到最接近的一个局势,然后选择赢棋概率最大的下一步
解决方案。
不知到这么说领会中心思想了没有?哇哈哈。

算。

【在 D*******r 的大作中提到】
: 是相当于摆了几十万到上百万个变化图研讨,根据每个变化图来调整自己的policy
: network的走子策略有没有漏算,自己的value network的加权价值是否准确。
: 而蒙特卡罗是在走子策略选定的参考点范围内进行计算,而它的赢棋概率也是结合
: value network做加权调整。蒙特卡罗搜索本身就是树状搜索,然后砍枝淘汰。这个是
: 固定的algorithm,不是同过train出来的,所以左右互搏训练时,不需要加入搜索计算。

k*l
发帖数: 2574
19
那还是在练定式?
l*****z
发帖数: 3022
20
狗的数据中心平时闲置的instance远远大于一万个。。。

【在 q*****C 的大作中提到】
: 我想到多进程了呀,但是你要说10000个进程,计算资源哪里来?你要说20分钟一局,
: 为什么它跟小李下不用20分钟自己的时间?
: 回过头来说,如果你说的数字对,那么它跟小李下的时候,因为计算资源全部用在唯一
: 一个线程上,那岂不是比它平时强了一万倍?或者说它平时学习的时候就是学了一堆渣
: 渣?:)

相关主题
接下来的李世石,将是痛不欲生的三局对局仔细想了一下,阿法狗的算法在劫争上完全没有漏洞
阿发狗仍然不是不可战胜科学家发现新算法 围棋程序将达职业棋手水平
哈比斯说没用高手期局训练啊阿法狗怎样算气的?
进入Go版参与讨论
q*****C
发帖数: 114
21
我觉得看你怎么定义定式了。
计算机只能靠计算和遍历数据库,我想至少现阶段的电脑只能这样,大家没异议吧。传
统意义上的定式,对电脑来说,它数据库里面的咚咚要多多了啊。而且因为围棋不可能
枚举,所以它依靠神经网络下出来的训练棋,肯定不可能包罗万象。所以,真正比赛的
时候,它也只有选择一个最合适的局势,然后判断一个最合适的下一步,这些都只能依
靠它已经枚举过,并且已经保存到数据库里面的棋局了吧?

【在 k*l 的大作中提到】
: 那还是在练定式?
a****o
发帖数: 6612
22
因为可以开几万台电脑同时对下;然后把下出来的棋谱进行training。

【在 q*****C 的大作中提到】
: 它跟小李对局用了5个小时,如果它练习的时候跟比赛一模一样,就算它开启多线程,
: 但是因为计算资源有限,每天怎么可能真实模拟下几十万盘棋?除非它练习的时候根比
: 赛是不一样的。
: 懂行的解释一下。

E*******1
发帖数: 3464
23
计算机是可以多线程并行的,相当于几十万个李师师互掐,最后通通气交流一下今天的
学习心得

【在 q*****C 的大作中提到】
: 它跟小李对局用了5个小时,如果它练习的时候跟比赛一模一样,就算它开启多线程,
: 但是因为计算资源有限,每天怎么可能真实模拟下几十万盘棋?除非它练习的时候根比
: 赛是不一样的。
: 懂行的解释一下。

1 (共1页)
进入Go版参与讨论
相关主题
科学家发现新算法 围棋程序将达职业棋手水平金明完9段点评AlphaGo: 缺点明显
阿法狗怎样算气的?阿法狗生怕人类还不够绝望
新买的棋具,摆了盘棋从第四盘棋看狗狗的弱点
神经网络的结构决定了他的极限写过程序的都知道
看来电脑围棋压倒人类就在今年了 (转载)蒙特卡罗是不是有天生缺陷?
大家对Alphago的胜率理解有误喆理围棋---关于Google人工智能围棋的访谈
田渊栋【facebook 围棋程序负责人】:我怎么看 AlphaGo?我以前提到过阿法狗应该有更灵活的用时策略
阿法狗第二局最令人震惊的地方在于接下来的李世石,将是痛不欲生的三局对局
相关话题的讨论汇总
话题: 阿法话题: 练习话题: 研讨话题: 搜索话题: 蒙特卡罗