由买买提看人间百态

boards

本页内容为未名空间相应帖子的节选和存档,一周内的贴子最多显示50字,超过一周显示500字 访问原贴
Go版 - 看来电脑围棋压倒人类就在今年了 (转载)
相关主题
阿法狗怎么做到每天练习几十万盘棋?接下来的李世石,将是痛不欲生的三局对局
金明完9段点评AlphaGo: 缺点明显AlphaGo的算法等技术分析
大家对Alphago的胜率理解有误兄弟早就说阿发狗是会犯错误的
从第四盘棋看狗狗的弱点ALPHAGO输棋分析之四 -- 解决
罗洗河让AlphaGo四子的说法没有什么错哈比斯说没用高手期局训练啊
田渊栋【facebook 围棋程序负责人】:我怎么看 AlphaGo?AlphaGo通俗的解释
观战:人机大战李世石消极完败 陷入背水一战神经网络的结构决定了他的极限
阿法狗第二局最令人震惊的地方在于原来阿尔法下的是5秒版的ZEN
相关话题的讨论汇总
话题: 研讨话题: 落子话题: uct话题: mcts话题: 对局
进入Go版参与讨论
1 (共1页)
h*h
发帖数: 27852
1
【 以下文字转载自 Military 讨论区 】
发信人: hsh (三胡), 信区: Military
标 题: 看来电脑围棋压倒人类就在今年了
发信站: BBS 未名空间站 (Wed Mar 9 19:58:43 2016, 美东)
看来电脑围棋压倒人类就在今年了:电脑对人 = 几十万个职业三段 围殴 一个人
发信人: softmagic (魔术师), 信区: Weiqi
标 题: 用一种真正便于棋手理解的方式解释alphago的算法
发信站: 水木社区 (Thu Mar 10 07:58:11 2016), 转信
其实讲深度学习没有什么太大意义,那些都是离线做好的,
alphago下棋的时候并不需要深度学习。
但是事先做好的深度学习训练的模型保证了下面讲的参与“研讨”的选手的质量水平。
AlphaGo 的MCTS算法相当于几万个业余3-5段的选手,经过合理的组织,在
1分钟内研讨了几百万盘当前局面下的后续对局发展。最终得出一个最有希望
获胜的招法。
这种合理组织并且表现在:
1.每个局面下,越有“合理招法”希望的落子,会被更多的“研讨对局”,通常比如当前
局面下,最有希望的落子位置会比,希望第二大的落子位置研讨次数多出一个数量级。
这个就是UCT算法,理论上来说,UCT一定会收敛到最优解。
但是需要的时间不切合实际。
2.比较容易被忽略的是,在研讨过程中,他们的各个局部的研究结论会以一种
高效的形式彼此沟通,换句话说,关于目前局面发现出来的知识是共享的。
这个非常有用是因为研讨的局面非常多的局部雷同性。
补充一点,
在MCTS+UCT刚出来的时候,一下子棋力提高了四个子。
但是发展起来后遇到的提高的瓶颈就是我这里说的“研讨对局”的质量不高,
有时候甚至相当于随机落子。
当时的研究就推测如果“研究对局”的质量达到业余3、5段的水平,
MCTS就可以PK职业选手了。
现在的发展只是证明了预测的正确。这种做法的威力确实很大。
1 (共1页)
进入Go版参与讨论
相关主题
原来阿尔法下的是5秒版的ZEN罗洗河让AlphaGo四子的说法没有什么错
阿法狗生怕人类还不够绝望田渊栋【facebook 围棋程序负责人】:我怎么看 AlphaGo?
写过程序的都知道观战:人机大战李世石消极完败 陷入背水一战
看大家讨论中比较少提这个 reinforcement learning阿法狗第二局最令人震惊的地方在于
阿法狗怎么做到每天练习几十万盘棋?接下来的李世石,将是痛不欲生的三局对局
金明完9段点评AlphaGo: 缺点明显AlphaGo的算法等技术分析
大家对Alphago的胜率理解有误兄弟早就说阿发狗是会犯错误的
从第四盘棋看狗狗的弱点ALPHAGO输棋分析之四 -- 解决
相关话题的讨论汇总
话题: 研讨话题: 落子话题: uct话题: mcts话题: 对局