从第四盘棋看狗狗的弱点 - Go版

本页内容为未名空间相应帖子的节选和存档，一周内的贴子最多显示50字，超过一周显示500字访问原贴

Go版 - 从第四盘棋看狗狗的弱点

相关主题
● 神经网络的结构决定了他的极限	● 金明完9段点评AlphaGo: 缺点明显
● 大家对Alphago的胜率理解有误	● 原来阿尔法下的是５秒版的ＺＥＮ
● 技术贴（懂围棋的请进）	● 阿法狗生怕人类还不够绝望
● 猜一下几个AlphaGo崩了的原因	● 写过程序的都知道
● AlphaGo通俗的解释	● 看大家讨论中比较少提这个 reinforcement learning
● 阿法狗怎么做到每天练习几十万盘棋？	● 锵锵请的港大计算机系主任不懂啊
● 看来电脑围棋压倒人类就在今年了 (转载)	● 据谣传，国内业6已经有被国产土狗让4个搞定的记录
● 大家都在说狗没算到那一招	● 这局李九段看起来是乱中取胜

相关话题的讨论汇总
话题: alphago话题: 搜索话题: mcts话题: 可能话题: 狗狗

进入Go版参与讨论

(共1页)

r******i
发帖数: 1445

本人曾经有一些编写棋类程序的经验，也看了nature的那篇文章。
首先从那篇文章来看，狗狗的算法是确定的。虽然他用了"神经网络“这么个看起来很
高大上的名词，在神经网络完成训练后，每次运行的结果是可预测、一定的。狗狗也不
存在什么情感。它就像一个计算器，或者电子回路，总会给出一个确定答案。
狗狗比其他软件的提高主要是用大数据训练出了高超的神经网络。狗狗声称只靠神经网
络，不进行深度计算，已经可以达到业余五段+的水平。
狗狗用了两种搜索方法。一种是经常被提及的”蒙特卡洛树形搜索“(Monte Carlo
Tree Search, MCTS)，一种没有被提到名字，但应该是min-max搜索法。前一种方法用
于围棋是在十年前开始的，使得软件的水平普遍从初学者水平提高到了业余段位。后一
种方法可以用于所有双人回合制零和游戏。这两种方法都有一些根本的、难以解决的弱
点。
蒙特卡洛树形搜索本质上就是摆棋谱看形势。比如在柯洁或者雷蒙讲解的时候，他们会
经常摆出一些变化来分析形势。通过这种分析和讲解，有时候讲棋的人能够成功预测双
方的实际落子。狗狗的蒙特卡洛搜索就是靠一个弱一点（业余段位）、但是很快（每步
棋2微妙）的神经网络来判断哪些着法很可能、可能性多大，然后（加权）随机摆谱。
与讲棋不同的是，每次这种谱都要摆到最后、能直接判断输赢的局面。然后狗狗统计大
量对局（比如1000盘）的结果，得出一个”胜率“作为判断当前局势的评价值。这种方
法在很多情况下是行之有效的，因为很多棋业余棋手就已经能下出来。再加上每次重新
摆谱的时候，可以根据后面的结果适当调整某一策略的概率（权重）。这样对胜率的估
算，多数情况下是适当的，或者至少是可以和别的局面相比较的。
大家可能一般认为软件的局部算力强，而没有全局观。然而蒙特卡洛法的强项却恰恰是
”全局观“。因为这种方法并不会把搜索局限在某个局部，而会给出一个整体的胜率。
这可能是狗狗总是走出一些出人意料的脱先的原因。
然而，如果出现了很复杂的局面（比如第四盘），很多要点可能是业余选手发现不了的
。这样即使你算一千盘、一万盘，有些很要紧的点也会被忽略。或者出现了一个需要很
多步才能杀的大龙。虽然每一步的随机落子都很有可能在杀大龙，但是/所有/落子都在
杀大龙的概率会大大降低（比如90% 乘 5次方就只有60%了）。对于这种局面的胜率判
断也会扭曲。这也可能是狗狗不喜欢打劫的原因。
在第4局中，狗狗就冒似出现了这样的错误。而当它发现错误时，为时已晚。
另外一个狗狗的搜索方法应该是min-max法。这个方法说起来很简单——自己走一步，
然后穷举（或者带有概率加权）对方的所有应手，然后找到对方最好的应手的分数（胜
率）来作为对自己这一步的判断。这是一种很朴素的、人类棋手也会用的思维方式。这
种搜索可以一直迭代下去，搜索很多层，只要时间允许。
然而这种搜索方法的复杂度随着搜索深度的增长呈指数增长。比如每一步可能有6个合
理的应手，思考6层就会有46656种局面要判断（要知道每个局面判断可能需要1000个
MCTS）。虽然存在一些剪枝方案可以是搜索层数增加至多一倍，这种搜索仍然是很消耗
计算资源的、有限的。由于层数总是有限的，所有的搜索引擎都面临着一个叫做”地平
线效应“(Horizon Effect)的恼人问题。
https://en.wikipedia.org/wiki/Horizon_effect
比如一个国象程序，搜索深度是6层，可以计算所有6手以内的变化。
然后电脑有一个皇后被吃死了——怎么也挽救不了。但是有一个手段，比如弃一个象，
可以让对手在6手以内吃不了这个皇后，电脑可能就会走这样的“昏招”。结果是电脑
不仅仅丢了个后，还白白丢了个象。
这种白白弃子延缓对方攻击的着法在人类看来是不可思议的，但是对于棋类软件来说确
是正确的逻辑——它避免了在自己的搜索空间内出现坏局面。这个问题是让所有棋软设
计者头疼的毛病，但是却很难解决。人类可以记忆在某个局部的变化，并且知道在别的
地方交换了几手棋不会改变这个局部变化。电脑却无法判断别的地方的交换是不是真的
没有影响——所以它必须重新算一次。而在别的地方的交换已经损耗了搜索层数，这样
电脑可能就无法解决这个局部了。
alphago可能就是遇到了类似的“地平线效应”。当时局面很复杂，走一些损的先手棋
可能会延迟坏局面在搜索树中的出现。于是就有了长自己已经死了的子的走法。雷蒙德
也提到了棋软在局面落后的时候经常会走各种先手棋。这大概都是出于“地平线效应”。
“地平线效应”可不是Aja Huang一朝一夕能解决的。他今天可能发现了这个问题，但
是却无可奈何。
所以对于人类棋手来说，可能需要好好利用软件搜索的弱点，多保留变化，把软件引到
地平线效应的陷阱里去。顶尖棋手可以有意制造一些不符合业余棋手直觉的盘面局势，
扭曲软件的胜率计算。

D**s
发帖数: 6361

赞
[在 rdfirdfi (rdfi) 的大作中提到：]
：本人曾经有一些编写棋类程序的经验，也看了nature的那篇文章。
：
：...........

n*********e
发帖数: 2181

这个水平效应，
颇有今朝有酒今朝醉的味道，
很多拿了救济金就去喝酒的，大脑是不是也就是深度几天的神经网络

【在 r******i 的大作中提到】

: 本人曾经有一些编写棋类程序的经验，也看了nature的那篇文章。
: 首先从那篇文章来看，狗狗的算法是确定的。虽然他用了"神经网络“这么个看起来很
: 高大上的名词，在神经网络完成训练后，每次运行的结果是可预测、一定的。狗狗也不
: 存在什么情感。它就像一个计算器，或者电子回路，总会给出一个确定答案。
: 狗狗比其他软件的提高主要是用大数据训练出了高超的神经网络。狗狗声称只靠神经网
: 络，不进行深度计算，已经可以达到业余五段+的水平。
: 狗狗用了两种搜索方法。一种是经常被提及的”蒙特卡洛树形搜索“(Monte Carlo
: Tree Search, MCTS)，一种没有被提到名字，但应该是min-max搜索法。前一种方法用
: 于围棋是在十年前开始的，使得软件的水平普遍从初学者水平提高到了业余段位。后一
: 种方法可以用于所有双人回合制零和游戏。这两种方法都有一些根本的、难以解决的弱

r******i
发帖数: 1445

这个好，哈哈哈

【在 n*********e 的大作中提到】

: 这个水平效应，
: 颇有今朝有酒今朝醉的味道，
: 很多拿了救济金就去喝酒的，大脑是不是也就是深度几天的神经网络

r********n
发帖数: 164

赞！！！

r********n
发帖数: 164

这个精辟！

【在 n*********e 的大作中提到】

: 这个水平效应，
: 颇有今朝有酒今朝醉的味道，
: 很多拿了救济金就去喝酒的，大脑是不是也就是深度几天的神经网络

n*******s
发帖数: 17267

石头以平常心下，不应该出现那个3：0的，特别是第一盘和第三盘，人有人的强处，
有些围棋深层的东西狗或者说设计狗的人不懂，但是时间和会出错的确不容易过关，
大高手不应该下违背棋理的东西。
希望看到3：2，觉得李应该恢复了平常心，再输的话，应该也没什么遗憾了。

l*****i
发帖数: 20533

关键第四盘狗表现出的是超低级失误。于是不能排除这种可能：一但掌握其弱点人类棋
手就随便都能赢。这就好比纵版射击游戏的boss，没掌握其规律前几乎怎么都过不了，
而一旦掌握其套路，就可以一币通关。关键这种弱点不是它学习可以解决的，而很可能
是其算法本质上的漏洞。
我很想看看如果保持第四盘的风格，也就是前期求稳，中期舞大龙，是不是阿发狗迟早
总会自己走出错招？

c*****w
发帖数: 50

赞,ai缺乏逻辑,不能从逻辑角度有效剪枝。

n*******s
发帖数: 17267

Zen也一样，判断自己不行的时候经常会下一些莫名其妙的棋子。
估计看到那个挖之后小李也在懊悔前面输的几盘棋，太拿狗当回事了，呵呵。

【在 l*****i 的大作中提到】

: 关键第四盘狗表现出的是超低级失误。于是不能排除这种可能：一但掌握其弱点人类棋
: 手就随便都能赢。这就好比纵版射击游戏的boss，没掌握其规律前几乎怎么都过不了，
: 而一旦掌握其套路，就可以一币通关。关键这种弱点不是它学习可以解决的，而很可能
: 是其算法本质上的漏洞。
: 我很想看看如果保持第四盘的风格，也就是前期求稳，中期舞大龙，是不是阿发狗迟早
: 总会自己走出错招？

相关主题
● 阿法狗怎么做到每天练习几十万盘棋？	● 金明完9段点评AlphaGo: 缺点明显
● 看来电脑围棋压倒人类就在今年了 (转载)	● 原来阿尔法下的是５秒版的ＺＥＮ
● 大家都在说狗没算到那一招	● 阿法狗生怕人类还不够绝望
进入Go版参与讨论

M****o
发帖数: 4860

这个写的好，特意来点赞！

n******r
发帖数: 4455

赞干货
我之前觉得赢电脑的理论可能在于选子器的漏算，没想到实战中居然遇到了
但是知道选子器有缺陷不代表可以有针对的攻击，除非狗开放选子器让人评估

【在 r******i 的大作中提到】

k********k
发帖数: 835

赞!

k********k
发帖数: 835

牛!

【在 n*********e 的大作中提到】

: 这个水平效应，
: 颇有今朝有酒今朝醉的味道，
: 很多拿了救济金就去喝酒的，大脑是不是也就是深度几天的神经网络

a******0
发帖数: 121

+1
AlphaGo 剪枝用的不是简单的 minmax。而是以policy network为基准做rollout，
用value network和MCTS做剪枝。
Policy network 是用大量旧棋谱在深度神经网络上训练出来的，基本原理还是一个黑
盒子。很难想像每一步都不漏掉任何最优选择。当然人类高手的棋离最优选择恐怕还有
很大距离。但认为AlphaGo已是无懈可击完全没有道理（李哲前两天的文章看了都觉得
恶心）。
Zen(天顶)的作者之一 Hideki Kato 前两天（AlphaoGo:Lee 2:0后)还说，认为AlphaGo
已经解了围棋还太早；因为MCTS从根本上尚无法解决复杂的对杀和双劫的问题。显然
Hideki Kato 认为击败AlphaGo的办法是选择复杂的对杀。

【在 r******i 的大作中提到】

o******r
发帖数: 885

狗走的那些乱砍自己的招，让人感觉比起以前的软件，没有啥原理上的突破。

【在 r******i 的大作中提到】

n***i
发帖数: 4627

这才是应该有水平的人类该写的东西，实在不能理解有些人丧心病狂的跪舔是个什么心
态。。。

【在 r******i 的大作中提到】

m**o
发帖数: 9805

就是啥都不懂瞎咋呼，既不懂棋也不懂算法，所以一会儿爹死了一会儿娘死了

【在 n***i 的大作中提到】

: 这才是应该有水平的人类该写的东西，实在不能理解有些人丧心病狂的跪舔是个什么心
: 态。。。

d********u
发帖数: 5383

本版刷试管的二子们表示看不懂。他们需要下一次的如精神病一样的欢呼和惊叹。

【在 r******i 的大作中提到】

w******8
发帖数: 1078

有人能把这文章转给小李吗?

相关主题
● 写过程序的都知道	● 据谣传，国内业6已经有被国产土狗让4个搞定的记录
● 看大家讨论中比较少提这个 reinforcement learning	● 这局李九段看起来是乱中取胜
● 锵锵请的港大计算机系主任不懂啊	● 世界计算机围棋锦标赛：韩国夺冠中国第七　zz
进入Go版参与讨论

t**d
发帖数: 6474

好文！
你说的象棋还真是这样，我在跟手机上的象棋软件下时，发现象棋软件确实很强大，但
是我也发现如果我设一个有个七八步的弃子争胜陷阱，软件必上当。

【在 r******i 的大作中提到】

a******0
发帖数: 121

AlphaGo 的问题应该不是 Horizon Effect，而是漏算了或算不清楚。
MCTS 是把棋一路走到终盘。但不论是rollout、还是MCTS，都可能漏掉最佳对应。

【在 r******i 的大作中提到】

q*****C
发帖数: 114

楼主，赞一个！
你写出了我们这些直觉上觉得如此，但是没法专业阐述其道理的所有民科的心声！：）

【在 r******i 的大作中提到】

a****t
发帖数: 7049

对手是有同样盲点的狗是问题的根本，其实是很深刻的自学问题，reinforcement
learning在高复杂度游戏里也许需要加入人类经常用的公理化，把一系列交换步骤当作
更大单元来优化，减少horizon effect。

horizon

【在 r******i 的大作中提到】

: 这个好，哈哈哈

r******i
发帖数: 1445

我没真正实践过MCTS。MCTS没有horizon effect吗？因为alphago也用了value network
和rollout来平均算一个叶结点的值。我觉得这是不是代表这个搜索有一定的min-max的
性质呢？

【在 a******0 的大作中提到】

: AlphaGo 的问题应该不是 Horizon Effect，而是漏算了或算不清楚。
: MCTS 是把棋一路走到终盘。但不论是rollout、还是MCTS，都可能漏掉最佳对应。

m*****n
发帖数: 3644

谢谢，已转。请PM palpay账号。

【在 w******8 的大作中提到】

: 有人能把这文章转给小李吗?

v***s
发帖数: 180

lol

：）

【在 q*****C 的大作中提到】

: 楼主，赞一个！
: 你写出了我们这些直觉上觉得如此，但是没法专业阐述其道理的所有民科的心声！：）

g*******u
发帖数: 3948

我之前说过很简单的一句话大家都没在意
怎么赢 go呢，就是topplayer+程序设计者
设计者很清楚哪里会有问题，告诉了player以后就很有可能赢
小李子输也可以理解为，前面几盘一直找不同方法找到电脑弱点。
很可惜前三盘，刚好没碰到，第四盘碰到了。那么可以想，第五盘小李子会赢。
这个意义上说， google 相当于利用了从没人见过 alphago 这个特点赢了三局占了
小李子便宜。
如果让电脑每年参加世界大赛可能前几年很牛逼，两年以后大家知道咋回事了
就完蛋了
所以说赢了三盘不代表赢了人

m*****n
发帖数: 3644

我觉得horizan effect很像人的一些思考方式
比如不好应的地方暂时不应，先走其他地方。
比如台湾问题，说留给下一代解决
但计算机奇怪的是会走很损的地方。

f******n
发帖数: 242

这个分析的好

相关主题
● 我以前提到过阿法狗应该有更灵活的用时策略	● 大家对Alphago的胜率理解有误
● 阿狗的局部计算力问题	● 技术贴（懂围棋的请进）
● 神经网络的结构决定了他的极限	● 猜一下几个AlphaGo崩了的原因
进入Go版参与讨论

e*g
发帖数: 4981

问题就是他是个黑箱

【在 g*******u 的大作中提到】

: 我之前说过很简单的一句话大家都没在意
: 怎么赢 go呢，就是topplayer+程序设计者
: 设计者很清楚哪里会有问题，告诉了player以后就很有可能赢
: 小李子输也可以理解为，前面几盘一直找不同方法找到电脑弱点。
: 很可惜前三盘，刚好没碰到，第四盘碰到了。那么可以想，第五盘小李子会赢。
: 这个意义上说， google 相当于利用了从没人见过 alphago 这个特点赢了三局占了
: 小李子便宜。
: 如果让电脑每年参加世界大赛可能前几年很牛逼，两年以后大家知道咋回事了
: 就完蛋了
: 所以说赢了三盘不代表赢了人

o***8
发帖数: 46

好文！我比较好奇的是还没见过任何探讨狗训练用的feature的文章。
狗用了１２个feature训练初始policy网，训练fast rollout和tree policy的分别是６
个和９个。
这些东西动一动，恐怕影响巨大。狗家好像没提这些特征是怎么确定的，中间试过哪些
，还有什么可选。我的感觉是偏局部。这方面其实是现在围棋高手最可能对狗的改进提
供帮助的。

a****t
发帖数: 7049

这段是文章里的关键
“In contrast, AlphaGo’s use of value functions is based on truncated Monte
-Carlo search algorithms
8, 9, which terminate rollouts before the end of the game and use a value
function in place
of the terminal reward. AlphaGo’s position evaluation mixes full rollouts
with truncated rollouts,
resembling in some respects the well-known temporal-difference learning
algorithm TD(). AlphaGo
also differs from prior work by using slower but more powerful
representations of the
policy and value function; evaluating deep neural networks is several orders
of magnitudes slower
than linear representations and must therefore occur asynchronously.”
它当然也有horizon effect，但是是软的，因为先用MC走到一个深度，接着用value
network筛选局面，再由policy network把每一局下到底。所以value network的筛选就
是一个瓶颈，会落掉没有训练过的高价值走法（高手终局）；前面MC的采样也是一个瓶
颈，会（概率上）落掉不常见的应召路数。

network

【在 r******i 的大作中提到】

: 我没真正实践过MCTS。MCTS没有horizon effect吗？因为alphago也用了value network
: 和rollout来平均算一个叶结点的值。我觉得这是不是代表这个搜索有一定的min-max的
: 性质呢？

r******i
发帖数: 1445

看那篇nature文章好像是考虑了：整体棋形、落子时间点、气、自己和对方可能吃的一
块棋的大小、紧气或长后的气数、征子是否有利、着法合法性等等。另外还有点眼的围
棋知识。
通篇没有提到劫的概念。

【在 o***8 的大作中提到】

: 好文！我比较好奇的是还没见过任何探讨狗训练用的feature的文章。
: 狗用了１２个feature训练初始policy网，训练fast rollout和tree policy的分别是６
: 个和９个。
: 这些东西动一动，恐怕影响巨大。狗家好像没提这些特征是怎么确定的，中间试过哪些
: ，还有什么可选。我的感觉是偏局部。这方面其实是现在围棋高手最可能对狗的改进提
: 供帮助的。

a****t
发帖数: 7049

你说的这些feature都是common sense的为了省时间，文章里说了。真正的海量feature
都在棋盘本身的状态，在神经网里作用。

【在 o***8 的大作中提到】

a****t
发帖数: 7049

劫不是局部feature，不可能手动加入规则。这个只能由它自己学会。

【在 r******i 的大作中提到】

: 看那篇nature文章好像是考虑了：整体棋形、落子时间点、气、自己和对方可能吃的一
: 块棋的大小、紧气或长后的气数、征子是否有利、着法合法性等等。另外还有点眼的围
: 棋知识。
: 通篇没有提到劫的概念。

t*****z
发帖数: 1598

赞！正义必胜

h*h
发帖数: 27852

热点扩散，多处僵尸，劫争，对杀
欺负狗没有脑子

AlphaGo
然

【在 a******0 的大作中提到】

: +1
: AlphaGo 剪枝用的不是简单的 minmax。而是以policy network为基准做rollout，
: 用value network和MCTS做剪枝。
: Policy network 是用大量旧棋谱在深度神经网络上训练出来的，基本原理还是一个黑
: 盒子。很难想像每一步都不漏掉任何最优选择。当然人类高手的棋离最优选择恐怕还有
: 很大距离。但认为AlphaGo已是无懈可击完全没有道理（李哲前两天的文章看了都觉得
: 恶心）。
: Zen(天顶)的作者之一 Hideki Kato 前两天（AlphaoGo:Lee 2:0后)还说，认为AlphaGo
: 已经解了围棋还太早；因为MCTS从根本上尚无法解决复杂的对杀和双劫的问题。显然
: Hideki Kato 认为击败AlphaGo的办法是选择复杂的对杀。

a******0
发帖数: 121

我对 Horizon Effect 的理解是：由搜索深度限制而看不到更远的事件。
AlphoGo 算法：用 Policy Network 设分枝、建一搜索树，每一枝结（node）由 Value
Network 设一价值，从每一树叶（leaf）起多次用随机下法（Monte Carlo Simulation
）把棋走到终盘，根据结果输赢反馈修改所有父母枝结的价值；最后价值底的分枝被
剪枝。基本原理与 minmax/alpha-bata 相同。
Deepmind 团队没有公开搜索树的深度，显然这由搜索时间、速度决定。但因为MCTS把
棋走到终盘，应该没有一个绝对的地平线(Horizon):地平线以外的招法完全看不到。

network

【在 r******i 的大作中提到】

r******i
发帖数: 1445

受教了：）
那怎么解释alphago的先手自杀的那一手棋呢？这步棋很像是horizon effect——自杀
先手拖延搜索深度。
也许Aja Huang也在纳闷吧。。。

Monte

【在 a****t 的大作中提到】

: 这段是文章里的关键
: “In contrast, AlphaGo’s use of value functions is based on truncated Monte
: -Carlo search algorithms
: 8, 9, which terminate rollouts before the end of the game and use a value
: function in place
: of the terminal reward. AlphaGo’s position evaluation mixes full rollouts
: with truncated rollouts,
: resembling in some respects the well-known temporal-difference learning
: algorithm TD(). AlphaGo
: also differs from prior work by using slower but more powerful

相关主题
● 猜一下几个AlphaGo崩了的原因	● 看来电脑围棋压倒人类就在今年了 (转载)
● AlphaGo通俗的解释	● 大家都在说狗没算到那一招
● 阿法狗怎么做到每天练习几十万盘棋？	● 金明完9段点评AlphaGo: 缺点明显
进入Go版参与讨论

r******i
发帖数: 1445

同意你的理解。
也许对于MCTS，horizon effect是由搜索深度限制而不能精确地看到更远的事件。
回到alphago走先手自杀棋的问题上来，可能是这招先手自杀棋拖延了“精确”看到胜
率下降的搜索。
关于搜索深度，好像最大设定是40——nature文章的附表expansion threshold.
对Fan Hui的棋文章给了一个26手的主要变化图。
以此估计alphago的深度应该是20-30手。

Value
Simulation

【在 a******0 的大作中提到】

: 我对 Horizon Effect 的理解是：由搜索深度限制而看不到更远的事件。
: AlphoGo 算法：用 Policy Network 设分枝、建一搜索树，每一枝结（node）由 Value
: Network 设一价值，从每一树叶（leaf）起多次用随机下法（Monte Carlo Simulation
: ）把棋走到终盘，根据结果输赢反馈修改所有父母枝结的价值；最后价值底的分枝被
: 剪枝。基本原理与 minmax/alpha-bata 相同。
: Deepmind 团队没有公开搜索树的深度，显然这由搜索时间、速度决定。但因为MCTS把
: 棋走到终盘，应该没有一个绝对的地平线(Horizon):地平线以外的招法完全看不到。
:
: network

a******0
发帖数: 121

AlphaGo 按赢棋几率高的招法走。走正手赢棋完全无望的情况下，正手就不能走了。
而 Monte Carlo Simulation 认为任何随机招法的出现几率相同。人看来是自杀，机器
可以认为是延气；如不跟着应、对方就少了一气被杀；虽然可能性不大，AlphaGo 也许
认为要试一下。

【在 r******i 的大作中提到】

: 受教了：）
: 那怎么解释alphago的先手自杀的那一手棋呢？这步棋很像是horizon effect——自杀
: 先手拖延搜索深度。
: 也许Aja Huang也在纳闷吧。。。
:
: Monte

o***8
发帖数: 46

节点权重和特征不是一码事吧？

feature

【在 a****t 的大作中提到】

: 你说的这些feature都是common sense的为了省时间，文章里说了。真正的海量feature
: 都在棋盘本身的状态，在神经网里作用。

a******0
发帖数: 121

这个应该是每层分枝数的限制，不是搜索树深度。很难想像能那么深。
（我再去看看文章以核实。）

【在 r******i 的大作中提到】

: 同意你的理解。
: 也许对于MCTS，horizon effect是由搜索深度限制而不能精确地看到更远的事件。
: 回到alphago走先手自杀棋的问题上来，可能是这招先手自杀棋拖延了“精确”看到胜
: 率下降的搜索。
: 关于搜索深度，好像最大设定是40——nature文章的附表expansion threshold.
: 对Fan Hui的棋文章给了一个26手的主要变化图。
: 以此估计alphago的深度应该是20-30手。
:
: Value
: Simulation

a****t
发帖数: 7049

话说这篇文章写得真差劲，零零散散，像草稿。

【在 a******0 的大作中提到】

: 这个应该是每层分枝数的限制，不是搜索树深度。很难想像能那么深。
: （我再去看看文章以核实。）

O**l
发帖数: 12923

实际问题是DCNN 影响了MCT分布
那个局部计算其实不复杂光用MCT其实就能算清

【在 a******0 的大作中提到】

: 这个应该是每层分枝数的限制，不是搜索树深度。很难想像能那么深。
: （我再去看看文章以核实。）

r******i
发帖数: 1445

又看了一下。Expansion threshold是一个不同的量，不是深度上限。
但是26手的pv说明深度应该能到达20-30手。除非这个pv把rollout的结果也加上了。。
。这样就很难讲了。

【在 a******0 的大作中提到】

: 这个应该是每层分枝数的限制，不是搜索树深度。很难想像能那么深。
: （我再去看看文章以核实。）

s*****V
发帖数: 21731

他那种SIMULATION 到终局到底有多大的作用，如果不能保证比较正确的话。我觉得这
SIMULATION才是真正的难点。

【在 r******i 的大作中提到】

r******i
发帖数: 1445

在终局的时候其实simulation很正确。所以alphago的官子很强。simluation的难点在
于多步协同（比如杀大龙或者打劫），落子的实际概率会改变。结果能杀死的龙会模拟
成杀不死，能赢的劫也有可能模拟成赢不了。

【在 s*****V 的大作中提到】

: 他那种SIMULATION 到终局到底有多大的作用，如果不能保证比较正确的话。我觉得这
: SIMULATION才是真正的难点。

r******i
发帖数: 1445

工程师写的文章，呵呵

【在 a****t 的大作中提到】

: 话说这篇文章写得真差劲，零零散散，像草稿。

相关主题
● 原来阿尔法下的是５秒版的ＺＥＮ	● 看大家讨论中比较少提这个 reinforcement learning
● 阿法狗生怕人类还不够绝望	● 锵锵请的港大计算机系主任不懂啊
● 写过程序的都知道	● 据谣传，国内业6已经有被国产土狗让4个搞定的记录
进入Go版参与讨论

M****o
发帖数: 4860

其实本质上也就是局部最优和全局最优的区别吧

r******i
发帖数: 1445

早期的围棋程序都是把棋盘分块处理的。这样局部算路好些，但是大局观极差，甚至下
不过初学者。
MCTS出现后，围棋程序都是整体考虑，结果局部算得又变差了。。。
谁能把这个问题解决了，也许围棋程序就完美了。

【在 M****o 的大作中提到】

: 其实本质上也就是局部最优和全局最优的区别吧

d****r
发帖数: 2912

瞧不起工程师啊。呵呵

【在 r******i 的大作中提到】

: 工程师写的文章，呵呵

h*h
发帖数: 27852

很难让狗知道什么是局部

【在 r******i 的大作中提到】

: 早期的围棋程序都是把棋盘分块处理的。这样局部算路好些，但是大局观极差，甚至下
: 不过初学者。
: MCTS出现后，围棋程序都是整体考虑，结果局部算得又变差了。。。
: 谁能把这个问题解决了，也许围棋程序就完美了。

s***e
发帖数: 5242

不完全准确。
“在神经网络完成训练后，每次运行的结果是可预测、一定的。”
但是加上MCTS后就不是了。
“如果出现了很复杂的局面（比如第四盘），很多要点可能是业余选手发现不了的
。这样即使你算一千盘、一万盘，有些很要紧的点也会被忽略。”
在MCTS里面也加上了局势判断，所以你这段不对。

【在 r******i 的大作中提到】

r******i
发帖数: 1445

我承认我写的东西不完全准确。
我只是想表明：alphago是不能自主进化的。必须由人设计的training session来进化。
另外alphago的机理表明其有被设陷阱的可能性。

加上MCTS后虽然导入了一定的随机性，但是符合统计规律。
MCTS的局势判断仍然是靠Value network决定的。value network本身也是业余水平。

【在 s***e 的大作中提到】

: 不完全准确。
: “在神经网络完成训练后，每次运行的结果是可预测、一定的。”
: 但是加上MCTS后就不是了。
: “如果出现了很复杂的局面（比如第四盘），很多要点可能是业余选手发现不了的
: 。这样即使你算一千盘、一万盘，有些很要紧的点也会被忽略。”
: 在MCTS里面也加上了局势判断，所以你这段不对。

r******i
发帖数: 1445

不是哪个意思。只是想说工程师的主要focus不是写文章，所以文章写得差点情有可原。

【在 d****r 的大作中提到】

: 瞧不起工程师啊。呵呵

a***m
发帖数: 5037

“AlphaGo 按赢棋几率高的招法走。走正手赢棋完全无望的情况下，正手就不能走了”
那两狗对博的时候呢

【在 a******0 的大作中提到】

: AlphaGo 按赢棋几率高的招法走。走正手赢棋完全无望的情况下，正手就不能走了。
: 而 Monte Carlo Simulation 认为任何随机招法的出现几率相同。人看来是自杀，机器
: 可以认为是延气；如不跟着应、对方就少了一气被杀；虽然可能性不大，AlphaGo 也许
: 认为要试一下。

a******0
发帖数: 121

Nature 文章：联机 AlphaGo 对单机 AlphaGo 胜率是70%。
联机 AlphaGo 搜索深度更高，但还不时（30%）输给用同样算法且慢很多的单机。这显
示AlphaGo 的算法是有很多漏算和随机性的。

【在 a***m 的大作中提到】

: “AlphaGo 按赢棋几率高的招法走。走正手赢棋完全无望的情况下，正手就不能走了”
: 那两狗对博的时候呢

t******6
发帖数: 51

虽然我还没有完全看懂，但是点赞先。

相关主题
● 这局李九段看起来是乱中取胜	● 阿狗的局部计算力问题
● 世界计算机围棋锦标赛：韩国夺冠中国第七　zz	● 神经网络的结构决定了他的极限
● 我以前提到过阿法狗应该有更灵活的用时策略	● 大家对Alphago的胜率理解有误
进入Go版参与讨论

w*****1
发帖数: 6807

赞
绝对的干货

b*******8
发帖数: 37364

自杀的招法，电脑认为你只有一种应对方法我吃亏，有五种应错方法我获利，结果按概
率选了自杀。
其实人绝无可能应错。概率不能这样算

【在 a******0 的大作中提到】

m**u
发帖数: 632

不能同意的更多，李吉吉的评论确实有些过了，棋渣和古力确实强，每步基本都切中要害

a******0
发帖数: 121

我当然是瞎猜。无从知晓 AlphaGo 如何决策。
假设AlphaGo计算出：1。双方最佳招法，赢棋几率为零；
2。有些顺序，对方走出非最佳招法，可以赢棋；很多人容易作的判断，AI会很难。
MCTS 的缺陷人们早已有研究，这盘棋是第一次 AlphaGo 露出这个破绽。
我自己就曾多次输给这种自杀式招法。
多年前，我常在网上下快棋，8分钟、不读秒，15分钟就一盘。收官时，一般只剩不到
30秒了；有时还碰到耍赖的，往自己空里放子，耗时间。我的策略是走绝对先手，立刻
把鼠标移到下一手、按键，这样对方一落子我就走出了下一手；1秒钟可以走两手。可
是有时对手知道我在抢时间，不应绝对先手、而是在自己死棋的地方自杀式损目地打吃
我，等我意识到时已落子它处，结果大片被杀。

【在 b*******8 的大作中提到】

: 自杀的招法，电脑认为你只有一种应对方法我吃亏，有五种应错方法我获利，结果按概
: 率选了自杀。
: 其实人绝无可能应错。概率不能这样算

a******0
发帖数: 121

Martin Mueller是 David Silver 的博士导师、Aja Huang 的博士后导师 (David
Silver 和 Aja Huang 是 AlphaGo Nature 文章的第一和第二作者)， MCTS 是他专门
研究的领域之一。
以下是他挑战 AlphaGo 的策略：
>> So, what would be Lee's best effort to exploit this? Complicating
>> and playing hopefully-unexpected-tesuji moves?
Judging from this game, setting up multiple interrelated tactical fights,
such that no subset of them works, but all together they work to capture or
kill something.
For tactical fights, I would expect the value network to be relatively
weaker than for quiet territorial positions.
So it comes down to solving the problem by search.
Aja and me wrote a paper a few years back that showed that even on a 9x9
board, having two safe but not entirely safe-in-playouts groups on the board
confuses most Go programs and can push the “bad news” over the search
horizon. Now imagine having 3, 4, 5 or more simultaneous tactics. The
combinatorics of searching through all of those by brute force are enormous.
But humans know exactly what they are looking for.
Martin
Link:https://groups.google.com/forum/#!topic/computer-go-archive/geoj-8mySLM
当然，这种策略讲起来容易、能做到就难了。
Zen(天顶)的作者之一 Hideki Kato 同样认为 MCTS 从根本上尚无法解决复杂的对杀和
双劫的问题，击败AlphaGo的办法是选择复杂的对杀。

s*****V
发帖数: 21731

很正常,default policy的simulation也好，值网络的估计也好，对超大规模对杀都很
难估计准。

or

【在 a******0 的大作中提到】

: Martin Mueller是 David Silver 的博士导师、Aja Huang 的博士后导师 (David
: Silver 和 Aja Huang 是 AlphaGo Nature 文章的第一和第二作者)， MCTS 是他专门
: 研究的领域之一。
: 以下是他挑战 AlphaGo 的策略：
: >> So, what would be Lee's best effort to exploit this? Complicating
: >> and playing hopefully-unexpected-tesuji moves?
: Judging from this game, setting up multiple interrelated tactical fights,
: such that no subset of them works, but all together they work to capture or
: kill something.
: For tactical fights, I would expect the value network to be relatively

e*g
发帖数: 4981

跟我说过的一样啊

or

【在 a******0 的大作中提到】

k*******2
发帖数: 4163

赞总结。
还一会儿说几十年后机器能解决哥德巴赫猜想。

【在 m**o 的大作中提到】

: 就是啥都不懂瞎咋呼，既不懂棋也不懂算法，所以一会儿爹死了一会儿娘死了

k*******2
发帖数: 4163

赞

【在 r******i 的大作中提到】

s***y
发帖数: 357

很好的帖子那是不是说就是23路围棋 alpha go根本没戏？

相关主题
● 大家对Alphago的胜率理解有误	● AlphaGo通俗的解释
● 技术贴（懂围棋的请进）	● 阿法狗怎么做到每天练习几十万盘棋？
● 猜一下几个AlphaGo崩了的原因	● 看来电脑围棋压倒人类就在今年了 (转载)
进入Go版参与讨论

r******i
发帖数: 1445

问题是23路围棋人也没怎么下过呀

【在 s***y 的大作中提到】

: 很好的帖子那是不是说就是23路围棋 alpha go根本没戏？

r******i
发帖数: 1445

顶这个

or

【在 a******0 的大作中提到】

a****o
发帖数: 6612

搞不好真有可能。因为人类认为陈景润把所用的方法已经是用到了极限，但是如果上机
器，也许能在往前推那么一点点。

【在 k*******2 的大作中提到】

: 赞总结。
: 还一会儿说几十年后机器能解决哥德巴赫猜想。

M****e
发帖数: 1132

人类也差不多，似乎也有horizon effect。比如形势落后，放出胜负手一博（判断胜负
结果往往在双方当前horizon之外）。但是如果双方计算力足够强，落子前就该知道胜
负手成立不成立。在不成立的情况下，这种下法跟alphago的做法没什么区别。

r******i
发帖数: 1445

alphago的昏招和胜负手不一样。
horizon effect造成的昏招一般是一个先手（比如象棋里的叫将、围棋里的打吃或者跑
已经必死的子）。这种昏招的最大作用是减少两步搜索深度，从而把坏的局面推出搜索
极限（horizon）。
另一个贴总结说，horizon effect更像人类的拖延病。明明知道一件事必然会发生（通
常是坏结果，比如考试、作业结果不好），但是用别的事占用自己的时间(比如打游戏
、喝酒），来延缓考虑这件事。

【在 M****e 的大作中提到】

: 人类也差不多，似乎也有horizon effect。比如形势落后，放出胜负手一博（判断胜负
: 结果往往在双方当前horizon之外）。但是如果双方计算力足够强，落子前就该知道胜
: 负手成立不成立。在不成立的情况下，这种下法跟alphago的做法没什么区别。

M****e
发帖数: 1132

之所以没有被称为昏招而是叫胜负手是因为人还没有能力预计最后结果（超出了
horizon）。在有无限计算力的神来看，失败的胜负手也是奇损，就是昏招。

【在 r******i 的大作中提到】

: alphago的昏招和胜负手不一样。
: horizon effect造成的昏招一般是一个先手（比如象棋里的叫将、围棋里的打吃或者跑
: 已经必死的子）。这种昏招的最大作用是减少两步搜索深度，从而把坏的局面推出搜索
: 极限（horizon）。
: 另一个贴总结说，horizon effect更像人类的拖延病。明明知道一件事必然会发生（通
: 常是坏结果，比如考试、作业结果不好），但是用别的事占用自己的时间(比如打游戏
: 、喝酒），来延缓考虑这件事。

(共1页)

进入Go版参与讨论

相关主题
● 这局李九段看起来是乱中取胜	● AlphaGo通俗的解释
● 世界计算机围棋锦标赛：韩国夺冠中国第七　zz	● 阿法狗怎么做到每天练习几十万盘棋？
● 我以前提到过阿法狗应该有更灵活的用时策略	● 看来电脑围棋压倒人类就在今年了 (转载)
● 阿狗的局部计算力问题	● 大家都在说狗没算到那一招
● 神经网络的结构决定了他的极限	● 金明完9段点评AlphaGo: 缺点明显
● 大家对Alphago的胜率理解有误	● 原来阿尔法下的是５秒版的ＺＥＮ
● 技术贴（懂围棋的请进）	● 阿法狗生怕人类还不够绝望
● 猜一下几个AlphaGo崩了的原因	● 写过程序的都知道

相关话题的讨论汇总
话题: alphago话题: 搜索话题: mcts话题: 可能话题: 狗狗

#	版面	帖数(主题数)
-	全站	4871 (796)
1	Military	3777 (569)
2	Stock	341 (51)
3	Joke	117 (17)
4	History	116 (3)
5	Automobile	100 (9)
6	USANews	55 (9)
7	Midlife	45 (1)
8	Headline	41 (41)
9	Dreamer	33 (13)
10	FleaMarket	32 (20)
11	Living	30 (7)

boards

未名新帖统计// 7月16日

历史上的今天