AlphaGo为什么官子要退让？ - Go版

本页内容为未名空间相应帖子的节选和存档，一周内的贴子最多显示50字，超过一周显示500字访问原贴

Go版 - AlphaGo为什么官子要退让？

相关主题
● missbear的棋现在深不可测啊	● 围棋辅助程序的设计
● 昨天的比赛至少是让先差距	● 请教：求推荐学习围棋和找初级对手的在线围棋对弈软件
● 对我狗的崇拜要盲目	● 说AI会砸职业棋手饭碗就是扯蛋
● 李世石前两局每步的胜率估计,同时DF还给出了它计算的最优手，以及实际的结果	● 奇怪
● 出道小题，娱乐一下，答对有奖	● 贴一盘和职业高手的对局
● alphago有没有判断过理论公平意义上黑棋应该贴多少目	● 太极神功的悲哀
● 妈的，才输两盘棋而已	● 围棋官子中的数学：什么情况下是单先官子？
● 狗程序设计有问题：目数加权太少，胜率权重太大，所以不杀龙	● 围棋中的算术知识总结

相关话题的讨论汇总
话题: alphago话题: 目数话题: 盘面话题: 胜率话题: 官子

进入Go版参与讨论

(共1页)

S*E
发帖数: 3662

现在通常的解释是狗追求胜率而不是赢的目数。
这种解释并不令人信服。事实上，AlphaGo/Master赢的棋到数目的时候大多是小胜。
从常理上讲，赢目数多在大多数情况下应该是和胜率高不矛盾。
不可能每次都需要牺牲目数来换取胜率。
我认为事实可能是；在最后阶段AlphaGo扮演了围棋上帝的角色。
它已经掌握了百分之百获胜的方法。然后开始打控制球。
每一步都选择获胜但是赢的目数最少的着法。
这样有两个好处：一是给人类棋手保留面子。二是检验强大的算力，供内部审核用。

t******g
发帖数: 1136

目标函数的weights 变了，一个是要赢，一个是要赢得大。

【在 S*E 的大作中提到】

: 现在通常的解释是狗追求胜率而不是赢的目数。
: 这种解释并不令人信服。事实上，AlphaGo/Master赢的棋到数目的时候大多是小胜。
: 从常理上讲，赢目数多在大多数情况下应该是和胜率高不矛盾。
: 不可能每次都需要牺牲目数来换取胜率。
: 我认为事实可能是；在最后阶段AlphaGo扮演了围棋上帝的角色。
: 它已经掌握了百分之百获胜的方法。然后开始打控制球。
: 每一步都选择获胜但是赢的目数最少的着法。
: 这样有两个好处：一是给人类棋手保留面子。二是检验强大的算力，供内部审核用。

d*****n
发帖数: 754

价值网络在官子阶段没用，就是靠生算。狗在这方面不算强，主要靠前面领先大
[在 SLE (嗯，就这样定了。) 的大作中提到：]
:现在通常的解释是狗追求胜率而不是赢的目数。
:这种解释并不令人信服。事实上，AlphaGo/Master赢的棋到数目的时候大多是小胜。
:从常理上讲，赢目数多在大多数情况下应该是和胜率高不矛盾。
:不可能每次都需要牺牲目数来换取胜率。
:我认为事实可能是；在最后阶段AlphaGo扮演了围棋上帝的角色。
:它已经掌握了百分之百获胜的方法。然后开始打控制球。
:每一步都选择获胜但是赢的目数最少的着法。
:这样有两个好处：一是给人类棋手保留面子。二是检验强大的算力，供内部审核用。

S*E
发帖数: 3662

它可以切换成穷举。

【在 d*****n 的大作中提到】

: 价值网络在官子阶段没用，就是靠生算。狗在这方面不算强，主要靠前面领先大
: [在 SLE (嗯，就这样定了。) 的大作中提到：]
: :现在通常的解释是狗追求胜率而不是赢的目数。
: :这种解释并不令人信服。事实上，AlphaGo/Master赢的棋到数目的时候大多是小胜。
: :从常理上讲，赢目数多在大多数情况下应该是和胜率高不矛盾。
: :不可能每次都需要牺牲目数来换取胜率。
: :我认为事实可能是；在最后阶段AlphaGo扮演了围棋上帝的角色。
: :它已经掌握了百分之百获胜的方法。然后开始打控制球。
: :每一步都选择获胜但是赢的目数最少的着法。
: :这样有两个好处：一是给人类棋手保留面子。二是检验强大的算力，供内部审核用。

j**********r
发帖数: 3798

最简的变化就是深度最少的变化。狗并不在乎赢半目还是赢10目，只要保证赢就行。退
让通常都是自己补，变化少。

【在 S*E 的大作中提到】

c**v
发帖数: 103

Agree!

【在 j**********r 的大作中提到】

: 最简的变化就是深度最少的变化。狗并不在乎赢半目还是赢10目，只要保证赢就行。退
: 让通常都是自己补，变化少。

b*******8
发帖数: 37364

属实马拉松赛第一名在最后阶段如果领先较多最佳策略是慢慢走过去避免抽筋崴脚
等意外看着第二名保证不被超过第二名在最后也不可能爆发百米冲刺速度可以稳稳
控制最后就赢个五六米

★ 发自iPhone App: ChineseWeb 16

【在 j**********r 的大作中提到】

: 最简的变化就是深度最少的变化。狗并不在乎赢半目还是赢10目，只要保证赢就行。退
: 让通常都是自己补，变化少。

l******8
发帖数: 1691

it counts the probability of winning, not the size of winning. This result
shows us that the best move to win big is also often a riskier move.
Your basic assumption is wrong.

【在 S*E 的大作中提到】

S*E
发帖数: 3662

怎么解释每次到管子阶段都是小胜。怎么可能胜率和目数每次都是矛盾？

result

【在 l******8 的大作中提到】

: it counts the probability of winning, not the size of winning. This result
: shows us that the best move to win big is also often a riskier move.
: Your basic assumption is wrong.

y***i
发帖数: 91

高深

相关主题
● alphago有没有判断过理论公平意义上黑棋应该贴多少目	● 围棋辅助程序的设计
● 妈的，才输两盘棋而已	● 请教：求推荐学习围棋和找初级对手的在线围棋对弈软件
● 狗程序设计有问题：目数加权太少，胜率权重太大，所以不杀龙	● 说AI会砸职业棋手饭碗就是扯蛋
进入Go版参与讨论

e*********6
发帖数: 3453

我不认为是这样的。在master 60盘的时候，很多走法用这个理论无法解释。
我觉得就是非常简单的loss of gradient的问题。对于一个最简单的情况，现在其他地
方都走完了，就有2处可以走的，一处单关，一处一目，都没有风险和其他任何后续手
段，现在狗狗盘面领先10目，走哪个胜率都是100%，两处没有区别，狗狗就丧失了判断
能力，随机走一个。

【在 j**********r 的大作中提到】

: 最简的变化就是深度最少的变化。狗并不在乎赢半目还是赢10目，只要保证赢就行。退
: 让通常都是自己补，变化少。

n*******7
发帖数: 181

为什么这时候要随机走而不是求最大领先？如果算法稍改一下变成求最大领先，棋就会
更好看了。

【在 e*********6 的大作中提到】

: 我不认为是这样的。在master 60盘的时候，很多走法用这个理论无法解释。
: 我觉得就是非常简单的loss of gradient的问题。对于一个最简单的情况，现在其他地
: 方都走完了，就有2处可以走的，一处单关，一处一目，都没有风险和其他任何后续手
: 段，现在狗狗盘面领先10目，走哪个胜率都是100%，两处没有区别，狗狗就丧失了判断
: 能力，随机走一个。

e*********6
发帖数: 3453

因为围棋的目标就是赢棋，是一个单一目标任务。狗狗的目标就是赢棋，不是好看。
如果把围棋的目标改成多赢棋，那就是另一种游戏了。

【在 n*******7 的大作中提到】

: 为什么这时候要随机走而不是求最大领先？如果算法稍改一下变成求最大领先，棋就会
: 更好看了。

k****2
发帖数: 248

调难度了，cpu比李世石时代少了9/10。根本不想赢太多，想控制赢的数目

b*****s
发帖数: 11267

最短赢棋路径啊，赢的多但是要多走几步

w***g
发帖数: 5958

我觉得和左右互搏这种训练方法有关。互博的两个模型一直是水平相当的，以至于训练
出来的模型也只会在微弱的优势下下棋。

【在 S*E 的大作中提到】

F******k
发帖数: 7375

agree

【在 w***g 的大作中提到】

: 我觉得和左右互搏这种训练方法有关。互博的两个模型一直是水平相当的，以至于训练
: 出来的模型也只会在微弱的优势下下棋。

n****g
发帖数: 14743

有趣的想法

【在 w***g 的大作中提到】

: 我觉得和左右互搏这种训练方法有关。互博的两个模型一直是水平相当的，以至于训练
: 出来的模型也只会在微弱的优势下下棋。

c****o
发帖数: 317

围棋的巨大分支树，最底下的节点就是终局时盘面的形态，那么每个盘面都有一个客观
的胜负多少目的结果。对alphago来说，它并不考虑这个胜负多少目，它只考虑这个形
态下到底是黑胜还是白胜。然而，如果我们考察分支树，那么从统计意义上说，胜负差
距越小的盘面数目，应该就越多，例如，大胜200目的所有可能盘面，必然远远少于小
胜2目的盘面数目。
这一点可以大致用数学原理来分析一下。如果假设最终我们分别用黑子和白子把黑白双
方占的地都填满，那么黑占181白占180的盘面数目为C(361,180)，命名为c1，而黑占
231白占130的盘面数目为C(361,130)，命名为c2。我们来考察下c1和c2谁大谁小，简单
的计算表明c1大约是c2的一百六十万倍。注意，这里的估算是非常简化的，但是看懂的
人能够理解我们的定性结论，即，差距越小的盘面，其总数也就越多。
有了这个结论，就可以分析为什么alphago并不追求目数最大化，而反而表象为目数最
小化（当然首先要保证赢）似的。这完全是一个概率的事情，对alphago来说，它选择
走棋也就是选择某个分支，完全是看这个分支下面自己能赢的盘面数目是不是最多。而
能赢的那些盘面里，差距越小的，数目占了绝大多数，因此，这类小胜的盘面，就相当
于投%票群众里大多数，所以主导了alphago的选择。比如如果有一类盘面，能够大胜50
目，它们也想让alphago选择自己，但无奈人数太少，发声不够，而另一类盘面，小胜2
目，但是人数众多，能够在alphago的投%票系统里得到最多的权重，所以alphago当然
倾向于选择拥有最多“小胜2目”盘面的分支了。
粗略的说就是，赢你的方法非常多，但是细分的话，大胜你的方法千千万，小胜你的方
法却有万万千。然而alphago的算法是完全不分辨大胜和小胜，所以从统计上说，最后
的局面落在小胜的概率远高于落在大胜的概率。
可能有人还是困惑，他们认为，比如某个局面下，如果某一步能够获得更多的目数，那
么当然能够最大化地提高胜率，那么当然alphago应该选择这一步了。然而这个结论只
是一个错觉，从统计上说，任何局面下，能最大化目数的招法几乎肯定不是最大化胜率
的招法，alphago的风格验证了这个数学原理。

j*m
发帖数: 833

把目标函数改成预期胜利目数x获胜概率就可以了。不知道开局阶段获胜目数能不能算
到底，不过似乎也关系不大。到官子阶段切换也来得及。按说电脑计算官子应该比人类
精确才对。

相关主题
● 奇怪	● 围棋官子中的数学：什么情况下是单先官子？
● 贴一盘和职业高手的对局	● 围棋中的算术知识总结
● 太极神功的悲哀	● 高尾回国写blog了
进入Go版参与讨论

S*E
发帖数: 3662

可以换成一旦找到必胜策略，就采取最大目数或者最小目数战略。

【在 j*m 的大作中提到】

: 把目标函数改成预期胜利目数x获胜概率就可以了。不知道开局阶段获胜目数能不能算
: 到底，不过似乎也关系不大。到官子阶段切换也来得及。按说电脑计算官子应该比人类
: 精确才对。

y*j
发帖数: 3139

应该就是在官子阶段，统计不确定性越来越小，它的棋力越来越弱。其实和人们一般的
想法相反，它主要不是靠硬计算来赢棋的，而是靠大数据统计来赢棋的。越不确定，它
的棋感越强。

：现在通常的解释是狗追求胜率而不是赢的目数。
：这种解释并不令人信服。事实上，AlphaGo/Master赢的棋到数目的时候大多是小胜。
：从常理上讲，赢目数多在大多数情况下应该是和胜率高不矛盾。
：不可能每次都需要牺牲目数来换取胜率。
：我认为事实可能是；在最后阶段AlphaGo扮演了围棋上帝的角色。
：它已经掌握了百分之百获胜的方法。然后开始打控制球。
：每一步都选择获胜但是赢的目数最少的着法。
：这样有两个好处：一是给人类棋手保留面子。二是检验强大的算力，供内部审核用。

【在 S*E 的大作中提到】

: 可以换成一旦找到必胜策略，就采取最大目数或者最小目数战略。

D**s
发帖数: 6361

新版本的alphago号称可以自己对弈自己来学习

【在 y*j 的大作中提到】

: 应该就是在官子阶段，统计不确定性越来越小，它的棋力越来越弱。其实和人们一般的
: 想法相反，它主要不是靠硬计算来赢棋的，而是靠大数据统计来赢棋的。越不确定，它
: 的棋感越强。
:
: ：现在通常的解释是狗追求胜率而不是赢的目数。
: ：这种解释并不令人信服。事实上，AlphaGo/Master赢的棋到数目的时候大多是小胜。
: ：从常理上讲，赢目数多在大多数情况下应该是和胜率高不矛盾。
: ：不可能每次都需要牺牲目数来换取胜率。
: ：我认为事实可能是；在最后阶段AlphaGo扮演了围棋上帝的角色。
: ：它已经掌握了百分之百获胜的方法。然后开始打控制球。

y*j
发帖数: 3139

凡是到了靠规则取胜的时候，也就是官子阶段，不确定性变小，统计方法的威力就变小
了。也就是说可搜索的空间越大，统计方法相当于人来说越有效。
和李世石对局有一次李世石来了一个定式，alphago 就应对的不好。因为人可以记住定
式，按Redmond的说法，他闭着眼睛都知道怎么下那个定式，但是统计方法学习定式的
效率不高。

：新版本的alphago号称可以自己对弈自己来学习
：☆ 发自 iPhone 买买提 1.23.01

【在 D**s 的大作中提到】

: 新版本的alphago号称可以自己对弈自己来学习

h*********2
发帖数: 444

主要是你這個常理不靠譜。學學統計學就知道了。

f***e
发帖数: 5443

这个分析靠谱，就是训练集合导致的

【在 c****o 的大作中提到】

: 围棋的巨大分支树，最底下的节点就是终局时盘面的形态，那么每个盘面都有一个客观
: 的胜负多少目的结果。对alphago来说，它并不考虑这个胜负多少目，它只考虑这个形
: 态下到底是黑胜还是白胜。然而，如果我们考察分支树，那么从统计意义上说，胜负差
: 距越小的盘面数目，应该就越多，例如，大胜200目的所有可能盘面，必然远远少于小
: 胜2目的盘面数目。
: 这一点可以大致用数学原理来分析一下。如果假设最终我们分别用黑子和白子把黑白双
: 方占的地都填满，那么黑占181白占180的盘面数目为C(361,180)，命名为c1，而黑占
: 231白占130的盘面数目为C(361,130)，命名为c2。我们来考察下c1和c2谁大谁小，简单
: 的计算表明c1大约是c2的一百六十万倍。注意，这里的估算是非常简化的，但是看懂的
: 人能够理解我们的定性结论，即，差距越小的盘面，其总数也就越多。

a****l
发帖数: 8211

没这么复杂。人类棋手也经常这么做，盘面优势的情况下，各种官子都是选择最保险的
没有任何变数的下法，虽然经常损一些，但是不给对手漏勺翻盘的机会。唯一的区别是
棋手在这种情况下可能过于保险反而坏事，机器却不会，随时算准确了。

【在 S*E 的大作中提到】

T**********e
发帖数: 29576

deepmind那人访谈，说收官退让是狗的一个bug，要改。

E******d
发帖数: 3514

你这个分析很有意思，确实很可能研究团队是把每一盘结果当作1或者0输入给电脑，导
致了电脑追求胜利而不追求优势的最大化。那么接下来是不是可以说，如果给每一个胜
负局加上权重，比如胜负五目的棋局重复训练十次，而胜负半目的棋局只训练一次，这
样训练出来的狗会更聪明一些？

【在 c****o 的大作中提到】

G***s
发帖数: 739

我很好奇如果让两个alphago对弈会是什么结果？

(共1页)

进入Go版参与讨论

相关主题
● 围棋中的算术知识总结	● 出道小题，娱乐一下，答对有奖
● 高尾回国写blog了	● alphago有没有判断过理论公平意义上黑棋应该贴多少目
● 大李要挂了？	● 妈的，才输两盘棋而已
● 山下的茅坑很厉害啊	● 狗程序设计有问题：目数加权太少，胜率权重太大，所以不杀龙
● missbear的棋现在深不可测啊	● 围棋辅助程序的设计
● 昨天的比赛至少是让先差距	● 请教：求推荐学习围棋和找初级对手的在线围棋对弈软件
● 对我狗的崇拜要盲目	● 说AI会砸职业棋手饭碗就是扯蛋
● 李世石前两局每步的胜率估计,同时DF还给出了它计算的最优手，以及实际的结果	● 奇怪

相关话题的讨论汇总
话题: alphago话题: 目数话题: 盘面话题: 胜率话题: 官子

#	版面	帖数(主题数)
-	全站	4871 (796)
1	Military	3777 (569)
2	Stock	341 (51)
3	Joke	117 (17)
4	History	116 (3)
5	Automobile	100 (9)
6	USANews	55 (9)
7	Midlife	45 (1)
8	Headline	41 (41)
9	Dreamer	33 (13)
10	FleaMarket	32 (20)
11	Living	30 (7)

boards

未名新帖统计// 7月16日

历史上的今天