由买买提看人间百态

boards

本页内容为未名空间相应帖子的节选和存档,一周内的贴子最多显示50字,超过一周显示500字 访问原贴
Go版 - AlphaGo为什么官子要退让?
相关主题
missbear的棋现在深不可测啊围棋辅助程序的设计
昨天的比赛至少是让先差距请教:求推荐学习围棋和找初级对手的在线围棋对弈软件
对我狗的崇拜要盲目说AI会砸职业棋手饭碗就是扯蛋
李世石前两局每步的胜率估计,同时DF还给出了它计算的最优手,以及实际的结果奇怪
出道小题,娱乐一下,答对有奖贴一盘和职业高手的对局
alphago有没有判断过理论公平意义上黑棋应该贴多少目太极神功的悲哀
妈的,才输两盘棋而已围棋官子中的数学:什么情况下是单先官子?
狗程序设计有问题:目数加权太少,胜率权重太大,所以不杀龙围棋中的算术知识总结
相关话题的讨论汇总
话题: alphago话题: 目数话题: 盘面话题: 胜率话题: 官子
进入Go版参与讨论
1 (共1页)
S*E
发帖数: 3662
1
现在通常的解释是狗追求胜率而不是赢的目数。
这种解释并不令人信服。事实上,AlphaGo/Master赢的棋到数目的时候大多是小胜。
从常理上讲,赢目数多在大多数情况下应该是和胜率高不矛盾。
不可能每次都需要牺牲目数来换取胜率。
我认为事实可能是;在最后阶段AlphaGo扮演了围棋上帝的角色。
它已经掌握了百分之百获胜的方法。然后开始打控制球。
每一步都选择获胜但是赢的目数最少的着法。
这样有两个好处:一是给人类棋手保留面子。二是检验强大的算力,供内部审核用。
t******g
发帖数: 1136
2
目标函数的weights 变了,一个是要赢,一个是要赢得大。

【在 S*E 的大作中提到】
: 现在通常的解释是狗追求胜率而不是赢的目数。
: 这种解释并不令人信服。事实上,AlphaGo/Master赢的棋到数目的时候大多是小胜。
: 从常理上讲,赢目数多在大多数情况下应该是和胜率高不矛盾。
: 不可能每次都需要牺牲目数来换取胜率。
: 我认为事实可能是;在最后阶段AlphaGo扮演了围棋上帝的角色。
: 它已经掌握了百分之百获胜的方法。然后开始打控制球。
: 每一步都选择获胜但是赢的目数最少的着法。
: 这样有两个好处:一是给人类棋手保留面子。二是检验强大的算力,供内部审核用。

d*****n
发帖数: 754
3
价值网络在官子阶段没用,就是靠生算。狗在这方面不算强,主要靠前面领先大
[在 SLE (嗯,就这样定了。) 的大作中提到:]
:现在通常的解释是狗追求胜率而不是赢的目数。
:这种解释并不令人信服。事实上,AlphaGo/Master赢的棋到数目的时候大多是小胜。
:从常理上讲,赢目数多在大多数情况下应该是和胜率高不矛盾。
:不可能每次都需要牺牲目数来换取胜率。
:我认为事实可能是;在最后阶段AlphaGo扮演了围棋上帝的角色。
:它已经掌握了百分之百获胜的方法。然后开始打控制球。
:每一步都选择获胜但是赢的目数最少的着法。
:这样有两个好处:一是给人类棋手保留面子。二是检验强大的算力,供内部审核用。
S*E
发帖数: 3662
4
它可以切换成穷举。

【在 d*****n 的大作中提到】
: 价值网络在官子阶段没用,就是靠生算。狗在这方面不算强,主要靠前面领先大
: [在 SLE (嗯,就这样定了。) 的大作中提到:]
: :现在通常的解释是狗追求胜率而不是赢的目数。
: :这种解释并不令人信服。事实上,AlphaGo/Master赢的棋到数目的时候大多是小胜。
: :从常理上讲,赢目数多在大多数情况下应该是和胜率高不矛盾。
: :不可能每次都需要牺牲目数来换取胜率。
: :我认为事实可能是;在最后阶段AlphaGo扮演了围棋上帝的角色。
: :它已经掌握了百分之百获胜的方法。然后开始打控制球。
: :每一步都选择获胜但是赢的目数最少的着法。
: :这样有两个好处:一是给人类棋手保留面子。二是检验强大的算力,供内部审核用。

j**********r
发帖数: 3798
5
最简的变化就是深度最少的变化。狗并不在乎赢半目还是赢10目,只要保证赢就行。退
让通常都是自己补,变化少。

【在 S*E 的大作中提到】
: 现在通常的解释是狗追求胜率而不是赢的目数。
: 这种解释并不令人信服。事实上,AlphaGo/Master赢的棋到数目的时候大多是小胜。
: 从常理上讲,赢目数多在大多数情况下应该是和胜率高不矛盾。
: 不可能每次都需要牺牲目数来换取胜率。
: 我认为事实可能是;在最后阶段AlphaGo扮演了围棋上帝的角色。
: 它已经掌握了百分之百获胜的方法。然后开始打控制球。
: 每一步都选择获胜但是赢的目数最少的着法。
: 这样有两个好处:一是给人类棋手保留面子。二是检验强大的算力,供内部审核用。

c**v
发帖数: 103
6

Agree!

【在 j**********r 的大作中提到】
: 最简的变化就是深度最少的变化。狗并不在乎赢半目还是赢10目,只要保证赢就行。退
: 让通常都是自己补,变化少。

b*******8
发帖数: 37364
7
属实 马拉松赛第一名在最后阶段如果领先较多 最佳策略是慢慢走过去 避免抽筋崴脚
等意外 看着第二名 保证不被超过 第二名在最后也不可能爆发百米冲刺速度 可以稳稳
控制 最后就赢个五六米

★ 发自iPhone App: ChineseWeb 16

【在 j**********r 的大作中提到】
: 最简的变化就是深度最少的变化。狗并不在乎赢半目还是赢10目,只要保证赢就行。退
: 让通常都是自己补,变化少。

l******8
发帖数: 1691
8
it counts the probability of winning, not the size of winning. This result
shows us that the best move to win big is also often a riskier move.
Your basic assumption is wrong.

【在 S*E 的大作中提到】
: 现在通常的解释是狗追求胜率而不是赢的目数。
: 这种解释并不令人信服。事实上,AlphaGo/Master赢的棋到数目的时候大多是小胜。
: 从常理上讲,赢目数多在大多数情况下应该是和胜率高不矛盾。
: 不可能每次都需要牺牲目数来换取胜率。
: 我认为事实可能是;在最后阶段AlphaGo扮演了围棋上帝的角色。
: 它已经掌握了百分之百获胜的方法。然后开始打控制球。
: 每一步都选择获胜但是赢的目数最少的着法。
: 这样有两个好处:一是给人类棋手保留面子。二是检验强大的算力,供内部审核用。

S*E
发帖数: 3662
9
怎么解释每次到管子阶段都是小胜。怎么可能胜率和目数每次都是矛盾?

result

【在 l******8 的大作中提到】
: it counts the probability of winning, not the size of winning. This result
: shows us that the best move to win big is also often a riskier move.
: Your basic assumption is wrong.

y***i
发帖数: 91
10
高深
相关主题
alphago有没有判断过理论公平意义上黑棋应该贴多少目围棋辅助程序的设计
妈的,才输两盘棋而已请教:求推荐学习围棋和找初级对手的在线围棋对弈软件
狗程序设计有问题:目数加权太少,胜率权重太大,所以不杀龙说AI会砸职业棋手饭碗就是扯蛋
进入Go版参与讨论
e*********6
发帖数: 3453
11
我不认为是这样的。在master 60盘的时候,很多走法用这个理论无法解释。
我觉得就是非常简单的loss of gradient的问题。对于一个最简单的情况,现在其他地
方都走完了,就有2处可以走的,一处单关,一处一目,都没有风险和其他任何后续手
段,现在狗狗盘面领先10目,走哪个胜率都是100%,两处没有区别,狗狗就丧失了判断
能力,随机走一个。

【在 j**********r 的大作中提到】
: 最简的变化就是深度最少的变化。狗并不在乎赢半目还是赢10目,只要保证赢就行。退
: 让通常都是自己补,变化少。

n*******7
发帖数: 181
12
为什么这时候要随机走而不是求最大领先?如果算法稍改一下变成求最大领先,棋就会
更好看了。

【在 e*********6 的大作中提到】
: 我不认为是这样的。在master 60盘的时候,很多走法用这个理论无法解释。
: 我觉得就是非常简单的loss of gradient的问题。对于一个最简单的情况,现在其他地
: 方都走完了,就有2处可以走的,一处单关,一处一目,都没有风险和其他任何后续手
: 段,现在狗狗盘面领先10目,走哪个胜率都是100%,两处没有区别,狗狗就丧失了判断
: 能力,随机走一个。

e*********6
发帖数: 3453
13
因为围棋的目标就是赢棋,是一个单一目标任务。狗狗的目标就是赢棋,不是好看。
如果把围棋的目标改成多赢棋,那就是另一种游戏了。

【在 n*******7 的大作中提到】
: 为什么这时候要随机走而不是求最大领先?如果算法稍改一下变成求最大领先,棋就会
: 更好看了。

k****2
发帖数: 248
14
调难度了,cpu比李世石时代少了9/10。根本不想赢太多,想控制赢的数目
b*****s
发帖数: 11267
15
最短赢棋路径啊,赢的多但是要多走几步
w***g
发帖数: 5958
16
我觉得和左右互搏这种训练方法有关。互博的两个模型一直是水平相当的,以至于训练
出来的模型也只会在微弱的优势下下棋。

【在 S*E 的大作中提到】
: 现在通常的解释是狗追求胜率而不是赢的目数。
: 这种解释并不令人信服。事实上,AlphaGo/Master赢的棋到数目的时候大多是小胜。
: 从常理上讲,赢目数多在大多数情况下应该是和胜率高不矛盾。
: 不可能每次都需要牺牲目数来换取胜率。
: 我认为事实可能是;在最后阶段AlphaGo扮演了围棋上帝的角色。
: 它已经掌握了百分之百获胜的方法。然后开始打控制球。
: 每一步都选择获胜但是赢的目数最少的着法。
: 这样有两个好处:一是给人类棋手保留面子。二是检验强大的算力,供内部审核用。

F******k
发帖数: 7375
17
agree

【在 w***g 的大作中提到】
: 我觉得和左右互搏这种训练方法有关。互博的两个模型一直是水平相当的,以至于训练
: 出来的模型也只会在微弱的优势下下棋。

n****g
发帖数: 14743
18
有趣的想法

【在 w***g 的大作中提到】
: 我觉得和左右互搏这种训练方法有关。互博的两个模型一直是水平相当的,以至于训练
: 出来的模型也只会在微弱的优势下下棋。

c****o
发帖数: 317
19
围棋的巨大分支树,最底下的节点就是终局时盘面的形态,那么每个盘面都有一个客观
的胜负多少目的结果。对alphago来说,它并不考虑这个胜负多少目,它只考虑这个形
态下到底是黑胜还是白胜。然而,如果我们考察分支树,那么从统计意义上说,胜负差
距越小的盘面数目,应该就越多,例如,大胜200目的所有可能盘面,必然远远少于小
胜2目的盘面数目。
这一点可以大致用数学原理来分析一下。如果假设最终我们分别用黑子和白子把黑白双
方占的地都填满,那么黑占181白占180的盘面数目为C(361,180),命名为c1,而黑占
231白占130的盘面数目为C(361,130),命名为c2。我们来考察下c1和c2谁大谁小,简单
的计算表明c1大约是c2的一百六十万倍。注意,这里的估算是非常简化的,但是看懂的
人能够理解我们的定性结论,即,差距越小的盘面,其总数也就越多。
有了这个结论,就可以分析为什么alphago并不追求目数最大化,而反而表象为目数最
小化(当然首先要保证赢)似的。这完全是一个概率的事情,对alphago来说,它选择
走棋也就是选择某个分支,完全是看这个分支下面自己能赢的盘面数目是不是最多。而
能赢的那些盘面里,差距越小的,数目占了绝大多数,因此,这类小胜的盘面,就相当
于投%票群众里大多数,所以主导了alphago的选择。比如如果有一类盘面,能够大胜50
目,它们也想让alphago选择自己,但无奈人数太少,发声不够,而另一类盘面,小胜2
目,但是人数众多,能够在alphago的投%票系统里得到最多的权重,所以alphago当然
倾向于选择拥有最多“小胜2目”盘面的分支了。
粗略的说就是,赢你的方法非常多,但是细分的话,大胜你的方法千千万,小胜你的方
法却有万万千。然而alphago的算法是完全不分辨大胜和小胜,所以从统计上说,最后
的局面落在小胜的概率远高于落在大胜的概率。
可能有人还是困惑,他们认为,比如某个局面下,如果某一步能够获得更多的目数,那
么当然能够最大化地提高胜率,那么当然alphago应该选择这一步了。然而这个结论只
是一个错觉,从统计上说,任何局面下,能最大化目数的招法几乎肯定不是最大化胜率
的招法,alphago的风格验证了这个数学原理。
j*m
发帖数: 833
20
把目标函数改成预期胜利目数x获胜概率就可以了。不知道开局阶段获胜目数能不能算
到底,不过似乎也关系不大。到官子阶段切换也来得及。按说电脑计算官子应该比人类
精确才对。
相关主题
奇怪围棋官子中的数学:什么情况下是单先官子?
贴一盘和职业高手的对局围棋中的算术知识总结
太极神功的悲哀高尾回国写blog了
进入Go版参与讨论
S*E
发帖数: 3662
21
可以换成一旦找到必胜策略,就采取最大目数或者最小目数战略。

【在 j*m 的大作中提到】
: 把目标函数改成预期胜利目数x获胜概率就可以了。不知道开局阶段获胜目数能不能算
: 到底,不过似乎也关系不大。到官子阶段切换也来得及。按说电脑计算官子应该比人类
: 精确才对。

y*j
发帖数: 3139
22
应该就是在官子阶段,统计不确定性越来越小,它的棋力越来越弱。其实和人们一般的
想法相反,它主要不是靠硬计算来赢棋的,而是靠大数据统计来赢棋的。越不确定,它
的棋感越强。

:现在通常的解释是狗追求胜率而不是赢的目数。
:这种解释并不令人信服。事实上,AlphaGo/Master赢的棋到数目的时候大多是小胜。
:从常理上讲,赢目数多在大多数情况下应该是和胜率高不矛盾。
:不可能每次都需要牺牲目数来换取胜率。
:我认为事实可能是;在最后阶段AlphaGo扮演了围棋上帝的角色。
:它已经掌握了百分之百获胜的方法。然后开始打控制球。
:每一步都选择获胜但是赢的目数最少的着法。
:这样有两个好处:一是给人类棋手保留面子。二是检验强大的算力,供内部审核用。

【在 S*E 的大作中提到】
: 可以换成一旦找到必胜策略,就采取最大目数或者最小目数战略。
D**s
发帖数: 6361
23
新版本的alphago号称可以自己对弈自己来学习

【在 y*j 的大作中提到】
: 应该就是在官子阶段,统计不确定性越来越小,它的棋力越来越弱。其实和人们一般的
: 想法相反,它主要不是靠硬计算来赢棋的,而是靠大数据统计来赢棋的。越不确定,它
: 的棋感越强。
:
: :现在通常的解释是狗追求胜率而不是赢的目数。
: :这种解释并不令人信服。事实上,AlphaGo/Master赢的棋到数目的时候大多是小胜。
: :从常理上讲,赢目数多在大多数情况下应该是和胜率高不矛盾。
: :不可能每次都需要牺牲目数来换取胜率。
: :我认为事实可能是;在最后阶段AlphaGo扮演了围棋上帝的角色。
: :它已经掌握了百分之百获胜的方法。然后开始打控制球。

y*j
发帖数: 3139
24
凡是到了靠规则取胜的时候,也就是官子阶段,不确定性变小,统计方法的威力就变小
了。也就是说可搜索的空间越大,统计方法相当于人来说越有效。
和李世石对局有一次李世石来了一个定式,alphago 就应对的不好。因为人可以记住定
式,按Redmond的说法,他闭着眼睛都知道怎么下那个定式,但是统计方法学习定式的
效率不高。

:新版本的alphago号称可以自己对弈自己来学习
:☆ 发自 iPhone 买买提 1.23.01

【在 D**s 的大作中提到】
: 新版本的alphago号称可以自己对弈自己来学习
h*********2
发帖数: 444
25
主要是你這個常理不靠譜。學學統計學就知道了。
f***e
发帖数: 5443
26
这个分析靠谱,就是训练集合导致的

【在 c****o 的大作中提到】
: 围棋的巨大分支树,最底下的节点就是终局时盘面的形态,那么每个盘面都有一个客观
: 的胜负多少目的结果。对alphago来说,它并不考虑这个胜负多少目,它只考虑这个形
: 态下到底是黑胜还是白胜。然而,如果我们考察分支树,那么从统计意义上说,胜负差
: 距越小的盘面数目,应该就越多,例如,大胜200目的所有可能盘面,必然远远少于小
: 胜2目的盘面数目。
: 这一点可以大致用数学原理来分析一下。如果假设最终我们分别用黑子和白子把黑白双
: 方占的地都填满,那么黑占181白占180的盘面数目为C(361,180),命名为c1,而黑占
: 231白占130的盘面数目为C(361,130),命名为c2。我们来考察下c1和c2谁大谁小,简单
: 的计算表明c1大约是c2的一百六十万倍。注意,这里的估算是非常简化的,但是看懂的
: 人能够理解我们的定性结论,即,差距越小的盘面,其总数也就越多。

a****l
发帖数: 8211
27
没这么复杂。人类棋手也经常这么做,盘面优势的情况下,各种官子都是选择最保险的
没有任何变数的下法,虽然经常损一些,但是不给对手漏勺翻盘的机会。唯一的区别是
棋手在这种情况下可能过于保险反而坏事,机器却不会,随时算准确了。

【在 S*E 的大作中提到】
: 现在通常的解释是狗追求胜率而不是赢的目数。
: 这种解释并不令人信服。事实上,AlphaGo/Master赢的棋到数目的时候大多是小胜。
: 从常理上讲,赢目数多在大多数情况下应该是和胜率高不矛盾。
: 不可能每次都需要牺牲目数来换取胜率。
: 我认为事实可能是;在最后阶段AlphaGo扮演了围棋上帝的角色。
: 它已经掌握了百分之百获胜的方法。然后开始打控制球。
: 每一步都选择获胜但是赢的目数最少的着法。
: 这样有两个好处:一是给人类棋手保留面子。二是检验强大的算力,供内部审核用。

T**********e
发帖数: 29576
28
deepmind那人访谈,说收官退让是狗的一个bug,要改。
E******d
发帖数: 3514
29
你这个分析很有意思,确实很可能研究团队是把每一盘结果当作1或者0输入给电脑,导
致了电脑追求胜利而不追求优势的最大化。那么接下来是不是可以说,如果给每一个胜
负局加上权重,比如胜负五目的棋局重复训练十次,而胜负半目的棋局只训练一次,这
样训练出来的狗会更聪明一些?

【在 c****o 的大作中提到】
: 围棋的巨大分支树,最底下的节点就是终局时盘面的形态,那么每个盘面都有一个客观
: 的胜负多少目的结果。对alphago来说,它并不考虑这个胜负多少目,它只考虑这个形
: 态下到底是黑胜还是白胜。然而,如果我们考察分支树,那么从统计意义上说,胜负差
: 距越小的盘面数目,应该就越多,例如,大胜200目的所有可能盘面,必然远远少于小
: 胜2目的盘面数目。
: 这一点可以大致用数学原理来分析一下。如果假设最终我们分别用黑子和白子把黑白双
: 方占的地都填满,那么黑占181白占180的盘面数目为C(361,180),命名为c1,而黑占
: 231白占130的盘面数目为C(361,130),命名为c2。我们来考察下c1和c2谁大谁小,简单
: 的计算表明c1大约是c2的一百六十万倍。注意,这里的估算是非常简化的,但是看懂的
: 人能够理解我们的定性结论,即,差距越小的盘面,其总数也就越多。

G***s
发帖数: 739
30
我很好奇如果让两个alphago对弈会是什么结果?
1 (共1页)
进入Go版参与讨论
相关主题
围棋中的算术知识总结出道小题,娱乐一下,答对有奖
高尾回国写blog了alphago有没有判断过理论公平意义上黑棋应该贴多少目
大李要挂了?妈的,才输两盘棋而已
山下的茅坑很厉害啊狗程序设计有问题:目数加权太少,胜率权重太大,所以不杀龙
missbear的棋现在深不可测啊围棋辅助程序的设计
昨天的比赛至少是让先差距请教:求推荐学习围棋和找初级对手的在线围棋对弈软件
对我狗的崇拜要盲目说AI会砸职业棋手饭碗就是扯蛋
李世石前两局每步的胜率估计,同时DF还给出了它计算的最优手,以及实际的结果奇怪
相关话题的讨论汇总
话题: alphago话题: 目数话题: 盘面话题: 胜率话题: 官子