S*E 发帖数: 3662 | 1 现在通常的解释是狗追求胜率而不是赢的目数。
这种解释并不令人信服。事实上,AlphaGo/Master赢的棋到数目的时候大多是小胜。
从常理上讲,赢目数多在大多数情况下应该是和胜率高不矛盾。
不可能每次都需要牺牲目数来换取胜率。
我认为事实可能是;在最后阶段AlphaGo扮演了围棋上帝的角色。
它已经掌握了百分之百获胜的方法。然后开始打控制球。
每一步都选择获胜但是赢的目数最少的着法。
这样有两个好处:一是给人类棋手保留面子。二是检验强大的算力,供内部审核用。 |
t******g 发帖数: 1136 | 2 目标函数的weights 变了,一个是要赢,一个是要赢得大。
【在 S*E 的大作中提到】 : 现在通常的解释是狗追求胜率而不是赢的目数。 : 这种解释并不令人信服。事实上,AlphaGo/Master赢的棋到数目的时候大多是小胜。 : 从常理上讲,赢目数多在大多数情况下应该是和胜率高不矛盾。 : 不可能每次都需要牺牲目数来换取胜率。 : 我认为事实可能是;在最后阶段AlphaGo扮演了围棋上帝的角色。 : 它已经掌握了百分之百获胜的方法。然后开始打控制球。 : 每一步都选择获胜但是赢的目数最少的着法。 : 这样有两个好处:一是给人类棋手保留面子。二是检验强大的算力,供内部审核用。
|
d*****n 发帖数: 754 | 3 价值网络在官子阶段没用,就是靠生算。狗在这方面不算强,主要靠前面领先大
[在 SLE (嗯,就这样定了。) 的大作中提到:]
:现在通常的解释是狗追求胜率而不是赢的目数。
:这种解释并不令人信服。事实上,AlphaGo/Master赢的棋到数目的时候大多是小胜。
:从常理上讲,赢目数多在大多数情况下应该是和胜率高不矛盾。
:不可能每次都需要牺牲目数来换取胜率。
:我认为事实可能是;在最后阶段AlphaGo扮演了围棋上帝的角色。
:它已经掌握了百分之百获胜的方法。然后开始打控制球。
:每一步都选择获胜但是赢的目数最少的着法。
:这样有两个好处:一是给人类棋手保留面子。二是检验强大的算力,供内部审核用。 |
S*E 发帖数: 3662 | 4 它可以切换成穷举。
【在 d*****n 的大作中提到】 : 价值网络在官子阶段没用,就是靠生算。狗在这方面不算强,主要靠前面领先大 : [在 SLE (嗯,就这样定了。) 的大作中提到:] : :现在通常的解释是狗追求胜率而不是赢的目数。 : :这种解释并不令人信服。事实上,AlphaGo/Master赢的棋到数目的时候大多是小胜。 : :从常理上讲,赢目数多在大多数情况下应该是和胜率高不矛盾。 : :不可能每次都需要牺牲目数来换取胜率。 : :我认为事实可能是;在最后阶段AlphaGo扮演了围棋上帝的角色。 : :它已经掌握了百分之百获胜的方法。然后开始打控制球。 : :每一步都选择获胜但是赢的目数最少的着法。 : :这样有两个好处:一是给人类棋手保留面子。二是检验强大的算力,供内部审核用。
|
j**********r 发帖数: 3798 | 5 最简的变化就是深度最少的变化。狗并不在乎赢半目还是赢10目,只要保证赢就行。退
让通常都是自己补,变化少。
【在 S*E 的大作中提到】 : 现在通常的解释是狗追求胜率而不是赢的目数。 : 这种解释并不令人信服。事实上,AlphaGo/Master赢的棋到数目的时候大多是小胜。 : 从常理上讲,赢目数多在大多数情况下应该是和胜率高不矛盾。 : 不可能每次都需要牺牲目数来换取胜率。 : 我认为事实可能是;在最后阶段AlphaGo扮演了围棋上帝的角色。 : 它已经掌握了百分之百获胜的方法。然后开始打控制球。 : 每一步都选择获胜但是赢的目数最少的着法。 : 这样有两个好处:一是给人类棋手保留面子。二是检验强大的算力,供内部审核用。
|
c**v 发帖数: 103 | 6
Agree!
【在 j**********r 的大作中提到】 : 最简的变化就是深度最少的变化。狗并不在乎赢半目还是赢10目,只要保证赢就行。退 : 让通常都是自己补,变化少。
|
b*******8 发帖数: 37364 | 7 属实 马拉松赛第一名在最后阶段如果领先较多 最佳策略是慢慢走过去 避免抽筋崴脚
等意外 看着第二名 保证不被超过 第二名在最后也不可能爆发百米冲刺速度 可以稳稳
控制 最后就赢个五六米
★ 发自iPhone App: ChineseWeb 16
【在 j**********r 的大作中提到】 : 最简的变化就是深度最少的变化。狗并不在乎赢半目还是赢10目,只要保证赢就行。退 : 让通常都是自己补,变化少。
|
l******8 发帖数: 1691 | 8 it counts the probability of winning, not the size of winning. This result
shows us that the best move to win big is also often a riskier move.
Your basic assumption is wrong.
【在 S*E 的大作中提到】 : 现在通常的解释是狗追求胜率而不是赢的目数。 : 这种解释并不令人信服。事实上,AlphaGo/Master赢的棋到数目的时候大多是小胜。 : 从常理上讲,赢目数多在大多数情况下应该是和胜率高不矛盾。 : 不可能每次都需要牺牲目数来换取胜率。 : 我认为事实可能是;在最后阶段AlphaGo扮演了围棋上帝的角色。 : 它已经掌握了百分之百获胜的方法。然后开始打控制球。 : 每一步都选择获胜但是赢的目数最少的着法。 : 这样有两个好处:一是给人类棋手保留面子。二是检验强大的算力,供内部审核用。
|
S*E 发帖数: 3662 | 9 怎么解释每次到管子阶段都是小胜。怎么可能胜率和目数每次都是矛盾?
result
【在 l******8 的大作中提到】 : it counts the probability of winning, not the size of winning. This result : shows us that the best move to win big is also often a riskier move. : Your basic assumption is wrong.
|
y***i 发帖数: 91 | |
|
|
e*********6 发帖数: 3453 | 11 我不认为是这样的。在master 60盘的时候,很多走法用这个理论无法解释。
我觉得就是非常简单的loss of gradient的问题。对于一个最简单的情况,现在其他地
方都走完了,就有2处可以走的,一处单关,一处一目,都没有风险和其他任何后续手
段,现在狗狗盘面领先10目,走哪个胜率都是100%,两处没有区别,狗狗就丧失了判断
能力,随机走一个。
【在 j**********r 的大作中提到】 : 最简的变化就是深度最少的变化。狗并不在乎赢半目还是赢10目,只要保证赢就行。退 : 让通常都是自己补,变化少。
|
n*******7 发帖数: 181 | 12 为什么这时候要随机走而不是求最大领先?如果算法稍改一下变成求最大领先,棋就会
更好看了。
【在 e*********6 的大作中提到】 : 我不认为是这样的。在master 60盘的时候,很多走法用这个理论无法解释。 : 我觉得就是非常简单的loss of gradient的问题。对于一个最简单的情况,现在其他地 : 方都走完了,就有2处可以走的,一处单关,一处一目,都没有风险和其他任何后续手 : 段,现在狗狗盘面领先10目,走哪个胜率都是100%,两处没有区别,狗狗就丧失了判断 : 能力,随机走一个。
|
e*********6 发帖数: 3453 | 13 因为围棋的目标就是赢棋,是一个单一目标任务。狗狗的目标就是赢棋,不是好看。
如果把围棋的目标改成多赢棋,那就是另一种游戏了。
【在 n*******7 的大作中提到】 : 为什么这时候要随机走而不是求最大领先?如果算法稍改一下变成求最大领先,棋就会 : 更好看了。
|
k****2 发帖数: 248 | 14 调难度了,cpu比李世石时代少了9/10。根本不想赢太多,想控制赢的数目 |
b*****s 发帖数: 11267 | |
w***g 发帖数: 5958 | 16 我觉得和左右互搏这种训练方法有关。互博的两个模型一直是水平相当的,以至于训练
出来的模型也只会在微弱的优势下下棋。
【在 S*E 的大作中提到】 : 现在通常的解释是狗追求胜率而不是赢的目数。 : 这种解释并不令人信服。事实上,AlphaGo/Master赢的棋到数目的时候大多是小胜。 : 从常理上讲,赢目数多在大多数情况下应该是和胜率高不矛盾。 : 不可能每次都需要牺牲目数来换取胜率。 : 我认为事实可能是;在最后阶段AlphaGo扮演了围棋上帝的角色。 : 它已经掌握了百分之百获胜的方法。然后开始打控制球。 : 每一步都选择获胜但是赢的目数最少的着法。 : 这样有两个好处:一是给人类棋手保留面子。二是检验强大的算力,供内部审核用。
|
F******k 发帖数: 7375 | 17 agree
【在 w***g 的大作中提到】 : 我觉得和左右互搏这种训练方法有关。互博的两个模型一直是水平相当的,以至于训练 : 出来的模型也只会在微弱的优势下下棋。
|
n****g 发帖数: 14743 | 18 有趣的想法
【在 w***g 的大作中提到】 : 我觉得和左右互搏这种训练方法有关。互博的两个模型一直是水平相当的,以至于训练 : 出来的模型也只会在微弱的优势下下棋。
|
c****o 发帖数: 317 | 19 围棋的巨大分支树,最底下的节点就是终局时盘面的形态,那么每个盘面都有一个客观
的胜负多少目的结果。对alphago来说,它并不考虑这个胜负多少目,它只考虑这个形
态下到底是黑胜还是白胜。然而,如果我们考察分支树,那么从统计意义上说,胜负差
距越小的盘面数目,应该就越多,例如,大胜200目的所有可能盘面,必然远远少于小
胜2目的盘面数目。
这一点可以大致用数学原理来分析一下。如果假设最终我们分别用黑子和白子把黑白双
方占的地都填满,那么黑占181白占180的盘面数目为C(361,180),命名为c1,而黑占
231白占130的盘面数目为C(361,130),命名为c2。我们来考察下c1和c2谁大谁小,简单
的计算表明c1大约是c2的一百六十万倍。注意,这里的估算是非常简化的,但是看懂的
人能够理解我们的定性结论,即,差距越小的盘面,其总数也就越多。
有了这个结论,就可以分析为什么alphago并不追求目数最大化,而反而表象为目数最
小化(当然首先要保证赢)似的。这完全是一个概率的事情,对alphago来说,它选择
走棋也就是选择某个分支,完全是看这个分支下面自己能赢的盘面数目是不是最多。而
能赢的那些盘面里,差距越小的,数目占了绝大多数,因此,这类小胜的盘面,就相当
于投%票群众里大多数,所以主导了alphago的选择。比如如果有一类盘面,能够大胜50
目,它们也想让alphago选择自己,但无奈人数太少,发声不够,而另一类盘面,小胜2
目,但是人数众多,能够在alphago的投%票系统里得到最多的权重,所以alphago当然
倾向于选择拥有最多“小胜2目”盘面的分支了。
粗略的说就是,赢你的方法非常多,但是细分的话,大胜你的方法千千万,小胜你的方
法却有万万千。然而alphago的算法是完全不分辨大胜和小胜,所以从统计上说,最后
的局面落在小胜的概率远高于落在大胜的概率。
可能有人还是困惑,他们认为,比如某个局面下,如果某一步能够获得更多的目数,那
么当然能够最大化地提高胜率,那么当然alphago应该选择这一步了。然而这个结论只
是一个错觉,从统计上说,任何局面下,能最大化目数的招法几乎肯定不是最大化胜率
的招法,alphago的风格验证了这个数学原理。 |
j*m 发帖数: 833 | 20 把目标函数改成预期胜利目数x获胜概率就可以了。不知道开局阶段获胜目数能不能算
到底,不过似乎也关系不大。到官子阶段切换也来得及。按说电脑计算官子应该比人类
精确才对。 |
|
|
S*E 发帖数: 3662 | 21 可以换成一旦找到必胜策略,就采取最大目数或者最小目数战略。
【在 j*m 的大作中提到】 : 把目标函数改成预期胜利目数x获胜概率就可以了。不知道开局阶段获胜目数能不能算 : 到底,不过似乎也关系不大。到官子阶段切换也来得及。按说电脑计算官子应该比人类 : 精确才对。
|
y*j 发帖数: 3139 | 22 应该就是在官子阶段,统计不确定性越来越小,它的棋力越来越弱。其实和人们一般的
想法相反,它主要不是靠硬计算来赢棋的,而是靠大数据统计来赢棋的。越不确定,它
的棋感越强。
:现在通常的解释是狗追求胜率而不是赢的目数。
:这种解释并不令人信服。事实上,AlphaGo/Master赢的棋到数目的时候大多是小胜。
:从常理上讲,赢目数多在大多数情况下应该是和胜率高不矛盾。
:不可能每次都需要牺牲目数来换取胜率。
:我认为事实可能是;在最后阶段AlphaGo扮演了围棋上帝的角色。
:它已经掌握了百分之百获胜的方法。然后开始打控制球。
:每一步都选择获胜但是赢的目数最少的着法。
:这样有两个好处:一是给人类棋手保留面子。二是检验强大的算力,供内部审核用。
【在 S*E 的大作中提到】 : 可以换成一旦找到必胜策略,就采取最大目数或者最小目数战略。
|
D**s 发帖数: 6361 | 23 新版本的alphago号称可以自己对弈自己来学习
【在 y*j 的大作中提到】 : 应该就是在官子阶段,统计不确定性越来越小,它的棋力越来越弱。其实和人们一般的 : 想法相反,它主要不是靠硬计算来赢棋的,而是靠大数据统计来赢棋的。越不确定,它 : 的棋感越强。 : : :现在通常的解释是狗追求胜率而不是赢的目数。 : :这种解释并不令人信服。事实上,AlphaGo/Master赢的棋到数目的时候大多是小胜。 : :从常理上讲,赢目数多在大多数情况下应该是和胜率高不矛盾。 : :不可能每次都需要牺牲目数来换取胜率。 : :我认为事实可能是;在最后阶段AlphaGo扮演了围棋上帝的角色。 : :它已经掌握了百分之百获胜的方法。然后开始打控制球。
|
y*j 发帖数: 3139 | 24 凡是到了靠规则取胜的时候,也就是官子阶段,不确定性变小,统计方法的威力就变小
了。也就是说可搜索的空间越大,统计方法相当于人来说越有效。
和李世石对局有一次李世石来了一个定式,alphago 就应对的不好。因为人可以记住定
式,按Redmond的说法,他闭着眼睛都知道怎么下那个定式,但是统计方法学习定式的
效率不高。
:新版本的alphago号称可以自己对弈自己来学习
:☆ 发自 iPhone 买买提 1.23.01
【在 D**s 的大作中提到】 : 新版本的alphago号称可以自己对弈自己来学习
|
h*********2 发帖数: 444 | |
f***e 发帖数: 5443 | 26 这个分析靠谱,就是训练集合导致的
【在 c****o 的大作中提到】 : 围棋的巨大分支树,最底下的节点就是终局时盘面的形态,那么每个盘面都有一个客观 : 的胜负多少目的结果。对alphago来说,它并不考虑这个胜负多少目,它只考虑这个形 : 态下到底是黑胜还是白胜。然而,如果我们考察分支树,那么从统计意义上说,胜负差 : 距越小的盘面数目,应该就越多,例如,大胜200目的所有可能盘面,必然远远少于小 : 胜2目的盘面数目。 : 这一点可以大致用数学原理来分析一下。如果假设最终我们分别用黑子和白子把黑白双 : 方占的地都填满,那么黑占181白占180的盘面数目为C(361,180),命名为c1,而黑占 : 231白占130的盘面数目为C(361,130),命名为c2。我们来考察下c1和c2谁大谁小,简单 : 的计算表明c1大约是c2的一百六十万倍。注意,这里的估算是非常简化的,但是看懂的 : 人能够理解我们的定性结论,即,差距越小的盘面,其总数也就越多。
|
a****l 发帖数: 8211 | 27 没这么复杂。人类棋手也经常这么做,盘面优势的情况下,各种官子都是选择最保险的
没有任何变数的下法,虽然经常损一些,但是不给对手漏勺翻盘的机会。唯一的区别是
棋手在这种情况下可能过于保险反而坏事,机器却不会,随时算准确了。
【在 S*E 的大作中提到】 : 现在通常的解释是狗追求胜率而不是赢的目数。 : 这种解释并不令人信服。事实上,AlphaGo/Master赢的棋到数目的时候大多是小胜。 : 从常理上讲,赢目数多在大多数情况下应该是和胜率高不矛盾。 : 不可能每次都需要牺牲目数来换取胜率。 : 我认为事实可能是;在最后阶段AlphaGo扮演了围棋上帝的角色。 : 它已经掌握了百分之百获胜的方法。然后开始打控制球。 : 每一步都选择获胜但是赢的目数最少的着法。 : 这样有两个好处:一是给人类棋手保留面子。二是检验强大的算力,供内部审核用。
|
T**********e 发帖数: 29576 | 28 deepmind那人访谈,说收官退让是狗的一个bug,要改。 |
E******d 发帖数: 3514 | 29 你这个分析很有意思,确实很可能研究团队是把每一盘结果当作1或者0输入给电脑,导
致了电脑追求胜利而不追求优势的最大化。那么接下来是不是可以说,如果给每一个胜
负局加上权重,比如胜负五目的棋局重复训练十次,而胜负半目的棋局只训练一次,这
样训练出来的狗会更聪明一些?
【在 c****o 的大作中提到】 : 围棋的巨大分支树,最底下的节点就是终局时盘面的形态,那么每个盘面都有一个客观 : 的胜负多少目的结果。对alphago来说,它并不考虑这个胜负多少目,它只考虑这个形 : 态下到底是黑胜还是白胜。然而,如果我们考察分支树,那么从统计意义上说,胜负差 : 距越小的盘面数目,应该就越多,例如,大胜200目的所有可能盘面,必然远远少于小 : 胜2目的盘面数目。 : 这一点可以大致用数学原理来分析一下。如果假设最终我们分别用黑子和白子把黑白双 : 方占的地都填满,那么黑占181白占180的盘面数目为C(361,180),命名为c1,而黑占 : 231白占130的盘面数目为C(361,130),命名为c2。我们来考察下c1和c2谁大谁小,简单 : 的计算表明c1大约是c2的一百六十万倍。注意,这里的估算是非常简化的,但是看懂的 : 人能够理解我们的定性结论,即,差距越小的盘面,其总数也就越多。
|
G***s 发帖数: 739 | 30 我很好奇如果让两个alphago对弈会是什么结果? |