M*T 发帖数: 123 | 1 韩国棋院那个谁(忘了名字了)说阿狗左右互搏一万盘能提高很多,可一万到百万盘就
没啥作用了。这个我不太同意。他还是应用了人类思维的模式。人和自己下,不要说百
万盘,能到几千盘就没多大意义了,因为记忆有限,到了一定程度
就创新不出来了。
可狗狗不同,狗狗左右互搏凭机器记忆,上次这种情况左手输给右手了,这次铁定知道
,然后就换种走法了。不要说百万盘,就是千万盘,上亿盘照样能知道那种走法还没试
过。
这才是机器学习的威力。 |
s***y 发帖数: 198 | 2 还是这个问题,如果只有业余棋手的棋谱,阿发狗能自己博到什么高度?
【在 M*T 的大作中提到】 : 韩国棋院那个谁(忘了名字了)说阿狗左右互搏一万盘能提高很多,可一万到百万盘就 : 没啥作用了。这个我不太同意。他还是应用了人类思维的模式。人和自己下,不要说百 : 万盘,能到几千盘就没多大意义了,因为记忆有限,到了一定程度 : 就创新不出来了。 : 可狗狗不同,狗狗左右互搏凭机器记忆,上次这种情况左手输给右手了,这次铁定知道 : ,然后就换种走法了。不要说百万盘,就是千万盘,上亿盘照样能知道那种走法还没试 : 过。 : 这才是机器学习的威力。
|
M*T 发帖数: 123 | 3
比如一开始,狗左手模拟业余棋手赢得一方,右手模拟输的一方。
一旦得出右手这么走不行,就会不停地试验其他走法,不管优化不优化,
评估不评估,总之试验多了,总能找到赢过(或者开局占优)左手的走法。
然后就该反过来让左手试验各种变化了……
只要局数够多(例如million级),狗的水平是会无限提高的。
【在 s***y 的大作中提到】 : 还是这个问题,如果只有业余棋手的棋谱,阿发狗能自己博到什么高度?
|
n*****t 发帖数: 22014 | 4 互搏可以减少实时计算量,但下得再多,没人讲棋复盘,又有啥用?
【在 M*T 的大作中提到】 : : 比如一开始,狗左手模拟业余棋手赢得一方,右手模拟输的一方。 : 一旦得出右手这么走不行,就会不停地试验其他走法,不管优化不优化, : 评估不评估,总之试验多了,总能找到赢过(或者开局占优)左手的走法。 : 然后就该反过来让左手试验各种变化了…… : 只要局数够多(例如million级),狗的水平是会无限提高的。
|
t******l 发帖数: 10908 | 5 旁边楼上 PHD 不是说了,learning 阶段的神经网络根据大量结果总结(正向方向
fitting)出函数参数。
相当于复盘。
【在 n*****t 的大作中提到】 : 互搏可以减少实时计算量,但下得再多,没人讲棋复盘,又有啥用?
|
n*****t 发帖数: 22014 | 6 这种结果总结毫无意义,两个入门棋手的胜负完全说明不了棋的好坏
【在 t******l 的大作中提到】 : 旁边楼上 PHD 不是说了,learning 阶段的神经网络根据大量结果总结(正向方向 : fitting)出函数参数。 : 相当于复盘。
|
M*T 发帖数: 123 | 7
每一步的盘面评估(value 算法)就是狗狗自己给自己“讲”的棋了吧。复盘倒是没有
,不过重新下过n遍也就相当于某种复盘了。
另外刚才多想了一下,觉得狗狗这么干确实还是有瓶颈。就比如按照它现有评估算法,
败方试验了“最有胜率”的下法仍然输,这能代表前面胜方的下法就是“神手”吗,应
该不能吧?狗团队更可能的是反而会重新检视评估算法,认为其实是
算法有问题,并力图找出可以改进的地方。
而这次找人类顶尖棋手对决,估计八成也是遇到类似的情况,按照既有算法遇到部分棋
局怎么走都不赢,没法进化了。
【在 n*****t 的大作中提到】 : 互搏可以减少实时计算量,但下得再多,没人讲棋复盘,又有啥用?
|
t******l 发帖数: 10908 | 8 但两百万个一段棋手的胜负,培养出一个二段选手。
两百万个二段互殴。
【在 n*****t 的大作中提到】 : 这种结果总结毫无意义,两个入门棋手的胜负完全说明不了棋的好坏
|
n*****t 发帖数: 22014 | 9 关键就是评估,尤其转换之后外势相当于多少目这类问题,一流棋手都很难有定论,阿
狗的设计者就更不知道了。
所以我刚才说了,一百万个业余狗对杀,始终无法证明这个下法是对的,除非你把所有
变化都摆到了中盘,找出围棋最优解。而这是不可能的。
【在 M*T 的大作中提到】 : : 每一步的盘面评估(value 算法)就是狗狗自己给自己“讲”的棋了吧。复盘倒是没有 : ,不过重新下过n遍也就相当于某种复盘了。 : 另外刚才多想了一下,觉得狗狗这么干确实还是有瓶颈。就比如按照它现有评估算法, : 败方试验了“最有胜率”的下法仍然输,这能代表前面胜方的下法就是“神手”吗,应 : 该不能吧?狗团队更可能的是反而会重新检视评估算法,认为其实是 : 算法有问题,并力图找出可以改进的地方。 : 而这次找人类顶尖棋手对决,估计八成也是遇到类似的情况,按照既有算法遇到部分棋 : 局怎么走都不赢,没法进化了。
|
t******l 发帖数: 10908 | 10 算法不管对不对,算法只管在给定空间大概率赢,也就是达到算法目标的预期。
对不对是人类的事。
【在 n*****t 的大作中提到】 : 关键就是评估,尤其转换之后外势相当于多少目这类问题,一流棋手都很难有定论,阿 : 狗的设计者就更不知道了。 : 所以我刚才说了,一百万个业余狗对杀,始终无法证明这个下法是对的,除非你把所有 : 变化都摆到了中盘,找出围棋最优解。而这是不可能的。
|
|
|
t******l 发帖数: 10908 | 11 从某种意义上,你也是对的,算法本质上无法创新,只能在“附近”搜索外推。
但问题在于,人类觉得一段跟十段差别巨大,但是天顶星人的数学家,搞不好
证明十段也就是在一段的“附近”,算法自行外推即可。
【在 n*****t 的大作中提到】 : 关键就是评估,尤其转换之后外势相当于多少目这类问题,一流棋手都很难有定论,阿 : 狗的设计者就更不知道了。 : 所以我刚才说了,一百万个业余狗对杀,始终无法证明这个下法是对的,除非你把所有 : 变化都摆到了中盘,找出围棋最优解。而这是不可能的。
|
M*T 发帖数: 123 | 12
一百万个业余狗对杀,也许不能证明某个下法是“对”的,因为这时候水平差的还早,
但是一百万盘下来就是一百万次输赢。输赢不是“评估”,是铁的结果,这是最终极
的价值判断。只要这一百万盘下来能让狗狗————永远————不再下出某几种
要输的回应,那就是成长了吧。
而下一个一百万盘,就是在这个基础之上了。
【在 n*****t 的大作中提到】 : 关键就是评估,尤其转换之后外势相当于多少目这类问题,一流棋手都很难有定论,阿 : 狗的设计者就更不知道了。 : 所以我刚才说了,一百万个业余狗对杀,始终无法证明这个下法是对的,除非你把所有 : 变化都摆到了中盘,找出围棋最优解。而这是不可能的。
|
n*****t 发帖数: 22014 | 13 电脑能搜索到的附近太小了,甚至都没有统计意义。靠穷举显然无法解决问题,围棋的
终极问题仍然是形势判断。
【在 t******l 的大作中提到】 : 从某种意义上,你也是对的,算法本质上无法创新,只能在“附近”搜索外推。 : 但问题在于,人类觉得一段跟十段差别巨大,但是天顶星人的数学家,搞不好 : 证明十段也就是在一段的“附近”,算法自行外推即可。
|
n*****t 发帖数: 22014 | 14 输赢,只是因为对手没有下出正确招法,100 万在围棋里还是太小了。
【在 M*T 的大作中提到】 : : 一百万个业余狗对杀,也许不能证明某个下法是“对”的,因为这时候水平差的还早, : 但是一百万盘下来就是一百万次输赢。输赢不是“评估”,是铁的结果,这是最终极 : 的价值判断。只要这一百万盘下来能让狗狗————永远————不再下出某几种 : 要输的回应,那就是成长了吧。 : 而下一个一百万盘,就是在这个基础之上了。
|
t******l 发帖数: 10908 | 15 你这个 “附近” 还停留在 K 班数数的层次。计算学上说的 “附近”,是可以在高维
拓扑空间、基于集合、还可以 smooth / massage function,所说的 “附近”。
其实任何一盘围棋,从开始到结束的全部过程,也就是某个高维空间里的一个点。
人类下过的所有的围棋,以及仨小时里想得出来的围棋,在那个高维空间是就是
一小撮的一小撮。而且你 naive 的看这个高维空间里相距很远的两个点,在
某些 topological xform 以后说不定就是邻居。
【在 n*****t 的大作中提到】 : 电脑能搜索到的附近太小了,甚至都没有统计意义。靠穷举显然无法解决问题,围棋的 : 终极问题仍然是形势判断。
|