由买买提看人间百态

boards

本页内容为未名空间相应帖子的节选和存档,一周内的贴子最多显示50字,超过一周显示500字 访问原贴
Go版 - 看大家讨论中比较少提这个 reinforcement learning
相关主题
神经网络的结构决定了他的极限AlphaGo通俗的解释
原来阿尔法下的是5秒版的ZEN阿法狗第二局最令人震惊的地方在于
阿法狗怎样算气的?monte carlo tree search很神奇
田渊栋【facebook 围棋程序负责人】:我怎么看 AlphaGo?金明完9段点评AlphaGo: 缺点明显
AlphaGo的算法等技术分析阿法狗生怕人类还不够绝望
zt【FACEBOOK 围棋软件专家 田渊栋博士对 第四盘 分析】从第四盘棋看狗狗的弱点
我现在敢80%肯定alpha go 搞不定小李的模仿棋写过程序的都知道
现在回头再看第4局我靠 小李凭这盘棋再入史册
相关话题的讨论汇总
话题: rl话题: mct话题: learning话题: policy
进入Go版参与讨论
1 (共1页)
a***m
发帖数: 5037
1
也是重要一环
We trained the neural networks on 30 million moves from games played by
human experts, until it could predict the human move 57 percent of the time
(the previous record before AlphaGo was 44 percent).
But our goal is to beat the best human players, not just mimic them. To do
this, AlphaGo learned to discover new strategies for itself, by playing
thousands of games between its neural networks, and adjusting the
connections using a trial-and-error process known as reinforcement learning.
Of course, all of this requires a huge amount of computing power, so we
made extensive use of Google Cloud Platform.
O**l
发帖数: 12923
2
mct就是RL
a***m
发帖数: 5037
3
mct 难道不是Monte-Carlo tree

【在 O**l 的大作中提到】
: mct就是RL
O**l
发帖数: 12923
4
这就是RL

【在 a***m 的大作中提到】
: mct 难道不是Monte-Carlo tree
a***m
发帖数: 5037
5
MCT 不是搜索棋的时候用的吗
怎么能等同于学习的概念

【在 O**l 的大作中提到】
: 这就是RL
a***m
发帖数: 5037
6
Our Nature paper published on 28th January 2016, describes the technical
details behind a new approach to computer Go that combines Monte-Carlo tree
search with deep neural networks that have been trained by supervised
learning, from human expert games, and by reinforcement learning from games
of self-play.
就这句话也表明 MCT 和 RL 两个概念啊

【在 O**l 的大作中提到】
: mct就是RL
O**l
发帖数: 12923
7
MCT不是monte carlo
reinforcement learning本来就是online learning

【在 a***m 的大作中提到】
: MCT 不是搜索棋的时候用的吗
: 怎么能等同于学习的概念

a***m
发帖数: 5037
8
MCT 是什么缩写?

【在 O**l 的大作中提到】
: MCT不是monte carlo
: reinforcement learning本来就是online learning

O**l
发帖数: 12923
9
搞笑
reinforcement learning 是个很大范畴
UCB guided monte carlo tree search是其中一种

【在 a***m 的大作中提到】
: MCT 是什么缩写?
a***m
发帖数: 5037
10
你说 MCT 不是 monte carlo tree
我问你 MCT 是什么的缩写

【在 O**l 的大作中提到】
: 搞笑
: reinforcement learning 是个很大范畴
: UCB guided monte carlo tree search是其中一种

相关主题
zt【FACEBOOK 围棋软件专家 田渊栋博士对 第四盘 分析】AlphaGo通俗的解释
我现在敢80%肯定alpha go 搞不定小李的模仿棋阿法狗第二局最令人震惊的地方在于
现在回头再看第4局monte carlo tree search很神奇
进入Go版参与讨论
O**l
发帖数: 12923
11
名字没啥重要d
MCT = UCB + Monte-carlo simulation + minimax tree
属于RL的一种

【在 a***m 的大作中提到】
: 你说 MCT 不是 monte carlo tree
: 我问你 MCT 是什么的缩写

z*****3
发帖数: 1793
12
放屁,MCTS只是搜索方法,真正的RL技术是policy and value network。而且MCTS搜索
过程中用到RL指导搜索才是真的。说MCT是RL简直是外行。

【在 O**l 的大作中提到】
: mct就是RL
z*****3
发帖数: 1793
13
reinforcement learning不是online learning。Reinforcement learning 我们内行一
般是作为一个problem,或者framework来对待。一般是用来解决问题的。如何solve
RLproblem,才出现了online 和batch 方法。

【在 a***m 的大作中提到】
: MCT 是什么缩写?
O**l
发帖数: 12923
14
靠 policy and value network是RL?
你逗死我 DCNN成RL了

【在 z*****3 的大作中提到】
: 放屁,MCTS只是搜索方法,真正的RL技术是policy and value network。而且MCTS搜索
: 过程中用到RL指导搜索才是真的。说MCT是RL简直是外行。

z*****3
发帖数: 1793
15
谁告诉你属于RL的一种的?再说一遍,RL只是一个problem或者framework。
MCT严格来讲是搜索算法。
我来解释一下,AlgphaGO吧围棋作为一个RL problem来solve。用到了MCT搜索算法。
不要乱解释好不?

【在 O**l 的大作中提到】
: 名字没啥重要d
: MCT = UCB + Monte-carlo simulation + minimax tree
: 属于RL的一种

O**l
发帖数: 12923
16
那你说说UCB1是不是RL 你内行个蛋啊

【在 z*****3 的大作中提到】
: 谁告诉你属于RL的一种的?再说一遍,RL只是一个problem或者framework。
: MCT严格来讲是搜索算法。
: 我来解释一下,AlgphaGO吧围棋作为一个RL problem来solve。用到了MCT搜索算法。
: 不要乱解释好不?

O**l
发帖数: 12923
17
这是MCT的原始paper
http://cscourse.essex.ac.uk/cig/2007/papers/2007.pdf
自己看看是不是RL
a***m
发帖数: 5037
18
这篇论文有用 MCT 这个缩写吗?
MCT 本来就通用为Monte Carlo tree的缩写
你自己乱定义缩写,是属胡搅蛮缠

【在 O**l 的大作中提到】
: 这是MCT的原始paper
: http://cscourse.essex.ac.uk/cig/2007/papers/2007.pdf
: 自己看看是不是RL

z*****3
发帖数: 1793
19
policy和value的概念就是RL概念。
value function 看着里。
https://webdocs.cs.ualberta.ca/~sutton/book/ebook/node34.html
policy function看着离
https://webdocs.cs.ualberta.ca/~sutton/book/ebook/node28.html
在给你科普一下历史,最早RL的value function和policy function就是用早期的
neural network 实现的,所以RL又叫Neuro-dynamic programming。
科普在这里
http://web.mst.edu/~gosavia/neural_networks_RL.pdf
由于早期neural network 问题很多,大家抛弃了这条路。现在由于deep neural
network的兴起,大家又回到了这条路上。
本人RL方向PhD,你逗我还是我逗你?

【在 O**l 的大作中提到】
: 靠 policy and value network是RL?
: 你逗死我 DCNN成RL了

t******l
发帖数: 10908
20
俺趁乱收进一片 paper。
你两继续互殴,谢谢。(是真的谢谢)。当然对于火药味问题,稍微考虑一下环保也没
大错。

【在 O**l 的大作中提到】
: 这是MCT的原始paper
: http://cscourse.essex.ac.uk/cig/2007/papers/2007.pdf
: 自己看看是不是RL

相关主题
金明完9段点评AlphaGo: 缺点明显写过程序的都知道
阿法狗生怕人类还不够绝望我靠 小李凭这盘棋再入史册
从第四盘棋看狗狗的弱点阿发狗证明了天才和疯子就一尺之遥
进入Go版参与讨论
t******l
发帖数: 10908
21
俺趁乱再收三篇 paper / 介绍,谢谢。(真心谢谢)。
你两继续。

【在 z*****3 的大作中提到】
: policy和value的概念就是RL概念。
: value function 看着里。
: https://webdocs.cs.ualberta.ca/~sutton/book/ebook/node34.html
: policy function看着离
: https://webdocs.cs.ualberta.ca/~sutton/book/ebook/node28.html
: 在给你科普一下历史,最早RL的value function和policy function就是用早期的
: neural network 实现的,所以RL又叫Neuro-dynamic programming。
: 科普在这里
: http://web.mst.edu/~gosavia/neural_networks_RL.pdf
: 由于早期neural network 问题很多,大家抛弃了这条路。现在由于deep neural

O**l
发帖数: 12923
22
如果看不懂paper的“内行”
看个科普的
https://courses.cs.washington.edu/courses/csep573/12au/lectures
z*****3
发帖数: 1793
23
RL要用到Monte Carlo方法,不是Monte Carlo tree, 后者是搜索方法。我总算知道你
这外行出问题在哪里。
RL中Monte Carlo方法的讲解。
https://webdocs.cs.ualberta.ca/~sutton/book/ebook/node50.html

【在 O**l 的大作中提到】
: 这是MCT的原始paper
: http://cscourse.essex.ac.uk/cig/2007/papers/2007.pdf
: 自己看看是不是RL

t******l
发帖数: 10908
24
这篇很通俗易懂很有趣,再次谢谢。

【在 O**l 的大作中提到】
: 如果看不懂paper的“内行”
: 看个科普的
: https://courses.cs.washington.edu/courses/csep573/12au/lectures

O**l
发帖数: 12923
25
这里的policy 和value都是MCT的概念
在MCT到不了terminal的时候用value
在MCT之前用policy
然后value一路回溯更新policy就是UCB1
看来烂校的cs phd

【在 z*****3 的大作中提到】
: policy和value的概念就是RL概念。
: value function 看着里。
: https://webdocs.cs.ualberta.ca/~sutton/book/ebook/node34.html
: policy function看着离
: https://webdocs.cs.ualberta.ca/~sutton/book/ebook/node28.html
: 在给你科普一下历史,最早RL的value function和policy function就是用早期的
: neural network 实现的,所以RL又叫Neuro-dynamic programming。
: 科普在这里
: http://web.mst.edu/~gosavia/neural_networks_RL.pdf
: 由于早期neural network 问题很多,大家抛弃了这条路。现在由于deep neural

z*****3
发帖数: 1793
26
你给的这些材料的作者Alan Fern, Dan Klein, Subbarao Kambhampati, Raj Rao,
Lisa Torrey, Dan Weld
我见过2个。权威性不足。
但是我给你材料的作者Richard S. Sutton and Andrew G. Barto是RL泰斗级别人物。
而我给你介绍的书
Reinforcement Learning: An Introduction
https://webdocs.cs.ualberta.ca/~sutton/book/ebook/the-book.html
是RL的标准教材。

【在 O**l 的大作中提到】
: 这里的policy 和value都是MCT的概念
: 在MCT到不了terminal的时候用value
: 在MCT之前用policy
: 然后value一路回溯更新policy就是UCB1
: 看来烂校的cs phd

z*****3
发帖数: 1793
27
服了,你估计连value 和policy的定义都不懂就在这里胡扯。我算是见识外行指导内行
的威力了。

【在 O**l 的大作中提到】
: 这里的policy 和value都是MCT的概念
: 在MCT到不了terminal的时候用value
: 在MCT之前用policy
: 然后value一路回溯更新policy就是UCB1
: 看来烂校的cs phd

t******l
发帖数: 10908
28
其实我觉得不少传统优化行业里,算法的 magic number 一直是一个问题,
对 Out-From-Box 影响很大。
但问题是根本不可能有百万的测试数据,除非能够有能根据少量 testcase
自动 induction 产生百万 testcase 的狗。好像现阶段还很难。

【在 O**l 的大作中提到】
: 这里的policy 和value都是MCT的概念
: 在MCT到不了terminal的时候用value
: 在MCT之前用policy
: 然后value一路回溯更新policy就是UCB1
: 看来烂校的cs phd

a***m
发帖数: 5037
29
他不承认 MCT 是 Monte Carlo tree的缩写
你跟他浪费什么口水
定义都不同

【在 z*****3 的大作中提到】
: 你给的这些材料的作者Alan Fern, Dan Klein, Subbarao Kambhampati, Raj Rao,
: Lisa Torrey, Dan Weld
: 我见过2个。权威性不足。
: 但是我给你材料的作者Richard S. Sutton and Andrew G. Barto是RL泰斗级别人物。
: 而我给你介绍的书
: Reinforcement Learning: An Introduction
: https://webdocs.cs.ualberta.ca/~sutton/book/ebook/the-book.html
: 是RL的标准教材。

t******l
发帖数: 10908
30
俺趁乱再收一篇。

【在 z*****3 的大作中提到】
: RL要用到Monte Carlo方法,不是Monte Carlo tree, 后者是搜索方法。我总算知道你
: 这外行出问题在哪里。
: RL中Monte Carlo方法的讲解。
: https://webdocs.cs.ualberta.ca/~sutton/book/ebook/node50.html

相关主题
阿法狗第四局最终并不是输在对妙手的漏算上原来阿尔法下的是5秒版的ZEN
模仿棋是MCTS的梦魇阿法狗怎样算气的?
神经网络的结构决定了他的极限田渊栋【facebook 围棋程序负责人】:我怎么看 AlphaGo?
进入Go版参与讨论
t******l
发帖数: 10908
31
这个够重量级,一整本书。。。谢谢了,bookmark 先。

【在 z*****3 的大作中提到】
: 你给的这些材料的作者Alan Fern, Dan Klein, Subbarao Kambhampati, Raj Rao,
: Lisa Torrey, Dan Weld
: 我见过2个。权威性不足。
: 但是我给你材料的作者Richard S. Sutton and Andrew G. Barto是RL泰斗级别人物。
: 而我给你介绍的书
: Reinforcement Learning: An Introduction
: https://webdocs.cs.ualberta.ca/~sutton/book/ebook/the-book.html
: 是RL的标准教材。

t******l
发帖数: 10908
32
也不一定,有些传统优化行业的算法,也是能像 MCT tree 一样凑几百万数据
的,也有事后校验工具。而且知道算法太纯的问题是不能考虑后边的实际情况。
而换到人眼,我觉得是有可能做一些估计的。
当然传统优化行业没人开支票,不会做高风险新玩意儿。不过作为一个纯计算学
问题用业余时间想想,也是有点意思。

【在 t******l 的大作中提到】
: 其实我觉得不少传统优化行业里,算法的 magic number 一直是一个问题,
: 对 Out-From-Box 影响很大。
: 但问题是根本不可能有百万的测试数据,除非能够有能根据少量 testcase
: 自动 induction 产生百万 testcase 的狗。好像现阶段还很难。

O**l
发帖数: 12923
33
我靠 太牛逼了 拿个1988年的老掉牙的书来否定MCT???!!!!
MCT 2007年才提出
你不会不知道 Google的整套算法里有两个policy function 两个value fuction
一组是DCNN训练出来的
一组是MCT自带
只有在branching factor太大的时候用DCNN的policy function
只有在MCT不能达到terminal node的时候用DCNN的 value function
最终是以MCT的policy value fuction为准
所以你的逻辑DCNN是RL MCT不是?? lol
MCT这种 每个状态节点都有一个policy fuction根据这个fuction层层递进 在terminal
node根据value function算出reward 在层层回推update policy function 最终
converge
是标准的RL!!!
整个RL玩了这么多年全是toy model唯一像样的成果可能就是MCT 还被你丫否定了lol
训练两张dcnn就是RL 整个CV+RL界都笑死了

【在 z*****3 的大作中提到】
: 服了,你估计连value 和policy的定义都不懂就在这里胡扯。我算是见识外行指导内行
: 的威力了。

O**l
发帖数: 12923
34
这有个更简明的科普
http://webdocs.cs.ualberta.ca/~games/go/seminar/notes/061109/uc
某些半吊子的“内行”真是搞笑
t******l
发帖数: 10908
35
谢谢科普信息。

【在 O**l 的大作中提到】
: 这有个更简明的科普
: http://webdocs.cs.ualberta.ca/~games/go/seminar/notes/061109/uc
: 某些半吊子的“内行”真是搞笑

n******7
发帖数: 12463
36
mark一下
你们继续
w*******d
发帖数: 59
37
有句话叫“半桶水响叮当”……今天终于见识到了……Sutton和barto的书老掉
牙这种话话也真敢说得出口=_=……那大概图灵的paper是不是也可以扔垃圾箱里了。
MCTS作为算法本身和RL是两个独立概念。当RL里的value和policy function固定不变的
情况下,这个数学模型就退化为统计上的Markov decision process。而MDP最优决策是
一个NP-hard问题,所以利用MCTS算法可以近似的给每步搜索最优解。
当value和policy不知道的情况下,你需要通过MDP里不断的数据反馈去学习这两个函数
,这个过程叫做reinforcement learning。换句话说,我可以不用MCTS去在每步寻找最
优决策,而换另一种搜索方法,但是这个过程依然是reinforcement learning……不知
道这样讲清楚了没有……
Google的最大贡献就是用deep belief nets来model这两个函数+MCTS搜索。这个被
Google称为deep reinforcement learning。换言之,我可以用random forest来model
这两个函数,然后用k-step ahead search搜索,然后把这个叫做 random
reinforcement
learning
_(:3」∠)_
O**l
发帖数: 12923
38
这种半吊子智商低于30的真是扎堆出现啊
MCT的value和policy固定的?!! 智商不高于30啊
老掉牙的书看多了真是影响智商
看不懂paper 还看不懂科普ppt吗
http://webdocs.cs.ualberta.ca/~games/go/seminar/notes/061109/uc

【在 w*******d 的大作中提到】
: 有句话叫“半桶水响叮当”……今天终于见识到了……Sutton和barto的书老掉
: 牙这种话话也真敢说得出口=_=……那大概图灵的paper是不是也可以扔垃圾箱里了。
: MCTS作为算法本身和RL是两个独立概念。当RL里的value和policy function固定不变的
: 情况下,这个数学模型就退化为统计上的Markov decision process。而MDP最优决策是
: 一个NP-hard问题,所以利用MCTS算法可以近似的给每步搜索最优解。
: 当value和policy不知道的情况下,你需要通过MDP里不断的数据反馈去学习这两个函数
: ,这个过程叫做reinforcement learning。换句话说,我可以不用MCTS去在每步寻找最
: 优决策,而换另一种搜索方法,但是这个过程依然是reinforcement learning……不知
: 道这样讲清楚了没有……
: Google的最大贡献就是用deep belief nets来model这两个函数+MCTS搜索。这个被

w*******d
发帖数: 59
39
=_=我第三段里都说了RL里policy和value是需要learn的……第二段只是告诉你,这两
个确定的情况下,这个数学模型叫做MDP……
话说有空回复阅读都有障碍的人的我也真是够闲的……
对于连话都听不进去的人我已经不care了……你大概根本没有任何RL或者是decision
science的基础,也几乎没有读过Google的关于deep reinforcement learning和deep
learning方面的文章……也不知道他们去年和今年在NIPS上的最新进展……
我只是希望其他读者不要被误导了。Barto那本书绝对是RL里的经典,有兴趣的童鞋可
以去读一读,可以打下好的基础,避免一上来就出现走火入魔这种情况……

【在 O**l 的大作中提到】
: 这种半吊子智商低于30的真是扎堆出现啊
: MCT的value和policy固定的?!! 智商不高于30啊
: 老掉牙的书看多了真是影响智商
: 看不懂paper 还看不懂科普ppt吗
: http://webdocs.cs.ualberta.ca/~games/go/seminar/notes/061109/uc

O**l
发帖数: 12923
40
也是醉了
说了多少遍Mct的Policy就是learn
真是死鸭子嘴硬啊
还是那句话看不懂Paper 还看不懂上面的Ppt
智商低于30的玩意 就不要在这扯什么什么基础了

【在 w*******d 的大作中提到】
: =_=我第三段里都说了RL里policy和value是需要learn的……第二段只是告诉你,这两
: 个确定的情况下,这个数学模型叫做MDP……
: 话说有空回复阅读都有障碍的人的我也真是够闲的……
: 对于连话都听不进去的人我已经不care了……你大概根本没有任何RL或者是decision
: science的基础,也几乎没有读过Google的关于deep reinforcement learning和deep
: learning方面的文章……也不知道他们去年和今年在NIPS上的最新进展……
: 我只是希望其他读者不要被误导了。Barto那本书绝对是RL里的经典,有兴趣的童鞋可
: 以去读一读,可以打下好的基础,避免一上来就出现走火入魔这种情况……

相关主题
田渊栋【facebook 围棋程序负责人】:我怎么看 AlphaGo?我现在敢80%肯定alpha go 搞不定小李的模仿棋
AlphaGo的算法等技术分析现在回头再看第4局
zt【FACEBOOK 围棋软件专家 田渊栋博士对 第四盘 分析】AlphaGo通俗的解释
进入Go版参与讨论
e********9
发帖数: 444
41
看到这个题目很高兴
进来看了前面的讨论很痛心
其实就是一些学术上的讨论
何苦这样
个人感受
在MITBBS上
保持一颗平常心很重要
希望大家通过讨论加深对问题的理解
甚至交朋友
z****g
发帖数: 2497
42
痛心就没必要了,在网络上,一认真你就输了。
换句话说,不要有太高的expectation,一切就都释然了。。

【在 e********9 的大作中提到】
: 看到这个题目很高兴
: 进来看了前面的讨论很痛心
: 其实就是一些学术上的讨论
: 何苦这样
: 个人感受
: 在MITBBS上
: 保持一颗平常心很重要
: 希望大家通过讨论加深对问题的理解
: 甚至交朋友

R******I
发帖数: 374
43
Ozil就是一个书呆子蠢猪, 喜欢理论扯淡.
Ozil天天在股市被宰,赔了很多钱,他老婆气坏了宁肯和野公狗性交也不给他操, Ozil没
办法天天和他家的母狗性交,已经变态了.
哈哈

【在 w*******d 的大作中提到】
: =_=我第三段里都说了RL里policy和value是需要learn的……第二段只是告诉你,这两
: 个确定的情况下,这个数学模型叫做MDP……
: 话说有空回复阅读都有障碍的人的我也真是够闲的……
: 对于连话都听不进去的人我已经不care了……你大概根本没有任何RL或者是decision
: science的基础,也几乎没有读过Google的关于deep reinforcement learning和deep
: learning方面的文章……也不知道他们去年和今年在NIPS上的最新进展……
: 我只是希望其他读者不要被误导了。Barto那本书绝对是RL里的经典,有兴趣的童鞋可
: 以去读一读,可以打下好的基础,避免一上来就出现走火入魔这种情况……

c*****t
发帖数: 10738
44
你们说的都对,AlphaGO里面先用DCNN train了个policy network, 这部分不算RL. 然
后用真正的RL方法enhance了policy network, 这部分就是deep Q-leaning。最后再加
上了MCT做search。
r******i
发帖数: 1445
45
除了吵架外,这贴干货不少。
各个reference收下了。^_^
b*******8
发帖数: 37364
46
买买提是个好地方,你能修炼到被谁骂都无所谓了,那就是业3的围棋水平也能吊打出
18K狗棋

【在 e********9 的大作中提到】
: 看到这个题目很高兴
: 进来看了前面的讨论很痛心
: 其实就是一些学术上的讨论
: 何苦这样
: 个人感受
: 在MITBBS上
: 保持一颗平常心很重要
: 希望大家通过讨论加深对问题的理解
: 甚至交朋友

1 (共1页)
进入Go版参与讨论
相关主题
我靠 小李凭这盘棋再入史册AlphaGo的算法等技术分析
阿发狗证明了天才和疯子就一尺之遥zt【FACEBOOK 围棋软件专家 田渊栋博士对 第四盘 分析】
阿法狗第四局最终并不是输在对妙手的漏算上我现在敢80%肯定alpha go 搞不定小李的模仿棋
模仿棋是MCTS的梦魇现在回头再看第4局
神经网络的结构决定了他的极限AlphaGo通俗的解释
原来阿尔法下的是5秒版的ZEN阿法狗第二局最令人震惊的地方在于
阿法狗怎样算气的?monte carlo tree search很神奇
田渊栋【facebook 围棋程序负责人】:我怎么看 AlphaGo?金明完9段点评AlphaGo: 缺点明显
相关话题的讨论汇总
话题: rl话题: mct话题: learning话题: policy