a***m 发帖数: 5037 | 1 也是重要一环
We trained the neural networks on 30 million moves from games played by
human experts, until it could predict the human move 57 percent of the time
(the previous record before AlphaGo was 44 percent).
But our goal is to beat the best human players, not just mimic them. To do
this, AlphaGo learned to discover new strategies for itself, by playing
thousands of games between its neural networks, and adjusting the
connections using a trial-and-error process known as reinforcement learning.
Of course, all of this requires a huge amount of computing power, so we
made extensive use of Google Cloud Platform. |
O**l 发帖数: 12923 | |
a***m 发帖数: 5037 | 3 mct 难道不是Monte-Carlo tree
【在 O**l 的大作中提到】 : mct就是RL
|
O**l 发帖数: 12923 | 4 这就是RL
【在 a***m 的大作中提到】 : mct 难道不是Monte-Carlo tree
|
a***m 发帖数: 5037 | 5 MCT 不是搜索棋的时候用的吗
怎么能等同于学习的概念
【在 O**l 的大作中提到】 : 这就是RL
|
a***m 发帖数: 5037 | 6 Our Nature paper published on 28th January 2016, describes the technical
details behind a new approach to computer Go that combines Monte-Carlo tree
search with deep neural networks that have been trained by supervised
learning, from human expert games, and by reinforcement learning from games
of self-play.
就这句话也表明 MCT 和 RL 两个概念啊
【在 O**l 的大作中提到】 : mct就是RL
|
O**l 发帖数: 12923 | 7 MCT不是monte carlo
reinforcement learning本来就是online learning
【在 a***m 的大作中提到】 : MCT 不是搜索棋的时候用的吗 : 怎么能等同于学习的概念
|
a***m 发帖数: 5037 | 8 MCT 是什么缩写?
【在 O**l 的大作中提到】 : MCT不是monte carlo : reinforcement learning本来就是online learning
|
O**l 发帖数: 12923 | 9 搞笑
reinforcement learning 是个很大范畴
UCB guided monte carlo tree search是其中一种
【在 a***m 的大作中提到】 : MCT 是什么缩写?
|
a***m 发帖数: 5037 | 10 你说 MCT 不是 monte carlo tree
我问你 MCT 是什么的缩写
【在 O**l 的大作中提到】 : 搞笑 : reinforcement learning 是个很大范畴 : UCB guided monte carlo tree search是其中一种
|
|
|
O**l 发帖数: 12923 | 11 名字没啥重要d
MCT = UCB + Monte-carlo simulation + minimax tree
属于RL的一种
【在 a***m 的大作中提到】 : 你说 MCT 不是 monte carlo tree : 我问你 MCT 是什么的缩写
|
z*****3 发帖数: 1793 | 12 放屁,MCTS只是搜索方法,真正的RL技术是policy and value network。而且MCTS搜索
过程中用到RL指导搜索才是真的。说MCT是RL简直是外行。
【在 O**l 的大作中提到】 : mct就是RL
|
z*****3 发帖数: 1793 | 13 reinforcement learning不是online learning。Reinforcement learning 我们内行一
般是作为一个problem,或者framework来对待。一般是用来解决问题的。如何solve
RLproblem,才出现了online 和batch 方法。
【在 a***m 的大作中提到】 : MCT 是什么缩写?
|
O**l 发帖数: 12923 | 14 靠 policy and value network是RL?
你逗死我 DCNN成RL了
【在 z*****3 的大作中提到】 : 放屁,MCTS只是搜索方法,真正的RL技术是policy and value network。而且MCTS搜索 : 过程中用到RL指导搜索才是真的。说MCT是RL简直是外行。
|
z*****3 发帖数: 1793 | 15 谁告诉你属于RL的一种的?再说一遍,RL只是一个problem或者framework。
MCT严格来讲是搜索算法。
我来解释一下,AlgphaGO吧围棋作为一个RL problem来solve。用到了MCT搜索算法。
不要乱解释好不?
【在 O**l 的大作中提到】 : 名字没啥重要d : MCT = UCB + Monte-carlo simulation + minimax tree : 属于RL的一种
|
O**l 发帖数: 12923 | 16 那你说说UCB1是不是RL 你内行个蛋啊
【在 z*****3 的大作中提到】 : 谁告诉你属于RL的一种的?再说一遍,RL只是一个problem或者framework。 : MCT严格来讲是搜索算法。 : 我来解释一下,AlgphaGO吧围棋作为一个RL problem来solve。用到了MCT搜索算法。 : 不要乱解释好不?
|
O**l 发帖数: 12923 | |
a***m 发帖数: 5037 | 18 这篇论文有用 MCT 这个缩写吗?
MCT 本来就通用为Monte Carlo tree的缩写
你自己乱定义缩写,是属胡搅蛮缠
【在 O**l 的大作中提到】 : 这是MCT的原始paper : http://cscourse.essex.ac.uk/cig/2007/papers/2007.pdf : 自己看看是不是RL
|
z*****3 发帖数: 1793 | 19 policy和value的概念就是RL概念。
value function 看着里。
https://webdocs.cs.ualberta.ca/~sutton/book/ebook/node34.html
policy function看着离
https://webdocs.cs.ualberta.ca/~sutton/book/ebook/node28.html
在给你科普一下历史,最早RL的value function和policy function就是用早期的
neural network 实现的,所以RL又叫Neuro-dynamic programming。
科普在这里
http://web.mst.edu/~gosavia/neural_networks_RL.pdf
由于早期neural network 问题很多,大家抛弃了这条路。现在由于deep neural
network的兴起,大家又回到了这条路上。
本人RL方向PhD,你逗我还是我逗你?
【在 O**l 的大作中提到】 : 靠 policy and value network是RL? : 你逗死我 DCNN成RL了
|
t******l 发帖数: 10908 | 20 俺趁乱收进一片 paper。
你两继续互殴,谢谢。(是真的谢谢)。当然对于火药味问题,稍微考虑一下环保也没
大错。
【在 O**l 的大作中提到】 : 这是MCT的原始paper : http://cscourse.essex.ac.uk/cig/2007/papers/2007.pdf : 自己看看是不是RL
|
|
|
t******l 发帖数: 10908 | 21 俺趁乱再收三篇 paper / 介绍,谢谢。(真心谢谢)。
你两继续。
【在 z*****3 的大作中提到】 : policy和value的概念就是RL概念。 : value function 看着里。 : https://webdocs.cs.ualberta.ca/~sutton/book/ebook/node34.html : policy function看着离 : https://webdocs.cs.ualberta.ca/~sutton/book/ebook/node28.html : 在给你科普一下历史,最早RL的value function和policy function就是用早期的 : neural network 实现的,所以RL又叫Neuro-dynamic programming。 : 科普在这里 : http://web.mst.edu/~gosavia/neural_networks_RL.pdf : 由于早期neural network 问题很多,大家抛弃了这条路。现在由于deep neural
|
O**l 发帖数: 12923 | |
z*****3 发帖数: 1793 | 23 RL要用到Monte Carlo方法,不是Monte Carlo tree, 后者是搜索方法。我总算知道你
这外行出问题在哪里。
RL中Monte Carlo方法的讲解。
https://webdocs.cs.ualberta.ca/~sutton/book/ebook/node50.html
【在 O**l 的大作中提到】 : 这是MCT的原始paper : http://cscourse.essex.ac.uk/cig/2007/papers/2007.pdf : 自己看看是不是RL
|
t******l 发帖数: 10908 | |
O**l 发帖数: 12923 | 25 这里的policy 和value都是MCT的概念
在MCT到不了terminal的时候用value
在MCT之前用policy
然后value一路回溯更新policy就是UCB1
看来烂校的cs phd
【在 z*****3 的大作中提到】 : policy和value的概念就是RL概念。 : value function 看着里。 : https://webdocs.cs.ualberta.ca/~sutton/book/ebook/node34.html : policy function看着离 : https://webdocs.cs.ualberta.ca/~sutton/book/ebook/node28.html : 在给你科普一下历史,最早RL的value function和policy function就是用早期的 : neural network 实现的,所以RL又叫Neuro-dynamic programming。 : 科普在这里 : http://web.mst.edu/~gosavia/neural_networks_RL.pdf : 由于早期neural network 问题很多,大家抛弃了这条路。现在由于deep neural
|
z*****3 发帖数: 1793 | 26 你给的这些材料的作者Alan Fern, Dan Klein, Subbarao Kambhampati, Raj Rao,
Lisa Torrey, Dan Weld
我见过2个。权威性不足。
但是我给你材料的作者Richard S. Sutton and Andrew G. Barto是RL泰斗级别人物。
而我给你介绍的书
Reinforcement Learning: An Introduction
https://webdocs.cs.ualberta.ca/~sutton/book/ebook/the-book.html
是RL的标准教材。
【在 O**l 的大作中提到】 : 这里的policy 和value都是MCT的概念 : 在MCT到不了terminal的时候用value : 在MCT之前用policy : 然后value一路回溯更新policy就是UCB1 : 看来烂校的cs phd
|
z*****3 发帖数: 1793 | 27 服了,你估计连value 和policy的定义都不懂就在这里胡扯。我算是见识外行指导内行
的威力了。
【在 O**l 的大作中提到】 : 这里的policy 和value都是MCT的概念 : 在MCT到不了terminal的时候用value : 在MCT之前用policy : 然后value一路回溯更新policy就是UCB1 : 看来烂校的cs phd
|
t******l 发帖数: 10908 | 28 其实我觉得不少传统优化行业里,算法的 magic number 一直是一个问题,
对 Out-From-Box 影响很大。
但问题是根本不可能有百万的测试数据,除非能够有能根据少量 testcase
自动 induction 产生百万 testcase 的狗。好像现阶段还很难。
【在 O**l 的大作中提到】 : 这里的policy 和value都是MCT的概念 : 在MCT到不了terminal的时候用value : 在MCT之前用policy : 然后value一路回溯更新policy就是UCB1 : 看来烂校的cs phd
|
a***m 发帖数: 5037 | 29 他不承认 MCT 是 Monte Carlo tree的缩写
你跟他浪费什么口水
定义都不同
【在 z*****3 的大作中提到】 : 你给的这些材料的作者Alan Fern, Dan Klein, Subbarao Kambhampati, Raj Rao, : Lisa Torrey, Dan Weld : 我见过2个。权威性不足。 : 但是我给你材料的作者Richard S. Sutton and Andrew G. Barto是RL泰斗级别人物。 : 而我给你介绍的书 : Reinforcement Learning: An Introduction : https://webdocs.cs.ualberta.ca/~sutton/book/ebook/the-book.html : 是RL的标准教材。
|
t******l 发帖数: 10908 | 30 俺趁乱再收一篇。
【在 z*****3 的大作中提到】 : RL要用到Monte Carlo方法,不是Monte Carlo tree, 后者是搜索方法。我总算知道你 : 这外行出问题在哪里。 : RL中Monte Carlo方法的讲解。 : https://webdocs.cs.ualberta.ca/~sutton/book/ebook/node50.html
|
|
|
t******l 发帖数: 10908 | 31 这个够重量级,一整本书。。。谢谢了,bookmark 先。
【在 z*****3 的大作中提到】 : 你给的这些材料的作者Alan Fern, Dan Klein, Subbarao Kambhampati, Raj Rao, : Lisa Torrey, Dan Weld : 我见过2个。权威性不足。 : 但是我给你材料的作者Richard S. Sutton and Andrew G. Barto是RL泰斗级别人物。 : 而我给你介绍的书 : Reinforcement Learning: An Introduction : https://webdocs.cs.ualberta.ca/~sutton/book/ebook/the-book.html : 是RL的标准教材。
|
t******l 发帖数: 10908 | 32 也不一定,有些传统优化行业的算法,也是能像 MCT tree 一样凑几百万数据
的,也有事后校验工具。而且知道算法太纯的问题是不能考虑后边的实际情况。
而换到人眼,我觉得是有可能做一些估计的。
当然传统优化行业没人开支票,不会做高风险新玩意儿。不过作为一个纯计算学
问题用业余时间想想,也是有点意思。
【在 t******l 的大作中提到】 : 其实我觉得不少传统优化行业里,算法的 magic number 一直是一个问题, : 对 Out-From-Box 影响很大。 : 但问题是根本不可能有百万的测试数据,除非能够有能根据少量 testcase : 自动 induction 产生百万 testcase 的狗。好像现阶段还很难。
|
O**l 发帖数: 12923 | 33 我靠 太牛逼了 拿个1988年的老掉牙的书来否定MCT???!!!!
MCT 2007年才提出
你不会不知道 Google的整套算法里有两个policy function 两个value fuction
一组是DCNN训练出来的
一组是MCT自带
只有在branching factor太大的时候用DCNN的policy function
只有在MCT不能达到terminal node的时候用DCNN的 value function
最终是以MCT的policy value fuction为准
所以你的逻辑DCNN是RL MCT不是?? lol
MCT这种 每个状态节点都有一个policy fuction根据这个fuction层层递进 在terminal
node根据value function算出reward 在层层回推update policy function 最终
converge
是标准的RL!!!
整个RL玩了这么多年全是toy model唯一像样的成果可能就是MCT 还被你丫否定了lol
训练两张dcnn就是RL 整个CV+RL界都笑死了
【在 z*****3 的大作中提到】 : 服了,你估计连value 和policy的定义都不懂就在这里胡扯。我算是见识外行指导内行 : 的威力了。
|
O**l 发帖数: 12923 | |
t******l 发帖数: 10908 | |
n******7 发帖数: 12463 | |
w*******d 发帖数: 59 | 37 有句话叫“半桶水响叮当”……今天终于见识到了……Sutton和barto的书老掉
牙这种话话也真敢说得出口=_=……那大概图灵的paper是不是也可以扔垃圾箱里了。
MCTS作为算法本身和RL是两个独立概念。当RL里的value和policy function固定不变的
情况下,这个数学模型就退化为统计上的Markov decision process。而MDP最优决策是
一个NP-hard问题,所以利用MCTS算法可以近似的给每步搜索最优解。
当value和policy不知道的情况下,你需要通过MDP里不断的数据反馈去学习这两个函数
,这个过程叫做reinforcement learning。换句话说,我可以不用MCTS去在每步寻找最
优决策,而换另一种搜索方法,但是这个过程依然是reinforcement learning……不知
道这样讲清楚了没有……
Google的最大贡献就是用deep belief nets来model这两个函数+MCTS搜索。这个被
Google称为deep reinforcement learning。换言之,我可以用random forest来model
这两个函数,然后用k-step ahead search搜索,然后把这个叫做 random
reinforcement
learning
_(:3」∠)_ |
O**l 发帖数: 12923 | 38 这种半吊子智商低于30的真是扎堆出现啊
MCT的value和policy固定的?!! 智商不高于30啊
老掉牙的书看多了真是影响智商
看不懂paper 还看不懂科普ppt吗
http://webdocs.cs.ualberta.ca/~games/go/seminar/notes/061109/uc
【在 w*******d 的大作中提到】 : 有句话叫“半桶水响叮当”……今天终于见识到了……Sutton和barto的书老掉 : 牙这种话话也真敢说得出口=_=……那大概图灵的paper是不是也可以扔垃圾箱里了。 : MCTS作为算法本身和RL是两个独立概念。当RL里的value和policy function固定不变的 : 情况下,这个数学模型就退化为统计上的Markov decision process。而MDP最优决策是 : 一个NP-hard问题,所以利用MCTS算法可以近似的给每步搜索最优解。 : 当value和policy不知道的情况下,你需要通过MDP里不断的数据反馈去学习这两个函数 : ,这个过程叫做reinforcement learning。换句话说,我可以不用MCTS去在每步寻找最 : 优决策,而换另一种搜索方法,但是这个过程依然是reinforcement learning……不知 : 道这样讲清楚了没有…… : Google的最大贡献就是用deep belief nets来model这两个函数+MCTS搜索。这个被
|
w*******d 发帖数: 59 | 39 =_=我第三段里都说了RL里policy和value是需要learn的……第二段只是告诉你,这两
个确定的情况下,这个数学模型叫做MDP……
话说有空回复阅读都有障碍的人的我也真是够闲的……
对于连话都听不进去的人我已经不care了……你大概根本没有任何RL或者是decision
science的基础,也几乎没有读过Google的关于deep reinforcement learning和deep
learning方面的文章……也不知道他们去年和今年在NIPS上的最新进展……
我只是希望其他读者不要被误导了。Barto那本书绝对是RL里的经典,有兴趣的童鞋可
以去读一读,可以打下好的基础,避免一上来就出现走火入魔这种情况……
【在 O**l 的大作中提到】 : 这种半吊子智商低于30的真是扎堆出现啊 : MCT的value和policy固定的?!! 智商不高于30啊 : 老掉牙的书看多了真是影响智商 : 看不懂paper 还看不懂科普ppt吗 : http://webdocs.cs.ualberta.ca/~games/go/seminar/notes/061109/uc
|
O**l 发帖数: 12923 | 40 也是醉了
说了多少遍Mct的Policy就是learn
真是死鸭子嘴硬啊
还是那句话看不懂Paper 还看不懂上面的Ppt
智商低于30的玩意 就不要在这扯什么什么基础了
【在 w*******d 的大作中提到】 : =_=我第三段里都说了RL里policy和value是需要learn的……第二段只是告诉你,这两 : 个确定的情况下,这个数学模型叫做MDP…… : 话说有空回复阅读都有障碍的人的我也真是够闲的…… : 对于连话都听不进去的人我已经不care了……你大概根本没有任何RL或者是decision : science的基础,也几乎没有读过Google的关于deep reinforcement learning和deep : learning方面的文章……也不知道他们去年和今年在NIPS上的最新进展…… : 我只是希望其他读者不要被误导了。Barto那本书绝对是RL里的经典,有兴趣的童鞋可 : 以去读一读,可以打下好的基础,避免一上来就出现走火入魔这种情况……
|
|
|
e********9 发帖数: 444 | 41 看到这个题目很高兴
进来看了前面的讨论很痛心
其实就是一些学术上的讨论
何苦这样
个人感受
在MITBBS上
保持一颗平常心很重要
希望大家通过讨论加深对问题的理解
甚至交朋友 |
z****g 发帖数: 2497 | 42 痛心就没必要了,在网络上,一认真你就输了。
换句话说,不要有太高的expectation,一切就都释然了。。
【在 e********9 的大作中提到】 : 看到这个题目很高兴 : 进来看了前面的讨论很痛心 : 其实就是一些学术上的讨论 : 何苦这样 : 个人感受 : 在MITBBS上 : 保持一颗平常心很重要 : 希望大家通过讨论加深对问题的理解 : 甚至交朋友
|
R******I 发帖数: 374 | 43 Ozil就是一个书呆子蠢猪, 喜欢理论扯淡.
Ozil天天在股市被宰,赔了很多钱,他老婆气坏了宁肯和野公狗性交也不给他操, Ozil没
办法天天和他家的母狗性交,已经变态了.
哈哈
【在 w*******d 的大作中提到】 : =_=我第三段里都说了RL里policy和value是需要learn的……第二段只是告诉你,这两 : 个确定的情况下,这个数学模型叫做MDP…… : 话说有空回复阅读都有障碍的人的我也真是够闲的…… : 对于连话都听不进去的人我已经不care了……你大概根本没有任何RL或者是decision : science的基础,也几乎没有读过Google的关于deep reinforcement learning和deep : learning方面的文章……也不知道他们去年和今年在NIPS上的最新进展…… : 我只是希望其他读者不要被误导了。Barto那本书绝对是RL里的经典,有兴趣的童鞋可 : 以去读一读,可以打下好的基础,避免一上来就出现走火入魔这种情况……
|
c*****t 发帖数: 10738 | 44 你们说的都对,AlphaGO里面先用DCNN train了个policy network, 这部分不算RL. 然
后用真正的RL方法enhance了policy network, 这部分就是deep Q-leaning。最后再加
上了MCT做search。 |
r******i 发帖数: 1445 | 45 除了吵架外,这贴干货不少。
各个reference收下了。^_^ |
b*******8 发帖数: 37364 | 46 买买提是个好地方,你能修炼到被谁骂都无所谓了,那就是业3的围棋水平也能吊打出
18K狗棋
【在 e********9 的大作中提到】 : 看到这个题目很高兴 : 进来看了前面的讨论很痛心 : 其实就是一些学术上的讨论 : 何苦这样 : 个人感受 : 在MITBBS上 : 保持一颗平常心很重要 : 希望大家通过讨论加深对问题的理解 : 甚至交朋友
|