深度解读 AlphaGo 算法原理

http://blog.csdn.net/songrotek/article/details/51065143

http://blog.csdn.net/dinosoft/article/details/50893291

https://www.zhihu.com/question/39905662

https://yq.aliyun.com/articles/53737

https://wenku.baidu.com/view/3cbb606f49649b6648d747fb.html

深度解读AlphaGo

这里写图片描述

原版论文是《Mastering the game of Go with deep neural networks and tree search》，有时间的还是建议读一读，没时间的可以看看我这篇笔记凑活一下。网上有一些分析AlphaGo的文章，但最经典的肯定还是原文，还是踏踏实实搞懂AlphaGo的基本原理我们再来吹牛逼吧。

需要的一些背景

对围棋不了解的，其实也不怎么影响，因为只有feature engineering用了点围棋的知识。这里有一篇《九张图告诉你围棋到底怎么下》可以简单看看。

对深度学习不怎么了解的，可以简单当作一个黑盒算法。但机器学习的基础知识还是必备的。没机器学习基础的估计看不太懂。

“深度学习是机器学习的一种，它是一台精密的流水线，整头猪从这边赶进去，香肠从那边出来就可以了。”

蒙特卡罗方法

蒙特卡罗算法：采样越多，越近似最优解；
拉斯维加斯算法：采样越多，越有机会找到最优解；
举个例子，假如筐里有100个苹果，让我每次闭眼拿1个，挑出最大的。于是我随机拿1个，再随机拿1个跟它比，留下大的，再随机拿1个……我每拿一次，留下的苹果都至少不比上次的小。拿的次数越多，挑出的苹果就越大，但我除非拿100次，否则无法肯定挑出了最大的。这个挑苹果的算法，就属于蒙特卡罗算法——尽量找好的，但不保证是最好的。

作者：苏椰
链接：https://www.zhihu.com/question/20254139/answer/33572009

蒙特卡罗树搜索(MCTS)

网上的文章要不拿蒙特卡罗方法忽悠过去；要不笼统提一下，不提细节；要不就以为只是树形的随机搜索，没啥好谈。但MCTS对于理解AlphaGo还是挺关键的。
MCTS这里的采样，是指一次从根节点到游戏结束的路径访问。只要采样次数够多，我们可以近似知道走那条路径比较好。貌似就是普通的蒙特卡罗方法？但对于树型结构，解空间太大，不可能完全随机去采样，有额外一些细节问题要解决：分支节点怎么选（宽度优化）？不选比较有效的分支会浪费大量的无谓搜索。评估节点是否一定要走到底得到游戏最终结果（深度优化）？怎么走？随机走？
基本的MCTS有4个步骤Selection,Expansion,Simulation,Backpropagation（论文里是backup，还以为是备份的意思），论文里state，action，r(reward)，Q 函数都是MCTS的术语。

图片展示了如何更新节点的胜率，选择胜率大的分支进行搜索（7/10->5/6->3/3)，到了3/3叶子节点进行展开选择一个action，然后进行模拟，评估这个action的结果。然后把结果向上回溯到根节点。来自维基百科

具体的细节，可以参考UCT（Upper Confidence Bound for Trees） algorithm – the most popular algorithm in the MCTS family。从维基百科最下方那篇论文截的图。原文有点长，这里点到为止，足够理解AlphaGO即可。N是搜索次数，控制exploitation vs. exploration。免得一直搜那个最好的分支，错过边上其他次优分支上的好机会。
UCT

AlphaGo

pipeline
四大组件。最后只直接用了其中3个，间接用其中1个。

Policy Network (

Supervised learning(SL)学的objective是高手在当前棋面(state)选择的下法(action)。

Fast Rollout Policy (

linear softmax + small pattern features 。对比前面Policy Network，

非线性 -> 线性
局部特征 -> 全棋盘
准确率降到24.2%，但是时间3ms-> 2μs。前面MCTS提到评估的时候需要走到底，速度快的优势就体现出来了。

Reinforcement Learning of Policy Networks (

要点

前面policy networks的结果作为初始值
随机选前面某一轮的policy network来对决，降低过拟合。
校正最终objective是赢棋，而原始的SL Policy Networks预测的是跟expert走法一致的准确率。所以对决结果80%+胜出SL。

跟Pachi对决，胜率从原来当初SL Policy Networks的11%上升到85%，提升还是非常大的。

Reinforcement Learning of Value Networks (

判断一个棋面，黑或白赢的概率各是多少。所以参数只有s。当然，你枚举一下a也能得到p(a|s)。不同就是能知道双方胜率的相对值

using policy
$Δ θ \propto \partial v θ ( s ) \partial θ ( z - v θ ( s ) )$

MSE	training set	test set
before	0.19	0.37
after	0.226	0.234

AlphaGo与其他程序的对比。AlphaGo上面提到的几个组件之间对比。这几个组件单独都可以用来当AI，用MCTS组装起来威力更强。（kyu:级，dan:段）
横向纵向对比

MCTS 组装起来前面的组件

MCTS
结构跟标准的MCTS类似。

每次MCTS simulation选择

a t = arg max a (Q (s t, a) + u (s t, a)) = arg max a

我自己补了个常数C，写到一起容易看点。

V (θ L) = (1 - λ) v θ (s L) + λ z T

value network
fast rollout走到结束的结果

最开始还没expand Q是0，那SL的

搜索次数N一多会扣分，鼓励exploration其他分支。

summary

整体看完，感觉AlphaGo实力还是挺强的。在机器学习系统设计和应用方面有很大的参考意义。各个组件取长补短也挺有意思。

posted @ 2017-05-23 21:46 Alexander 阅读(6359) 评论(0) 收藏举报

刷新页面返回顶部

自助者天助！

深度解读 AlphaGo 算法原理

深度解读AlphaGo

需要的一些背景

蒙特卡罗方法

蒙特卡罗树搜索(MCTS)

AlphaGo

Policy Network (

Fast Rollout Policy (

Reinforcement Learning of Policy Networks (

Reinforcement Learning of Value Networks (

MCTS 组装起来前面的组件

summary

公告

自助者天助！

深度解读 AlphaGo 算法原理

深度解读AlphaGo

需要的一些背景

蒙特卡罗方法

蒙特卡罗树搜索(MCTS)

AlphaGo

Policy Network (Pσ)

Fast Rollout Policy (Pπ)

Reinforcement Learning of Policy Networks (Pρ)

Reinforcement Learning of Value Networks (vθ)

MCTS 组装起来前面的组件

summary

公告

Policy Network (

Fast Rollout Policy (

Reinforcement Learning of Policy Networks (

Reinforcement Learning of Value Networks (