28天自制你的AlphaGo（四）：结合强化学习与深度学习的Policy Gradient（左右互搏自我进化的基础）

本文作者：彭博

2017-02-23 13:54

导语：强化学习在 AlphaGo 中究竟是怎么用的？

本篇提前回答一个大家经常问的问题：强化学习在 AlphaGo 中究竟是怎么用的？比如说，SL策略网络，是怎么变成 RL 策略网络的？

| Policy Gradient：简单而有效

很有意思的是，很少见到有人回答上述问题（可能是因为 AlphaGo 论文在此写得很简略）。其实，这个问题的答案特别简单：

如果我赢了棋，就说明这次我选择的策略是正确的。所以可以对于这次所经历的每一个局面，都加强选择这局的走法的概率。
如果我输了棋，就说明这次我选择的策略是错误的。所以可以对于这次所经历的每一个局面，都减少选择这局的走法的概率。

举个例子，比如说电脑左右互搏，黑棋开局走星位，白棋回应走小目，最后白棋输了，那么黑棋就加强开局走星位的概率（以及后续的每一步选择这局的走法的概率），白棋就减少在黑棋开局走星位的情况下走小目的概率（以及后续的每一步选择这局的走法的概率）。

等一下，这里好像有问题。这是不是太傻了？也许白棋并不是败在开局，而是败在中盘的某一步？也许黑棋并不是真的这次走对了策略，而是白棋看漏了一步（而且白棋如果走对是可以赢的）？

以上说的很正确。但是，反过来想，如果黑棋的走法可以让白棋后面打勺的概率增加，那也不错啊。另一方面，如果白棋发现自己目前的策略容易进入自己不容易掌握的局面，那么尽管确实可能有完美的招数隐藏在里面，那白棋也不妨一开始就去避免这种局面吧。而且，胜和负的影响可以相互抵消，所以在经过大量对局后，这个过程是比较稳定的。比如说如果某个开局的后续胜率经统计是50%，那它就不会被改变；但如果不是50%，这种改变就有一定道理。

这个过程，有点像人类棋手的“找到适合自己的棋风”的过程。毫无疑问，现在的 AlphaGo 已经找到了十分适合自己的棋风，它确实是会扬长避短的。

以上是最简单的 Policy Gradient 的例子，它的问题是有可能陷入局部的最优（对付自己有效，不代表对付其他人有效），因此 AlphaGo 论文中会建立一个对手池（包括整个进化过程中形成的所有策略），保证新策略尽量对于不同对手都有效。在这个基础上，可以做各种各样的改进，例如配合未来的价值网络，更清楚地看到自己的败着在哪里，而不是傻傻地把所有概率都同样修改。

| Deepmind 的相关研究

其实 Deepmind 自创始以来就在做类似的研究，在此简单说说。经典的一系列论文是学会玩 Atari 游戏：

Playing Atari with Deep Reinforcement Learning

Human-level control through deep reinforcement learning

例如最经典的 Pong：