深度强化学习领域近期有什么新进展？( 五 )

文章插图
上图展示了 I2A 的工作方式。观察一开始就会被传递给无模型组件和基于模型的组件。在基于模型的组件中。会根据在当前状态可能采取的 n 个动作来想象 n 个不同的轨迹。这些轨迹是通过将动作和状态输入其内部环境模型而得到的。从而能够过渡到新的想象状态。然后取其中能得到最大化结果的动作。一个蒸馏后的想象策略（与通过交叉熵损失的最终策略相似）选择下一个动作。经过固定的 k 个步骤之后。这些轨迹会被编码并被聚合到一起。然后会与无模型组件的输出一起输入策略网络。关键的地方在于。这种编码能让策略以最有用的方式解读想象轨迹——如果不合适就忽视它们。在可用时就提取出其中与奖励无关的信息。
I2A 的策略网络是通过一个使用优势的标准策略梯度损失训练的。类似于 A3C 和 MERLIN 。所以这应该看起来很眼熟：

文章插图
此外。在实际策略和内部模型的想象策略之间还添加了一个策略蒸馏损失。以确保想象策略选择的动作接近当前智能体会选择的动作：

文章插图
I2A 的表现优于包含 MCTS（蒙特卡洛树搜索）规划算法在内的很多基准。即使在其基于模型的组件被故意设计得预测结果很差时。它也能在实验中得到出色的表现。这说明它能权衡所要使用的模型——在有必要时也会使用无模型方法。有意思的是。内部模型较差的 I2A 的表现实际上还稍微优于有较好模型的 I2A——研究者将其归因于随机初始化或有噪声的内部模型能提供某种形式的正则化。但很显然这还是一个有待进一步研究的领域。
不管怎样。I2A 都很出色。因为它在某些方面也体现了人类在世界中的运作方式。我们总是在根据对我们所处的环境的某个心智模型来规划和预测未来。但我们也都清楚我们的心智模型并不完全准确——尤其是当我们处在新环境中或遇到我们未曾见过的情形时。在这种情况下。我们会进行试错。就像是无模型方法一样。但我们也会使用新的经历来更新我们内在的心智模型。
目前有很多研究者都在探索如何有效结合基于模型的方法和无模型方法。Berkeley AI 提出了一种时间差分模型：https://bair.berkeley.edu/blog/2018/04/26/tdm/；其也有一个非常有趣的前提。其思想是让智能体设置更多时间上抽象的目标。即「在 k 个时间步骤内处于 X 状态」。然后在保证最大化每 k 个步骤所收集到的奖励的同时学习这些长期的模型过渡。这能为我们提供对动作的无模型探索和在高层目标上的基于模型的规划之间的平滑过渡——如果思考一下这种方法。你会发现这又会将我们带回分层式强化学习。
所有这些研究论文都关注的是同样的目标：实现与无模型方法同样（或更优）的表现。同时达到基于模型的方法那样的样本效率。
总结
深度强化学习模型确实很难训练。这一点毫无疑问。但正是由于这样的难度。我们才被迫提出了那么多的策略、方法和算法。以便能借助深度学习的强大力量来解决经典（或非经典）的控制问题。
这篇文章对深度强化学习的近期研究进行了不全面的介绍——还有大量研究没有提及。甚至还有很多研究我根本就不知道。但是。希望这里介绍的一些记忆、分层和想象方向的研究能够帮助读者了解我们着手解决强化学习领域内一些长期挑战和瓶颈的途径。