扩散模型如何帮助创建更好的强化学习系统

想了解更多AIGC的内容，请访问：

51CTO AI.x社区

https://www.51cto.com/aigc/

扩散模型以其令人印象深刻的生成高质量图像的能力而闻名，它们是流行的文本到图像模型(例如DALL-E、Stable Diffusion和Midjourney)中使用的主要架构。

然而，扩散模型不只是用于生成图像。Meta公司、普林斯顿大学和德克萨斯大学奥斯汀分校的研究人员最近联合发表的一篇研究报告表明，扩散模型可以帮助创建更好的强化学习系统。

该报告引入了一种使用基于扩散的世界模型来训练强化学习代理的技术。扩散世界模型(DWM)通过预测未来多个步骤的环境，增强了当前基于模型的强化学习系统。

无模型的强化学习vs基于模型的强化学习

无模型的强化学习算法直接从与环境的交互中学习策略或价值函数，而无需预测未来环境。与其相反，基于模型的强化学习算法通过世界模型来模拟它们的环境。这些模型使他们能够预测他们的行为将如何影响他们的环境，并相应地调整政策。

基于模型的强化学习的一个关键优势是它需要更少的来自真实环境的数据样本。这对于自动驾驶汽车和机器人等应用尤其有用。在这些应用中，从现实世界收集数据可能成本高昂或者存在风险。

然而，基于模型的强化学习高度依赖于世界模型的准确性。在实践中，世界模型中的不准确性导致基于模型的强化学习系统比无模型的强化学习表现得更差。

传统的世界模型使用单步动态(one-step dynamics)模式，这意味着它们只能根据当前状态和动作预测奖励和下一个状态。当规划未来的多个步骤时，强化学习系统使用自己的输出递归地调用模型。这种方法带来的问题是，小误差可能在多个步骤中叠加，使长期预测变得不可靠和不准确。

扩散世界模型(DWM)的前提是学会一次预测未来的多个步骤。如果做得正确，这种方法可以减少长期预测中的错误，并提高基于模型的强化学习算法的性能。

扩散世界模型的工作原理

扩散世界模型的工作原理很简单：它们通过反转一个逐渐向数据添加噪声的过程来学习生成数据。例如，当训练生成图像时，扩散世界模型会逐渐向图像添加噪声层，然后尝试反转过程并预测原始图像。通过重复这个过程并添加更多的噪声层，它学会了从纯噪声中生成高质量的图像。条件扩散模型通过将模型的输出条件转化为特定输入(例如图像附带的字幕)来添加一层控制。这使开发人员能够为这些模型提供文本描述并接收相应的图像。

但是，虽然扩散模型以其生成高质量图像的能力而闻名，但它们也可以应用于其他数据类型。

扩散世界模型(DWM)使用相同的原理来预测强化学习系统的长期结果。扩散世界模型(DWM)以当前状态、操作和预期回报为条件，而不是文本描述。它的输出是多个步骤的状态和对未来的奖励。

扩散世界模型(DWM)框架有两个训练阶段。在第一阶段，扩散模型在从环境中收集的一系列轨迹上进行训练。它从一个强大的世界模型中学习，可以一次预测多个步骤，使其在长期模拟中比其他基于模型的方法更稳定。

在第二阶段，使用Actor-Critic 算法和扩散世界模型训练离线强化学习策略。使用离线强化学习消除了训练过程中在线交互的需求，从而提高了速度，降低了成本和风险。

对于每个步骤，代理使用扩散世界模型(DWM)来生成未来的轨迹，并模拟其动作的回报。研究人员称之为“扩散模型价值扩展”(Diffusion MVE)。虽然强化学习系统在训练期间使用扩散世界模型(DWM)，但生成的策略是无模型的，这具有更快推理的好处。

研究人员写道：“扩散模型价值扩展(Diffusion MVE)可以解释为通过生成建模对离线强化学习进行的值正则化，或者可以解释为使用合成数据进行离线Q学习的一种方法。”

在更高的层面，扩散世界模型(DWM)背后的主要思想是预测未来世界的多个状态。因此，可以用另一个序列模型替换扩散模型。研究人员也对Transformer模型进行了实验，但发现扩散世界模型(DWM)更有效。

运行扩散世界模型(DWM)

为了测试扩散世界模型(DWM)的有效性，研究人员将其与基于模型的强化学习系统和无模型的强化学习系统进行了比较。他们从D4RL数据集中试验了三种不同的算法和九种运动任务。

结果表明，扩散世界模型(DWM)比单步世界模型显著提高了44%的性能。当单步世界模型应用于无模型强化学习算法时，它通常会降低性能。然而，研究人员发现，当与扩散世界模型(DWM)结合使用时，无模型强化系统的表现优于原始版本。

研究人员写道：“这要归功于扩散模型的强大表现力和对整个序列的一次性预测，这规避了传统的单步动态模型在多个步骤推出时的复合误差问题。我们的方法实现了最先进的(SOTA)性能，消除了基于模型算法和无模型算法之间的差距。”

扩散世界模型(DWM)是在非生成任务中使用生成模型的更广泛趋势的一部分。在过去的一年，由于生成式人工智能模型的进步，机器人研究取得了飞跃式的进展。大型语言模型正在帮助弥合自然语言命令和机器人运动命令之间的差距。Transformers还帮助研究人员将从不同形态和设置中收集的数据整合在一起，并训练可以推广到不同机器人和任务的模型。

原文标题：Diffusion models are now turbocharging reinforcement learning systems，作者：Ben Dickson。

链接：https://bdtechtalks.com/2024/03/04/diffusion-world-model/。

想了解更多AIGC的内容，请访问：

51CTO AI.x社区

https://www.51cto.com/aigc/