【论文阅读】Steering Your Diffusion Policy with Latent Space Reinforcement Learning

【论文阅读】Steering Your Diffusion Policy with Latent Space Reinforcement Learning

  • 1 团队与发表时间
  • 2. 问题背景与核心思路
  • 3. 具体做法
    • 3.1 模型设计
    • 3.2 Loss 设计
    • 3.3 数据设计
  • 4 实验效果
  • 5 结论
  • 6 扩散模型进行RL的方案
    • 6.1 纯离线设置 (Purely Offline Setting)
    • 6.2 在线设置 (Online Setting)
    • 6.3 残差策略 (Residual Policy)

1 团队与发表时间

  • 团队:主要由 加州大学伯克利分校(UC Berkeley) 的研究人员组成,包括 Mitsuhiko Nakamoto, Andrew Wagenmaker, Sergey Levine 等,此外还有来自华盛顿大学和亚马逊(Amazon)的合作者。
  • 发表时间:该论文的 arXiv 版本更新于 2025 年 6 月 25 日。

2. 问题背景与核心思路

  • 问题背景:虽然基于行为克隆(BC)的扩散策略(Diffusion Policy)在机器人领域表现出色,但当预训练模型性能不足时,通常需要昂贵的人工演示来改进。传统的强化学习(RL)虽然能自主改进,但在高维动作空间中样本效率极低,且容易破坏扩散模型学到的先验分布,甚至造成训练不稳定

    • 多步去噪导致的梯度爆炸/消失:扩散模型生成动作不是“一步到位”的,而是经过几十步(如 50 步)去噪。如果你想通过动作a aa的奖励来反向传播更新模型权重,梯度必须链式传导 50 层网络。这就像训练一个极深的循环神经网络(RNN),梯度在传导过程中极易失控,导致训练瞬间崩盘。
  • 核心思路:提出 DSRL。其核心想法是不在原始动作空间运行 RL,而是在扩散模型的“潜噪声空间(Latent-noise Space)”运行 RL。通过调整每一步去噪时加入的噪声(即“转向”),在保留原始行为分布的同时,引导策略向高奖励区域偏移。

3. 具体做法

3.1 模型设计

  • 潜空间引导(Latent Steering):将预训练好的扩散策略视为一个“黑盒”。扩散策略通过多步去噪(从高斯噪声ϵ \epsilonϵ迭代到动作a aa)生成动作。

    • 做法:

      • 原本的扩散模型(比如π 0 \pi_0π0或其他 Diffusion Policy)被当作一个固定的“基座”。
      • 训练对象:DSRL 额外训练的是一个轻量级的 Actor 网络(通常是一个简单的多层感知机 MLP)。这个 Actor 的任务是根据当前状态s ss,预测一个噪声位移(Noise Shift)Δ ϵ \Delta \epsilonΔϵ
      • 运行逻辑:在去噪过程中,原本输入给模型的纯高斯噪声ϵ \epsilonϵ会被替换为ϵ + Δ ϵ \epsilon + \Delta \epsilonϵ+Δϵ。扩散模型依然按照原来的权重运行,但因为输入的“种子”变了,最终生成的动作就会向高奖励区域偏移。
    • 架构:使用了基于 Soft Actor-Critic (SAC) 框架的结构,包含 Actor 网络(预测噪声位移)和 Critic 网络(评估状态-噪声对的价值)。

    • 优势:

      • 防止先验崩溃(Maintaining Priors):扩散模型里蕴含了大量从人类演示中学到的平滑动作先验。如果直接用 RL 微调权重,非常容易出现“灾难性遗忘”,导致机器人动作变得抖动、不自然。冻结权重能确保机器人永远在“人类可能的动作分布”附近进行微调。
      • 极高的样本效率:更新一个 8B 模型的参数需要海量数据和算力。而 DSRL 只训练一个极小的 Actor 网络(用来预测噪声偏移),这使得它在 20-40 次真机尝试内就能收敛,这在全参数微调中几乎是不可能的。
      • 先天的保守优势:无论你给这个扩散模型输入什么样的初始噪声w ww(哪怕是奇形怪状的w ww),这个被冻结的“黑盒”模型最终吐出来的动作a aa几乎总是符合人类演示风格的、在分布内(In-distribution)的动作。因此噪声w ww的探索是无穷的,而策略并不会出分布。

3.2 Loss 设计

  • Actor Loss:基于 SAC 的目标函数,包含最大化预期奖励和熵正则项。通过最小化Q ( s , Δ ϵ ) Q(s, \Delta \epsilon)Q(s,Δϵ)的负值来优化,同时约束Δ ϵ \Delta \epsilonΔϵ的大小,以防偏离原始分布太远。
  • Critic Loss:使用标准的时间差分(TD)误差来训练Q QQ函数(Critic),评估在当前状态下采用特定噪声转向后的长期价值。
  • 软约束:通过 KL 散度或熵正则化,确保微调后的策略不会完全丧失预训练模型中蕴含的人类演示先验。

3.3 数据设计

  • 离线预训练数据:利用已有的行为克隆(BC)数据集(如人类演示)来初始化扩散策略。
  • 在线交互数据:在强化学习阶段,机器人通过执行带有噪声转向的动作与环境交互,收集新的三元组( s , Δ ϵ , r ) (s, \Delta \epsilon, r)(s,Δϵ,r)用于更新 Actor 和 Critic。
  • 样本效率:由于是在低维且分布简单的噪声空间优化,DSRL 相比于直接在连续动作空间搜索,所需的数据量大幅减少。

4 实验效果

  • 模拟环境(Libero, Aloha):在多个标准机器人基准测试中,DSRL 在极少的样本下(通常只需几十个或几百个 episodes)就能显著提升预训练策略的成功率。
  • 真机实验:在“打开烤箱”和“放勺子到盘子里”等任务中,通过与π 0 \pi_0π0(Physical Intelligence 的基础模型)结合,DSRL 仅需 20-40 次真机交互 就能将成功率从接近 0% 提升到 80% 以上。实验证明其样本效率比直接在动作空间运行 SAC 高出数倍。

5 结论

DSRL 证明了在扩散模型的潜噪声空间进行强化学习是实现快速、自主策略改进的有效途径。它解决了扩散策略难以进行样本高效微调的难题,实现了“黑盒”式微调(无需深入修改扩散模型内部架构)。

6 扩散模型进行RL的方案

6.1 纯离线设置 (Purely Offline Setting)

在离线 RL 中,我们只有一份历史数据集(包含状态、动作和奖励),目标是从中学习一个能获得高奖励的策略。

  • 按价值加权的 BC (Weighted BC by Value):

    • 方法:这种方法不改变扩散模型的基本训练方式,但在损失函数上加权。给那些高奖励(高Q QQ值或V VV值)的样本更大的权重,给表现差的样本小权重。
    • 本质:它是行为克隆(BC)的变体。模型依然在模仿,但它被告知“多模仿好学生,少模仿坏学生”。
  • 直接最大化奖励 (Directly maximizing a reward):

    • 方法:不只是模仿数据,而是直接将R RR(奖励)或Q QQ(价值)作为目标函数。通过对扩散策略的参数求导,让模型生成的动作序列朝着奖励更高的方向偏移。
    • 难点:扩散模型是多步去噪,求导链条非常长,计算开销大且容易梯度爆炸。
  • 拒绝采样 (Rejection Sampling):

    • 方法:先用预训练好的扩散策略生成一大堆候选动作(比如生成 10 个),然后用一个学好的Q QQ函数(评分器)对这 10 个动作打分,最后只执行分最高的那一个。
    • 本质:这是一种“后处理”策略,不需要重新训练模型,但在推理(Inference)时计算量翻倍。

6.2 在线设置 (Online Setting)

在线 RL 允许机器人与环境实时交互,根据反馈不断调整策略。

  • 基于 PPO 微调前几步去噪 (Finetune first few steps with PPO):
    • 方法:扩散模型去噪通常有几十步。有些方法只用经典的 PPO 算法去更新前几步(高噪声阶段)的神经网络参数。
    • 理由:早期步决定了动作的大致轮廓,后期步只是修饰细节。这种方法试图通过只动“大方向”来降低 RL 的学习难度。
  • 匹配 Q 函数的 Score (Matching the score of the Q-function):
    • 方法:数学上,扩散模型学习的是概率分布的“分值(Score)”。如果能学到一个奖励函数的分值∇ log ⁡ R \nabla \log RlogR,并将其加到扩散模型的梯度中,就能把动作推向高奖励区。
    • 本质:通过数学推导,将“寻找高奖励动作”转化成“沿着奖励梯度的方向去噪”。
  • 迭代式 BC (Iterative BC / Best-of-N):
    • 方法:机器人先去跑,选出表现好的轨迹(即那些Q QQ值大的),把这些轨迹放回训练集,再次进行行为克隆(BC)。
    • 本质:自我进化。不断重复“尝试 -> 筛选好样本 -> 重新模仿好样本”的过程。

6.3 残差策略 (Residual Policy)

  • 方法:保持预训练好的扩散策略(a d i f f a_{diff}adiff)完全不动,另外训练一个轻量级的神经网络(残差网络)输出一个修正值Δ a \Delta aΔa。最终执行的动作是a = a d i f f + Δ a a = a_{diff} + \Delta aa=adiff+Δa
  • 本质:给扩散模型打一个“补丁”,用 RL 专门学习这个补丁。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/1119910.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

深度学习毕设项目:机器学习基于python深度学习的鲜花识别

博主介绍:✌️码农一枚 ,专注于大学生项目实战开发、讲解和毕业🚢文撰写修改等。全栈领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战 ✌️技术范围:&am…

Java消息中间件-Kafka全解(2026精简版)

从概念、安装、配置到高阶玩法与踩坑实录,一份速查表带走一、概念:10秒建立知识坐标定位:分布式流式发布/订阅消息系统,高吞吐、可持久化、可水平扩展核心模型: Topic → Partition → Offset Producer → Broker → C…

学习率调整与优化技巧相关 TensorFlow安装依赖冲突解决方案汇总

点赞、关注,不迷路 点赞、关注,不迷路 在使用TensorFlow进行深度学习模型开发时,学习率调整与优化是提升模型性能的关键环节,而TensorFlow的安装及依赖配置则是基础前提。实际操作中,常出现因依赖版本不兼容、环境配置…

【课程设计/毕业设计】人工智能基于python深度学习的鲜花识别

博主介绍:✌️码农一枚 ,专注于大学生项目实战开发、讲解和毕业🚢文撰写修改等。全栈领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战 ✌️技术范围:&am…

深度学习计算机毕设之基于python深度学习的鲜花识别

博主介绍:✌️码农一枚 ,专注于大学生项目实战开发、讲解和毕业🚢文撰写修改等。全栈领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战 ✌️技术范围:&am…

学霸同款2026最新!9款AI论文写作软件测评:毕业论文高效写作指南

学霸同款2026最新!9款AI论文写作软件测评:毕业论文高效写作指南 2026年AI论文写作工具测评:高效写作从这里开始 随着人工智能技术的不断进步,越来越多的学术工作者开始借助AI工具提升论文写作效率。然而,面对市场上琳琅…

“休眠当关机”,实现不动硬件的一键开关机

方案选择(按硬件改动量从小到大)方案 A:板上已经有一个按键接到 GPIO(最理想,0 改硬件)你只要确认这个 GPIO 是 RTC GPIO(S3 支持 EXT0/EXT1 唤醒的那类脚),然后固件做&a…

【毕业设计】基于python机器学习的鲜花识别

博主介绍:✌️码农一枚 ,专注于大学生项目实战开发、讲解和毕业🚢文撰写修改等。全栈领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战 ✌️技术范围:&am…

市面上网站建设哪家专业

如何选择专业的网站建设服务商?深度解析与品牌推荐在数字化转型浪潮中,一个专业、高效且具备营销力的企业网站,已成为生产型企业不可或缺的线上门户与增长引擎。然而,面对市场上琳琅满目的建站服务,许多企业主感到困惑…

纯图像传感器(只出像素),还是 Himax WiseEye/WE1/WE-I Plus 这类带处理器、能在端侧跑模型并输出“metadata”的模块

下面这 3 点都能做,但关键在于你说的 “Himax” 是哪一类:纯图像传感器(只出像素),还是 Himax WiseEye/WE1/WE-I Plus 这类带处理器、能在端侧跑模型并输出“metadata”的模块。两种方案实现路径不一样。 1&#xff09…

靠谱的网站建设哪家专业

靠谱的网站建设哪家专业?深度解析企业官网建设的核心与选择在数字化转型浪潮席卷各行各业的今天,一个专业、可靠的企业官网已不再是可有可无的“门面”,而是企业获取客户信任、展示核心实力、实现营销增长的战略要地。然而,面对市…

esp32c5跟esp32c6模块可以获取wifi的snr吗?

可以,但要分清两种“获取 SNR”的含义: 1)正常 STA 连接状态:基本拿不到“真实 SNR” ESP-IDF 在常规 Wi-Fi 连接(STA)里常用能拿到的是 RSSI(例如 esp_wifi_sta_get_ap_info() 里的 wifi_ap_…

MySQL 工具使用指南

一、mysql bin下的一些可执行文件这些文件是编译后的二进制可执行文件。二、MySQL 各工具的实际类型工具类型说明mysql二进制用 C/C 编写,编译成二进制mysqldump二进制或Perl脚本取决于 MySQL 版本和安装方式mysqladmin二进制用 C/C 编写mysqlcheckPerl 脚本是一个 …

鸿蒙生态再落一子,广汽集团与华为终端达成全面合作

云开发 在鸿蒙操终端设备数量突破3600万台、生态发展进入快车道之际,鸿蒙生态今日再次迎来汽车产业的重量级合作伙伴。1月5日,华为常务董事、产品投资评审委员会主任、终端BG董事长余承东带队访问广汽集团番禺总部,并与广汽集团董事长冯兴亚等…

【2025最新】HCIA-AI V4.0 备考全攻略:从 DeepSeek 到昇腾底层逻辑,全网最细避坑指南

前言:华为认证 HCIA-AI 已经升级到 V4.0 版本。相比 V3.5,新版不仅仅是增加了大模型(DeepSeek)和 AI4Science,更在 MindSpore 2.0 语法、昇腾计算架构(CANN)以及模型推理优化(MindIE…

AI编程会让程序员集体失业吗?

看到一个很有争议的一个问题,AI Coding已经能编出很完美的程序,程序员这个行业以后是不是会消失?其实vibe coding(氛围编程)还是个伪命题,更不要说替代程序员了。大家都在说AI已经能写出完美的程序&#xf…

【毕业设计】人工智能基于python深度学习的树叶健康识别

博主介绍:✌️码农一枚 ,专注于大学生项目实战开发、讲解和毕业🚢文撰写修改等。全栈领域优质创作者,博客之星、掘金/华为云/阿里云/InfoQ等平台优质作者、专注于Java、小程序技术领域和毕业项目实战 ✌️技术范围:&am…

告别手动修图!AI指令改图助力电商人,轻松搞定全场景素材需求

电商运营中,视觉素材直接影响转化,但改图痛点突出:与设计师反复沟通、排期等待耗时费力,旺季赶进度更是焦灼。AI指令改图功能完美破解困境,无需懂设计,输入指令即可精准改图,适配全电商场景。下…

【华为认证】HCIP-AI V1.0 深度进阶:人工智能应用的趋势与挑战(高级工程师版)

0. 前言:从“小模型”到“大底座”的范式革命作为 AI 开发者,我们正在经历从 Discriminative AI(判别式 AI) 到 Generative AI(生成式 AI) 的范式转移。在 HCIA 阶段,我们关注的是针对特定任务训…

【华为认证】HCIP-AI V1.0 深度进阶:AI 芯片与算力底座——解构达芬奇架构的矩阵暴力

0. 前言:为什么大模型时代“算力”是第一生产力?在 HCIA 阶段,我们习惯于调用 model.train()。但在高级工程领域,你会发现 Memory Wall(存储墙) 和 Compute Bound(计算受限) 才是真正…