RL——METRA: Scalable Unsupervised RL with Metric-Aware Abstraction

news/2025/12/3 21:34:28/文章来源:https://www.cnblogs.com/kailugaji/p/19304043

RL——METRA: Scalable Unsupervised RL with Metric-Aware Abstraction

作者:凯鲁嘎吉 - 博客园 http://www.cnblogs.com/kailugaji/

        近期,阅读了一篇发表在ICLR2024上的文章《METRA: Scalable Unsupervised RL with Metric-Aware Abstraction》,本博文从生成对抗网络的变种Wasserstein GAN的角度出发,来理解METRA的提出动机。首先介绍一些基础知识,包括:KL散度、JS散度、Wasserstein距离、Lipschitz条件、信息熵、联合熵、条件熵、前向与反向互信息、相对熵、Jensen不等式。然后通过Wasserstein GAN与METRA左右对比来理解METRA的由来。进一步,详细解读了METRA方法的公式推导过程、算法流程、直观理解以及与DIAYN、DADS和CIC方法之间的联系。

幻灯片1

幻灯片2

幻灯片3

幻灯片4

幻灯片5

幻灯片6

幻灯片7

幻灯片8

幻灯片9

幻灯片10

参考资料:

[1]      Park S, Rybkin O, Levine S. METRA: Scalable Unsupervised RL with Metric-Aware Abstraction. In International Conference on Learning Representations (ICLR), 2024.

[2]      平均场理论:凯鲁嘎吉 - https://www.cnblogs.com/kailugaji/p/10692797.html、https://www.cnblogs.com/kailugaji/p/12463966.html

[3]      生成对抗网络(GAN与W-GAN):凯鲁嘎吉 - https://www.cnblogs.com/kailugaji/p/15352841.html

[4]      非对称度量即拟度量的定义:凯鲁嘎吉 - https://www.cnblogs.com/kailugaji/p/19210601

[5]      DIAYN:Benjamin Eysenbach, Abhishek Gupta, Julian Ibarz, and Sergey Levine. Diversity is all you need: Learning skills without a reward function. In International Conference on Learning Representations (ICLR), 2019.

[6]      DADS:Archit Sharma, Shixiang Gu, Sergey Levine, Vikash Kumar, and Karol Hausman. Dynamics aware unsupervised discovery of skills. In International Conference on Learning Representations (ICLR), 2020.

[7]      CIC:Michael Laskin, Hao Liu, Xue Bin Peng, Denis Yarats, Aravind Rajeswaran, and P. Abbeel. Unsupervised reinforcement learning with contrastive intrinsic control. In Neural Information Processing Systems (NeurIPS), 2022.

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/986048.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

从“访答”出发,深入解析AI对话技术如何重塑信息获取方式

从“访答”出发,深入解析AI对话技术如何重塑信息获取方式 在信息爆炸的时代,我们每天都被海量的数据包围。如何高效、准确地获取所需信息,成为了现代人面临的一大挑战。传统的搜索引擎虽然强大,但往往需要我们不断…

P3_安装配置MMSegmentation+预训练语义分割推理预测

P3_安装配置MMSegmentation+预训练语义分割推理预测3.1使用终端安装 MMSegmentation 按照顺序逐行运行本代码,即可安装配置 MMCV、MMSegmentation环境 【推荐代码运行云GPU环境:GPU RTX 3060、CUDA v11.3】 1.创建 P…

2025住人集装箱房生产品牌排名如何?谁在颠覆未来居住?

正文 近年来,随着模块化建筑理念的普及和各类工程项目、应急保障及商业临时设施需求的增长,住人集装箱房(又称箱式房、模块化房屋)市场蓬勃发展。面对市场上众多品牌,如何甄别其综合实力并做出明智选择,成为许多…

R20-2025年国产活动板房选购指南:领军品牌深度解析

正文 在模块化建筑成为全球基建、应急保障与商业扩展重要支撑的今天,选择一家可靠的活动板房生产厂家,直接关系到项目成本、工期与人员安全。面对市场上众多的供应商,如何辨别其综合实力与技术底蕴?本文将基于2025…

langchain4j 学习系列(5)-RAG

继续我们的langchain4j之旅,今天来看看RAG如何实现,“RAG萌宠新手盆友们”建议先看看B站大佬的视频RAG 工作机制详解—哔哩哔哩_bilibili,核心步骤就是下面这3张图: 最简单的RAG hello-world1、分片/索引 这里emb…

[linux 交换空间]

~/opt/claudeCode$ bash install.sh Setting up Claude Code... Installing Claude Code native build stable...install.sh: line 142: 82469 Killed "$binary_path" install ${TARGET:+&…

Alpha冲刺总结报告

Alpha冲刺总结报告 团队名称: 书海拾贝队 冲刺周期: 2025年11月24日 - 2025年11月30日 项目名称: 书海拾贝 - 二手书交易平台 成员: 杨浩 刘霆浩 戴宏翔 莫圣韬 陈东楷 赖顺炜这个作业属于哪个课程 班级链接这个作…

完整教程:【高阶数据结构】AVL树

pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas", "Monaco", "Courier New", …

20251203周三日记

20251203周三日记今日: 1.炉石新版本大更。一早来实验室,边玩边调研,真挖到宝了。找到一个无训练的仓库,给师兄推过去,非常不错。 2.中午和同门吃饭,吃完回来继续跑vggt代码,手动下载调研的文章。好像3D genera…

了解NFSv4中的nfsidmap

nfsidmap 实用程序是 NFSv4 中处理 ID 映射 的关键组件,它在本地系统的UID/GID与 NFSv4 使用的user@domain字符串之间进行转换。这确保了在可能具有不同 UID/GID 映射的系统之间正确处理所有权和权限。 主要特性和使用…

你的学习思路有实践导向的优势,但需调整顺序和手段才能更高效成体系!核心结论:先搭建,边做边补原理,再集中突破面试考点,比 “先堆方案再回头学” 更高效。

pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas", "Monaco", "Courier New", …

Scrum 冲刺博客_5

昨天已完成工作:完成基础数据的分类整理。 新增测试覆盖率阈值检查,确保代码质量。 完成基本代码框架并上传。今天计划完成的工作:开发组件内具体内容。 模块核心接口。 解决数据渲染延迟问题,优化页面加载速度。工…

2025年11月聚乙烯瓶厂家综合评估与选购指南:十大知名供应商深度解析

摘要 随着2025年化工包装行业的快速发展,聚乙烯瓶作为农药、医药、食品等领域的重要包装容器,其市场需求持续增长。本文基于行业调研数据和专家评估,为您呈现2025年11月聚乙烯瓶厂家的综合排名与分析,为采购决策提…

2025年12月广东顺德短视频代运营团队优势解读

本文深入解读2025年顺德短视频代运营团队的核心优势,聚焦广州云视信息服务有限公司的一站式短视频营销服务。通过分析本地化定制、技术赋能和全链路覆盖,结合客户案例和数据,为中小企业提供高效短视频运营解决方案,…

为什么需要多路召回

目录背景和价值一、向量检索的局限性1. 语义相似 ≠ 精确匹配2. 关键词匹配能力弱3. 多条件组合查询困难二、具体问题对比场景 1:精确数值查询场景 2:多条件组合查询场景 3:专业术语/品牌名查询三、向量检索 vs ES …

2025年11月聚乙烯瓶厂家综合排行榜:权威推荐与选购指南

摘要 随着2025年塑料包装行业的快速发展,聚乙烯瓶作为农药、化工、医药等领域的重要包装容器,其市场需求持续增长。本文基于行业数据、技术实力、客户口碑等多维度评估,为您呈现2025年11月聚乙烯瓶厂家综合排行榜,…

2025年11月农药瓶供应商排行榜:安徽金汇龙包装位居榜首

文章摘要 2025年农药包装行业迎来技术升级浪潮,随着环保政策趋严和智能制造的普及,农药瓶供应商面临新的机遇与挑战。本文基于市场调研数据和行业专家意见,为您呈现2025年11月农药瓶供应商综合排名榜单,安徽金汇龙…

2025年11月农药瓶供应商排行榜:安徽金汇龙包装领跑行业

摘要 2025年农药包装行业迎来技术升级浪潮,随着环保政策收紧和智能制造的推进,农药瓶供应商面临新的机遇与挑战。本文基于市场调研数据和行业专家评价,为您呈现2025年11月农药瓶供应商综合排名,并提供详细的对比分…

(论文阅读)An Image is Worth 32 Tokens for Reconstruction and Generation

(论文阅读)An Image is Worth 32 Tokens for Reconstruction and Generation1. 论文Yu et al. An Image is Worth 32 Tokens for Reconstruction and Generation. NeurIPS, 2024.摘要: 在视觉中,尤其是高分辨率设置…

2025年11月农药瓶供应商排行TOP10:安徽金汇龙包装领跑行业

摘要 2025年农药包装行业迎来技术升级浪潮,随着环保政策收紧和智能制造的推进,农药瓶供应商面临新的机遇与挑战。本文基于市场调研数据和技术参数分析,为您呈现2025年11月最具竞争力的农药瓶供应商排行榜,为农药生…