论文速读记录 | 2025.11

news/2025/11/2 12:28:47/文章来源:https://www.cnblogs.com/moonout/p/19184718


目录
  • CIC: Contrastive Intrinsic Control for Unsupervised Skill Discovery
  • auto-curriculum learning (Jiang et al., 2021b)
  • Meta-Motivo(Tirinzoni 等人,2025),zero-shot goal-conditioned RL
  • Unsupervised Skill Discovery via Recurrent Skill Training
  • Learning to Discover Skills through Guidance
  • One After Another: Learning Incremental Skills for a Changing World
  • Direct then Diffuse: Incremental Unsupervised Skill Discovery for State Covering and Goal Reaching
  • Horizon Generalization in Reinforcement Learning
  • HIQL: Offline Goal-Conditioned RL with Latent States as Actions
  • Contrastive Preference Learning: Learning from Human Feedback without RL
  • Controlled Diversity with Preference: Towards Learning a Diverse Set of Desired Skills
  • Human-Aligned Skill Discovery Balancing Behaviour Exploration and Alignment
  • Few is More: Task-Efficient Skill-Discovery for Multi-Task Offline Multi-Agent Reinforcement Learning
  • SMAC-R1: The Emergence of Intelligence in Decision-Making Tasks
  • Efficient Off-Policy Meta-Reinforcement Learning via Probabilistic Context Variables
  • VariBAD: A Very Good Method for Bayes-Adaptive Deep RL via Meta-Learning
  • Rethinking Reward Modeling in Preference-based Large Language Model Alignment
  • DOPL: Direct Online Preference Learning for Restless Bandits with Preference Feedback
  • Fewer May Be Better: Enhancing Offline Reinforcement Learning with Reduced Dataset
  • Data Center Cooling System Optimization Using Offline Reinforcement Learning
  • SpikeLLM: Scaling up Spiking Neural Network to Large Language Models via Saliency-based Spiking
  • Rethinking Inverse Reinforcement Learning: from Data Alignment to Task Alignment
  • Does Reinforcement Learning Really Incentivize Reasoning Capacity in LLMs Beyond the Base Model?
  • Why Distillation can Outperform Zero-RL: The Role of Flexible Reasoning
  • Thinkless: LLM Learns When to Think
  • Learning to Reason without External Rewards


CIC: Contrastive Intrinsic Control for Unsupervised Skill Discovery

  • 来源:想起来,想看一下。
  • arxiv:https://arxiv.org/abs/2202.00161

auto-curriculum learning (Jiang et al., 2021b)

来源是 RSD。似乎可以做自动 curriculum learning,或许是有启发性的。

Meta-Motivo(Tirinzoni 等人,2025),zero-shot goal-conditioned RL

来源是 RGSD。可能包含一个技能库,也想看。速读一下就行。

Unsupervised Skill Discovery via Recurrent Skill Training

Learning to Discover Skills through Guidance

One After Another: Learning Incremental Skills for a Changing World

Direct then Diffuse: Incremental Unsupervised Skill Discovery for State Covering and Goal Reaching

Horizon Generalization in Reinforcement Learning

  • arxiv:https://arxiv.org/abs/2501.02709
  • website:https://horizon-generalization.github.io/
  • 来源:Benjamin Eysenbach 的新作,是一篇 arxiv paper,同学说有趣。
  • 主要内容:

HIQL: Offline Goal-Conditioned RL with Latent States as Actions

  • arxiv:https://arxiv.org/abs/2307.11949
  • website:https://seohong.me/projects/hiql/
  • 来源:合作者推荐的文章,好像也是 Benjamin Eysenbach 发表的。

Contrastive Preference Learning: Learning from Human Feedback without RL

  • arxiv:https://arxiv.org/abs/2310.13639
  • GitHub:https://github.com/jhejna/cpl
  • 来源:无意中搜到的文章,ICLR 2024,好像之前读过。
  • 主要内容:

Controlled Diversity with Preference: Towards Learning a Diverse Set of Desired Skills

  • arxiv:https://arxiv.org/abs/2303.04592
  • 来源:[mask]

Human-Aligned Skill Discovery Balancing Behaviour Exploration and Alignment

  • arxiv:https://arxiv.org/abs/2501.17431
  • 来源:[mask]

Few is More: Task-Efficient Skill-Discovery for Multi-Task Offline Multi-Agent Reinforcement Learning

  • arxiv:https://arxiv.org/abs/2502.08985
  • 来源:同学的最新工作。
  • 主要内容:
    • 这篇文章关注的 setting 是 offline multi-task MARL;特别的,agent 只在(比如说)三个人合作的场景上训练,然后就可以泛化到任意多个人合作的场景。同学讲的故事是,用 transformer 作为一个翻译器,把三个人的合作动作翻译为多个人的,感觉这个故事听起来非常好。

SMAC-R1: The Emergence of Intelligence in Decision-Making Tasks

  • arxiv:https://arxiv.org/abs/2410.16024
  • 来源:在知乎看到的,但现在知乎帖子好像找不到了)
  • 主要内容:
    • 用 LLM 生成打 smac 的 python 决策树代码。
    • 具体 method:

Efficient Off-Policy Meta-Reinforcement Learning via Probabilistic Context Variables

  • arxiv:https://arxiv.org/abs/1903.08254
  • 来源:[mask]
  • 主要内容:
    • 这篇文章提出了 PERAL 方法。

VariBAD: A Very Good Method for Bayes-Adaptive Deep RL via Meta-Learning

  • arxiv:https://arxiv.org/abs/1910.08348
  • 来源:[mask]
  • 主要内容:
    • 这篇文章提出了 VariBAD 方法。

Rethinking Reward Modeling in Preference-based Large Language Model Alignment

  • arxiv:https://arxiv.org/abs/2411.04991
  • OpenReview:https://openreview.net/forum?id=rfdblE10qm
  • 来源:ICLR 2025 oral。
  • 主要内容:
    • 这篇文章关注 LLM 的 RLHF。据说不采用 bradley-terry model 来建模 reward model,而是直接训一个分类器,学习一个 (x,y) 是好的还剩坏的,然后使用分类器的概率 logit 作为 RLHF 的 reward。
    • 是否使用了非成对的比较 \((x_1, y_1^+, x_2, y_2^-)\),而非把成对比较 \((x, y^+, y^-)\) 打乱(?)
    • 实验是否过于 toy(?)理论大概说了什么(?)

DOPL: Direct Online Preference Learning for Restless Bandits with Preference Feedback

  • arxiv:https://arxiv.org/abs/2410.05527
  • open review:https://openreview.net/forum?id=2iYVBqRHK4
  • 来源:合作者推荐的文章。
  • 主要内容:
    • preference-based index policy(?)

Fewer May Be Better: Enhancing Offline Reinforcement Learning with Reduced Dataset

  • 来源:师兄的文章。

Data Center Cooling System Optimization Using Offline Reinforcement Learning

  • arxiv:https://arxiv.org/pdf/2501.15085
  • 来源:xianyuan zhan 组的新文章。
  • 主要内容:
    • T-symmetry。

SpikeLLM: Scaling up Spiking Neural Network to Large Language Models via Saliency-based Spiking

  • arxiv:https://arxiv.org/abs/2407.04752
  • 来源:师兄推荐的神秘文章,ICLR 2025 poster。

Rethinking Inverse Reinforcement Learning: from Data Alignment to Task Alignment

  • arxiv:https://arxiv.org/abs/2410.23680
  • 来源:偶然看到的文章。

Does Reinforcement Learning Really Incentivize Reasoning Capacity in LLMs Beyond the Base Model?

  • 来源:师兄偶然提到,系里其他人的文章。

Why Distillation can Outperform Zero-RL: The Role of Flexible Reasoning

  • arxiv:https://arxiv.org/abs/2505.21067
  • 来源:偶然看到的文章。

Thinkless: LLM Learns When to Think

  • arxiv:https://arxiv.org/abs/2505.13379
  • 来源:偶然看到的文章。

Learning to Reason without External Rewards

  • arxiv:https://arxiv.org/abs/2505.19590
  • 来源:偶然看到的文章。


本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/953509.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

实用指南:Spring进阶 - Spring AOP实现原理(一)AOP切面实现原理

实用指南:Spring进阶 - Spring AOP实现原理(一)AOP切面实现原理pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "…

win11 新增小鹤双拼输入法

打开 cmd 窗口,输入: reg add HKCU\Software\Microsoft\InputMethod\Settings\CHS /v UserDefinedDoublePinyinScheme0 /t REG_SZ /d "小鹤双拼*2*^*iuvdjhcwfg^xmlnpbksqszxkrltvyovt" 回车再去:时间和语…

无法从资源管理器拖动文件到文档大师的解决方法

如果遇到从资源管理器中,无法拖动文件到文档大师,请检查下述设置: 1. UAC权限:要设置在如图位置上,这是默认的设置。如果此项需要变更,可能需要重启电脑后重试2. "以管理员身份运行此程序"不要打勾 找…

2025 年 11 月 304 不锈钢机箱机柜,5052 铝机箱机柜,6061 铝机箱机柜厂家最新推荐,产能、专利、环保三维数据透视!

在绿色制造与高端装备需求升级驱动下,304 不锈钢机箱机柜、5052 铝机箱机柜、6061 铝机箱机柜凭借材质特性差异化优势,全球市场规模年增速达 25%。为助力采购者精准决策,行业协会联合第三方检测机构开展 2025 年 Q4…

2025 年 11 月电商代运营厂家推荐排行榜,阿里巴巴/1688/国际站/淘宝/天猫店铺代运营,专业运营与高效转化口碑之选

2025 年 11 月电商代运营厂家推荐排行榜,阿里巴巴/1688/国际站/淘宝/天猫店铺代运营,专业运营与高效转化口碑之选 随着数字经济持续深化,电商代运营行业已成为企业数字化转型的重要支撑。根据最新行业数据显示,202…

2025年11月学习机品牌评价榜:从读书郎到随机四强的全维度横评

孩子放学回家,作业堆成山,家长却抽不出时间逐题讲解;新课标变化快,旧资料跟不上,预习复习都靠“拍脑袋”;线上课程五花八门,挑得眼花缭乱,又怕孩子偷偷刷短视频。这些场景,让“买一台靠谱的学习机”成为2025年…

2025 年 11 月中央空调厂家推荐排行榜:美的/海信/大金/格力/约克/海尔,商用/家用/工业中央空调安装维修服务精选

2025 年 11 月中央空调厂家推荐排行榜:美的/海信/大金/格力/约克/海尔,商用/家用/工业中央空调安装维修服务精选 中央空调系统作为现代建筑环境控制的核心装备,其技术演进与市场格局始终备受行业关注。随着2025年建…

2025年11月洗地机产品对比:十款真蒸汽双舱机型排名解析

2025年11月,家庭地面清洁进入“换季深度保洁”高峰:宠物换毛、孩子室内活动增多、供暖后灰尘沉降,都让“拖一次就干净”成为刚需。洗地机凭借“吸拖同步”效率,成为替代传统拖把增速最快的品类。工信部消费品司数据…

2025年11月洗地机产品推荐:十强机型深度评测榜单

把预算卡在两千七左右、家里又有娃有宠,地板三天两头出现巧克力渍、油画棒印、宠物掉毛,传统拖把越拖越黏,单舱洗地机缠毛发、发臭、污水箱倒起来触目惊心——这是后台留言里出现频率最高的场景。2025年第三季度家电…

2025年11月洗地机产品推荐:真蒸汽与静音技术深度评测榜

把一台洗地机搬回家之前,你大概率经历过这样的场景:扫地机器人被地毯卡住,拖把桶换水溅得满地,宠物掉毛季每天手动捡毛捡到怀疑人生。于是“吸拖一次完成”的洗地机成了搜索热词,可打开电商页面,价格从千元到四千…

2025年11月学习机品牌推荐:新课标同步辅导榜单一览

孩子放学回家,作业堆成山,家长却苦于没时间、没方法辅导;新课标变化快,校内进度紧,学生需要提前预习、课后查漏补缺;线上资源虽多,却分散难成体系,护眼问题也让家长焦虑。2025年秋季学期过半,期中考试暴露的薄…

WTAPI微信开发框架说明

WTAPI 在微信深度渗透社交与商业的今天,个人微信号已成为企业获客、用户运营的核心载体。然而,手动操作效率低、功能受限等问题,让“如何高效管理微信生态”成为开发者与企业的共同痛点。WTAPI作为专注微信个人号二…

2025 年 11 月曝气机厂家权威推荐榜单:潜水曝气机,潜水离心曝气机,潜水射流曝气机,倒伞型表面曝气机,立式表面曝气机公司推荐

2025 年 11 月曝气机厂家权威推荐榜单:潜水曝气机,潜水离心曝气机,潜水射流曝气机,倒伞型表面曝气机,立式表面曝气机公司推荐 行业背景与发展趋势 水处理行业作为环境保护领域的重要组成部分,近年来在政策支持和…

2025年11月卖得好的学习机品牌推荐:畅销榜数据解析与选购排行

“孩子放学回家就抱着平板,作业拖到十点,成绩却不见起色。”这是后台留言里出现频率最高的一句。家长既怕伤眼,又怕内容不系统,更怕花了钱却买来一台“游戏机”。2025年教育部《教育信息化“十四五”收官报告》显示…

算法和基本概念

数据元素是数据的基本单位,数据元素有数据项组成 数据项是数据的最小单位 数据结构三要素:逻辑结构、物理结构(存储结构)、数据的运算 逻辑结构:集合、线性结构(一对一)、树形结构(一对多)、图结构(多对多)…

2025年11月卖得好的学习机品牌推荐:家长口碑榜五强评价指南

期中考试临近,家长群里最常出现的对话是“哪款学习机真的管用”。面对线上线下铺天盖地的广告,用户最怕三件事:买回去孩子不用、内容跟不上校内进度、售后找不到人。教育部“双减”政策落地后,家庭对智能学习硬件的…

MySQL01 语法

MySQL01 语法SQL 通用语法可单行,可多行,分号结尾可使用空格 缩进增强可读性不区分大小写,关键字建议使用大写注释:单行:--xxxx 或#xxxx ​ 多行:/* */分类 DDL DML DQL DCL 定义 增删改 查 创建用户,控制访问权…

2025 年 11 月气动执行器厂家推荐排行榜,齿轮齿条执行器,拨叉式执行器,角行程执行器,不锈钢执行器,三段式执行器,快速执行器及附件公司推荐

2025年11月气动执行器厂家推荐排行榜:齿轮齿条执行器、拨叉式执行器、角行程执行器、不锈钢执行器、三段式执行器、快速执行器及附件公司推荐 行业背景与发展趋势 气动执行器作为工业自动化控制系统的核心部件,在流程…

2025 年 11 月不锈钢厂家推荐排行榜,301不锈钢,316L不锈钢,304不锈钢,420不锈钢,201不锈钢,不锈钢材料公司推荐

2025年11月不锈钢厂家推荐排行榜:专业解析301、316L、304、420、201不锈钢材料优质供应商 行业背景与发展现状 不锈钢材料作为现代工业的重要基础材料,其应用范围涵盖医疗器械、航空航天、家电厨卫等多个关键领域。随…

最近发生和发现的一些小事、疑问

最近发生和发现的一些小事、疑问1.邮箱用网页登录不了。 前些天用网页登录了邮箱,对于不用邮箱办公的我,几乎都快忘了,毕竟现在大众的网络办公软件主要是Wechat和钉钉。 邮箱网页登录不了,必须下载QQ才行,我想着Q…