论文速读记录 | 2025.10

news/2025/10/2 23:03:58/文章来源:https://www.cnblogs.com/moonout/p/19124123


目录
  • Horizon Generalization in Reinforcement Learning
  • HIQL: Offline Goal-Conditioned RL with Latent States as Actions
  • Contrastive Preference Learning: Learning from Human Feedback without RL
  • Controlled Diversity with Preference: Towards Learning a Diverse Set of Desired Skills
  • Human-Aligned Skill Discovery Balancing Behaviour Exploration and Alignment
  • Few is More: Task-Efficient Skill-Discovery for Multi-Task Offline Multi-Agent Reinforcement Learning
  • SMAC-R1: The Emergence of Intelligence in Decision-Making Tasks
  • Efficient Off-Policy Meta-Reinforcement Learning via Probabilistic Context Variables
  • VariBAD: A Very Good Method for Bayes-Adaptive Deep RL via Meta-Learning
  • Rethinking Reward Modeling in Preference-based Large Language Model Alignment
  • DOPL: Direct Online Preference Learning for Restless Bandits with Preference Feedback
  • Fewer May Be Better: Enhancing Offline Reinforcement Learning with Reduced Dataset
  • Data Center Cooling System Optimization Using Offline Reinforcement Learning
  • SpikeLLM: Scaling up Spiking Neural Network to Large Language Models via Saliency-based Spiking
  • Rethinking Inverse Reinforcement Learning: from Data Alignment to Task Alignment
  • Does Reinforcement Learning Really Incentivize Reasoning Capacity in LLMs Beyond the Base Model?
  • Why Distillation can Outperform Zero-RL: The Role of Flexible Reasoning
  • Thinkless: LLM Learns When to Think
  • Learning to Reason without External Rewards


Horizon Generalization in Reinforcement Learning

  • arxiv:https://arxiv.org/abs/2501.02709
  • website:https://horizon-generalization.github.io/
  • 来源:Benjamin Eysenbach 的新作,是一篇 arxiv paper,同学说有趣。
  • 主要内容:

HIQL: Offline Goal-Conditioned RL with Latent States as Actions

  • arxiv:https://arxiv.org/abs/2307.11949
  • website:https://seohong.me/projects/hiql/
  • 来源:合作者推荐的文章,好像也是 Benjamin Eysenbach 发表的。

Contrastive Preference Learning: Learning from Human Feedback without RL

  • arxiv:https://arxiv.org/abs/2310.13639
  • GitHub:https://github.com/jhejna/cpl
  • 来源:无意中搜到的文章,ICLR 2024,好像之前读过。
  • 主要内容:

Controlled Diversity with Preference: Towards Learning a Diverse Set of Desired Skills

  • arxiv:https://arxiv.org/abs/2303.04592
  • 来源:[mask]

Human-Aligned Skill Discovery Balancing Behaviour Exploration and Alignment

  • arxiv:https://arxiv.org/abs/2501.17431
  • 来源:[mask]

Few is More: Task-Efficient Skill-Discovery for Multi-Task Offline Multi-Agent Reinforcement Learning

  • arxiv:https://arxiv.org/abs/2502.08985
  • 来源:同学的最新工作。
  • 主要内容:
    • 这篇文章关注的 setting 是 offline multi-task MARL;特别的,agent 只在(比如说)三个人合作的场景上训练,然后就可以泛化到任意多个人合作的场景。同学讲的故事是,用 transformer 作为一个翻译器,把三个人的合作动作翻译为多个人的,感觉这个故事听起来非常好。

SMAC-R1: The Emergence of Intelligence in Decision-Making Tasks

  • arxiv:https://arxiv.org/abs/2410.16024
  • 来源:在知乎看到的,但现在知乎帖子好像找不到了)
  • 主要内容:
    • 用 LLM 生成打 smac 的 python 决策树代码。
    • 具体 method:

Efficient Off-Policy Meta-Reinforcement Learning via Probabilistic Context Variables

  • arxiv:https://arxiv.org/abs/1903.08254
  • 来源:[mask]
  • 主要内容:
    • 这篇文章提出了 PERAL 方法。

VariBAD: A Very Good Method for Bayes-Adaptive Deep RL via Meta-Learning

  • arxiv:https://arxiv.org/abs/1910.08348
  • 来源:[mask]
  • 主要内容:
    • 这篇文章提出了 VariBAD 方法。

Rethinking Reward Modeling in Preference-based Large Language Model Alignment

  • arxiv:https://arxiv.org/abs/2411.04991
  • OpenReview:https://openreview.net/forum?id=rfdblE10qm
  • 来源:ICLR 2025 oral。
  • 主要内容:
    • 这篇文章关注 LLM 的 RLHF。据说不采用 bradley-terry model 来建模 reward model,而是直接训一个分类器,学习一个 (x,y) 是好的还剩坏的,然后使用分类器的概率 logit 作为 RLHF 的 reward。
    • 是否使用了非成对的比较 \((x_1, y_1^+, x_2, y_2^-)\),而非把成对比较 \((x, y^+, y^-)\) 打乱(?)
    • 实验是否过于 toy(?)理论大概说了什么(?)

DOPL: Direct Online Preference Learning for Restless Bandits with Preference Feedback

  • arxiv:https://arxiv.org/abs/2410.05527
  • open review:https://openreview.net/forum?id=2iYVBqRHK4
  • 来源:合作者推荐的文章。
  • 主要内容:
    • preference-based index policy(?)

Fewer May Be Better: Enhancing Offline Reinforcement Learning with Reduced Dataset

  • 来源:师兄的文章。

Data Center Cooling System Optimization Using Offline Reinforcement Learning

  • arxiv:https://arxiv.org/pdf/2501.15085
  • 来源:xianyuan zhan 组的新文章。
  • 主要内容:
    • T-symmetry。

SpikeLLM: Scaling up Spiking Neural Network to Large Language Models via Saliency-based Spiking

  • arxiv:https://arxiv.org/abs/2407.04752
  • 来源:师兄推荐的神秘文章,ICLR 2025 poster。

Rethinking Inverse Reinforcement Learning: from Data Alignment to Task Alignment

  • arxiv:https://arxiv.org/abs/2410.23680
  • 来源:偶然看到的文章。

Does Reinforcement Learning Really Incentivize Reasoning Capacity in LLMs Beyond the Base Model?

  • 来源:师兄偶然提到,系里其他人的文章。

Why Distillation can Outperform Zero-RL: The Role of Flexible Reasoning

  • arxiv:https://arxiv.org/abs/2505.21067
  • 来源:偶然看到的文章。

Thinkless: LLM Learns When to Think

  • arxiv:https://arxiv.org/abs/2505.13379
  • 来源:偶然看到的文章。

Learning to Reason without External Rewards

  • arxiv:https://arxiv.org/abs/2505.19590
  • 来源:偶然看到的文章。


本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/925395.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【Rust GUI开发入门】编写一个本地音乐播放器(15. 记录运行日志) - Jordan

本系列教程对应的代码已开源在 Github zeedle 本篇文章介绍如何将音乐播放器的运行情况持久化记录到日志文件中,这对分析程序意外情况出现的原因很有帮助! 使用最常用的env_logger,将其添加到Cargo.toml中: env_lo…

成都网站建设 3ewordpress简单投稿

在现代社会中,电力是我们生活和工作不可或缺的一部分。大楼宾馆作为城市中繁忙生活的一部分,依赖于可靠的电力供应来支持各种设施和服务,从客房照明到电梯运行,无一不离电。然而,大楼宾馆电力分配系统的稳定性和安全性…

6 种常见 AI 编程协作便捷的方法总结

6 种常见 AI 编程协作便捷的方法总结pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas", "Monac…

可以做产品推广的网站flash网站整站下载

目录 1.1 关于版本控制 1.1.1 本地版本控制 1.1.2 集中化的版本控制系统 1.1.3 分布式版本控制系统 1.2 Git简介 1.2.1 Git历史 1.3 安装git 1.3.1 环境说明 1.3.2 Yum安装Git 1.3.3 编译安装 1.4 初次运行 Git 前的配置 1.4.1 配置git 1.4.2 获取帮助 1.5 获取 G…

DeploySharp开源发布:让C#部署深度学习模型更加简单

DeploySharp:面向C#开发者的跨平台模型部署框架 DeploySharp是一款专为C#开发者设计的深度学习模型部署框架,支持OpenVINO和ONNX Runtime推理引擎,兼容YOLOv5-v12全系列模型以及Anomalib等主流模型。该框架采用模块…

光伏电站建设的国家网站湖南网站托管

java之NIO 1 什么是NIO Java NIO (New IO,Non-Blocking IO)是从Java 1.4版本开始引入的一套新的IO API。NIO支持面向缓冲区的、基于通道的IO操作。NIO的三大核心部分:通道(Channel),缓冲区(Buffer), 选择器(Selector),数据总是从…

视频多的网站建设如何建设一个静态网站

什么是柔性数组 什么是柔性数组?柔性数组其实也是动态内存管理部分的内容。这节主要来复习柔性数组的知识点。 当结构体的最后一个成员为数组, 且这个数组的大小未确定时, 我们就称它是柔性数组。 如: struct stu{char name[…

泰康人寿保险官方网站专题学习网站模板

boot读取配置文件1. yml配置文件2. 绑定方式13. 绑定方式23.1 依赖.3.2 boot 中提供的属性装配功能。1. 在某些业务中,需要将类的配置写到配置文件中, 不在代码中写死配置。 2. 所以需要读取配置文件(yaml, properties) 读取到Java Bean中。 3. 本文以oss对象存储配…

别样的国庆作业大战

一天,文科给我(理科)打来电话。他说:“你敢不敢和我举行假期作业量大战?”我豪爽的答应了:“我当然敢!我有 \(10^{12180211} \operatorname{mol}\) 试卷!2025.10.1 在 XXX 中高一年级举行,谁不来谁就是怂货。…

淘宝网站的建设目的是什么意思长沙网站托管seo优化公司

近期在复习Postman的基础知识,在小破站上跟着百里老师系统复习了一遍,也做了一些笔记,希望可以给大家一点点启发。 1、目前市面上的加密的方式 对称式加密:DES,AES,Base64加密算法 非对称加密&#xff1a…

摄影网站设计思想宁波优质网站制作哪家好

linux 常用的帮助命令 1.help -相当于man的简化版 例如:vim –help 2.man: 详细介绍vim的用法 例如:man vim 3.info:偏重介绍文档 例如: info vim

ROS2之服务

ROS2 的服务(Service)概念:服务是一种 请求-响应(request-response)通信机制,由 客户端(Client) 和 服务端(Server) 两部分组成。通信模式:客户端 发送一个请求(Request)。服务端 处理请求,并返回响应(…

北京公司建网站要多少费用江门站官网

文章目录1. 题目2. 解题1. 题目 给你一个下标从 0 开始长度为 n 的整数数组 nums 和一个整数 k &#xff0c;请你返回满足 0 < i < j < n &#xff0c;nums[i] nums[j] 且 (i * j) 能被 k 整除的数对 (i, j) 的 数目 。 示例 1&#xff1a; 输入&#xff1a;nums …

macOS上优雅运行Docker容器

colima 什么是colima colima主页 Colima(Container on Lima)是一个轻量级的容器运行时管理工具,专为macOS(同时也支持Linux)设计,提供了一种简单优雅的方式来运行容器。它基于Lima项目,后者为 macOS提供了类似W…

怎样模仿别人的网站wordpress免插件代码高亮

TCP/IP协议—TCP TCP协议TCP通信特点TCP技术概念TCP定时器 TCP头部报文TCP连接三次握手&#xff08;建立连接&#xff09;四次挥手&#xff08;释放连接&#xff09;连接状态 TCP协议 传输控制协议&#xff08;TCP&#xff0c;Transmission Control Protocol&#xff09;是一种…

使用IOT-Tree Server依据MC协议连接三菱Q系列PLC

使用IOT-Tree Server依据MC协议连接三菱Q系列PLC2025-10-02 22:40 tlnshuju 阅读(0) 评论(0) 收藏 举报pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display…

长春网站设计团队html自我介绍网页模板

1. 基本架构 ovs-vsctl: 管理ovsdb-server的配置&#xff0c;提供OVSDB的配置方法&#xff0c;包括创建和删除网桥、端口等&#xff1b; ovs-ofctl: 提供ovs-vswitchd的流表配置方法&#xff1b; ovs-dpctl: 配置OVS内核模块&#xff0c;提供缓存流表的操作方法&#xff1b…

【Linux】【硬件向】从“找文件”到“懂磁盘”:一文搞懂文件、磁盘与文件系统 - 指南

pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas", "Monaco", "Courier New", …

题解:CF1770H Koxia, Mahiru and Winter Festival

牛牛题。 题意:给出两个排列 \(p,q\),要求构造一种路径方案,\((1,i)\rightarrow(n,p_i)\),\((i,1) \rightarrow(q_i, n)\),要求经过次数最大的边经过次数最少。 做法: 首先 \(p_i=i,q_i=i\) 直接就是 \(1\),轻松…

HarmonyOS之LocalStorage - 详解

HarmonyOS之LocalStorage - 详解pre { white-space: pre !important; word-wrap: normal !important; overflow-x: auto !important; display: block !important; font-family: "Consolas", "Monaco&qu…