罗格斯大学:通过输入嵌入对齐选择agent

在这里插入图片描述

📖标题:AgentRec: Agent Recommendation Using Sentence Embeddings Aligned to Human Feedback
🌐来源:arXiv, 2501.13333

🌟摘要

🔸多代理系统必须决定哪个代理最适合给定的任务。我们提出了一种新的架构,通过扩展句子BERT(SBERT)编码器模型,在给定自然语言提示的情况下,推荐许多LLM代理中的哪一个应该执行任务。
🔸在测试数据上,我们能够实现92.2%的top-1准确率,每次分类的时间不到300毫秒。与传统的分类方法相比,我们的架构计算成本低,适应新类,可解释,并且可以通过强化学习用任意度量进行控制。通过将自然语言提示编码到句子嵌入中,我们的模型捕获了与推荐代理相关的语义内容。然后,通过调优,将属于同一主体的句子嵌入之间的距离最小化,并通过从人类反馈中进行强化学习,使其与人类价值观保持一致。这允许通过测量嵌入之间的余弦相似性,基于最近邻对自然语言提示进行分类。
🔸这项工作是通过为代理推荐生成一个合成数据集来实现的,我们已经将该数据集与AgentRec推荐系统的代码一起开源给公众,网址为https://github.com/joshprk/agentrec.

🛎️文章简介

🔸研究问题:在多代理系统中如何根据自然语言提示快速、准确地推荐最适合的代理来执行特定任务?
🔸主要贡献:论文提出了一个名为AgentRec的框架,通过使用句子嵌入和对齐人类反馈的方法,实现了在多代理系统中高效、准确的代理推荐。

📝重点思路

🔸主要思想:将自然语言用户提示编码成句子嵌入,并与代理句子嵌入进行相似度比较,从而推荐适合完成特定任务的代理。
🔸数据集生成:使用Llama-3.1-8B-Instruct模型生成合成数据集,确保数据集的代表性和非重复性。
🔸句子嵌入生成:使用SBERT编码器生成每个代理的句子嵌入,并将这些嵌入缓存以加快系统初始化。
🔸评分函数设计:通过比较余弦相似度的均值来设计评分函数,发现对数广义p均值效果最佳。
🔸对齐人类反馈(RLHF):通过监督微调(SFT)生成初始RL策略,并通过奖励模型对齐人类价值观。
🔸系统架构:扩展了Sentence-BERT模型,提供了一个端到端的方法来推荐代理,处理用户提示的标准化和重述。

🔎分析总结

🔸整体表现:AgentRec在8个代理上的top-1测试准确率达到92.2%,显示出较高的推荐准确性。
🔸系统性能:推荐系统在单个NVIDIA RTX A5000上每个提示的平均处理时间少于300毫秒。
🔸鲁棒性:系统对结构相似但语义不同的提示具有鲁棒性,能够准确推荐适合的代理。
🔸数据集的影响:使用合成数据集进行训练和测试,确保了数据的多样性和代表性。
🔸人类反馈对齐:通过RLHF方法,系统能够更好地对齐人类价值观,提高了推荐的准确性。

💡个人观点

论文的核心在于根据嵌入相似度选择agent。并通过强化学习进一步对齐。

🧩附录

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/894399.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【实战篇】Android安卓本地离线实现视频检测人脸

实战篇Android安卓本地离线实现视频检测人脸 引言项目概述核心代码类介绍人脸检测流程项目地址总结 引言 在当今数字化时代,人脸识别技术已经广泛应用于各个领域,如安防监控、门禁系统、移动支付等。本文将以第三视角详细讲解如何基于bifan-wei-Face/De…

团体程序设计天梯赛-练习集——L1-025 正整数A+B

一年之际在于春,新年的第一天,大家敲代码了吗?哈哈 前言 这道题分值是15分,值这个分,有一小点运算,难度不大,虽然说做出来了,但是有两个小疑点。 L1-025 正整数AB 题的目标很简单…

Leetcode:598

1,题目 2,思路 脑筋急转弯,看题目一时半会还没搞懂意思。 其实不然就是说ops是个矩阵集合,集合的每个矩阵有俩个元素理解为行列边距 m和n是理解为一个主矩阵,计算ops的每个小矩阵还有这个主矩阵的交集返回面积 3&…

web前端12--表单和表格

1、表格标签 使用<table>标签来定义表格 HTML 中的表格和Excel中的表格是类似的&#xff0c;都包括行、列、单元格、表头等元素。 区别&#xff1a;HTML表格在功能方面远没有Excel表格强大&#xff0c;HTML表格不支持排序、求和、方差等数学计算&#xff0c;主要用于布…

为何 git 默认是 master分支,而github默认是main分支(DeepSeek问答)

为何 git 默认是 master分支&#xff0c;而github默认是main分支 Git 和 GitHub 在默认分支名称上的差异源于历史背景和社会因素的变化。 Git 的 master 分支 历史原因&#xff1a;Git 由 Linus Torvalds 于 2005 年创建&#xff0c;最初使用 master 作为默认分支名称&#x…

【AI】探索自然语言处理(NLP):从基础到前沿技术及代码实践

Hi &#xff01; 云边有个稻草人-CSDN博客 必须有为成功付出代价的决心&#xff0c;然后想办法付出这个代价。 目录 引言 1. 什么是自然语言处理&#xff08;NLP&#xff09;&#xff1f; 2. NLP的基础技术 2.1 词袋模型&#xff08;Bag-of-Words&#xff0c;BoW&#xff…

Java集合+并发(部分)

Java集合 Java集合类的继承结构和各自的适用情况 Collection ​ — List ​ — ArrayList&#xff1a;动态数组 ​ — LinkedList&#xff1a;底层是双向链表&#xff0c;应用于Queue接口可以用于实现队列&#xff0c;应用于Deque接口可以用于实现栈 ​ — Vector&#x…

第1章 量子暗网中的血色黎明

月球暗面的危机与阴谋 量子隧穿效应催生的幽蓝电弧&#xff0c;于环形山表面肆意跳跃&#xff0c;仿若无数奋力挣扎的机械蠕虫&#xff0c;将月球暗面的死寂打破&#xff0c;徒增几分诡异。艾丽伫立在被遗弃的“广寒宫”量子基站顶端&#xff0c;机械义眼之中&#xff0c;倒映着…

AI-ISP论文Learning to See in the Dark解读

论文地址&#xff1a;Learning to See in the Dark 图1. 利用卷积网络进行极微光成像。黑暗的室内环境。相机处的照度小于0.1勒克斯。索尼α7S II传感器曝光时间为1/30秒。(a) 相机在ISO 8000下拍摄的图像。(b) 相机在ISO 409600下拍摄的图像。该图像存在噪点和色彩偏差。©…

Python3 【高阶函数】项目实战:5 个学习案例

Python3 【高阶函数】项目实战&#xff1a;5 个学习案例 本文包含 5 个关于“高阶函数”的综合应用项目&#xff0c;每个项目都包含完整的程序代码、测试案例和执行结果。具体项目是&#xff1a; 成绩统计分析单词统计工具简易计算器工厂任务调度器数据管道处理 项目 1&#…

【Git】初识Git Git基本操作详解

文章目录 学习目标Ⅰ. 初始 Git&#x1f4a5;注意事项 Ⅱ. Git 安装Linux-centos安装Git Ⅲ. Git基本操作一、创建git本地仓库 -- git init二、配置 Git -- git config三、认识工作区、暂存区、版本库① 工作区② 暂存区③ 版本库④ 三者的关系 四、添加、提交更改、查看提交日…

RK3568使用QT操作LED灯

文章目录 一、QT中操作硬件设备思路Linux 中的设备文件操作硬件设备的思路1. 打开设备文件2. 写入数据到设备3. 从设备读取数据4. 设备控制5. 异常处理在 Qt 中操作设备的典型步骤实际应用中的例子:控制 LED总结二、QT实战操作LED灯设备1. `mainwindow.h` 头文件2. `mainwindo…

分布式微服务系统架构第90集:现代化金融核心系统

#1.1 深化数字化转型&#xff0c;核心面临新挑战 1、架构侧&#xff1a;无法敏捷协同数字金融经营模式转型。 2、需求侧&#xff1a;业务需求传导低效始终困扰金融机构。 3、开发侧&#xff1a;创新产品上市速度低于期望。 4、运维侧&#xff1a;传统面向资源型监控体系难以支撑…

使用 Spring JDBC 进行数据库操作:深入解析 JdbcTemplate

目录 1. Spring JDBC 简介 2. JdbcTemplate 介绍 3. 创建数据库和表 4. 配置 Spring JDBC 5. 创建实体类 6. 使用 JdbcTemplate 实现增、删、改、查操作 7. Spring JDBC 优点 8. 小结 1. Spring JDBC 简介 Spring JDBC 是 Spring 框架中的一个模块&#xff0c;旨在简化…

BUUCTF [Black Watch 入群题]PWN1 题解

1.下载文件 exeinfo checksec 32位 IDA32 看到关键函数 read两次 第一次read的变量s在bss段&#xff1b;第二次的buf到ebp距离为 24 但是第二次的read字节只能刚好填满返回地址 传不进去变量 所以想到栈迁移 将栈移动到变量s所在位置上来 同时 这题开了NX 无直接的binsh和s…

CentOS 上安装 Go (Golang)

1. 检查系统环境 确保系统为 CentOS 7 或 CentOS 8&#xff0c;或者其他兼容的 Linux 发行版。 cat /etc/os-release2. 安装依赖 安装一些必要的工具&#xff1a; sudo yum update -y sudo yum install -y wget tar3. 下载 Go 从 Go 官方下载页面获取适用于 Linux 的最新版…

chrome源码剖析—进程通信

Chrome 浏览器采用多进程架构&#xff08;multi-process architecture&#xff09;&#xff0c;这种架构使得每个浏览器标签、扩展、插件、GPU 渲染等都在独立的进程中运行。为了确保不同进程之间的高效通信&#xff0c;Chrome 使用 进程间通信&#xff08;IPC, Inter-Process …

Cubemx文件系统挂载多设备

cubumx版本&#xff1a;6.13.0 芯片&#xff1a;STM32F407VET6 在上一篇文章中介绍了Cubemx的FATFS和SD卡的配置&#xff0c;由于SD卡使用的是SDIO通讯&#xff0c;因此具体驱动不需要自己实现&#xff0c;Cubemx中就可以直接配置然后生成SDIO的驱动&#xff0c;并将SD卡驱动和…

java练习(2)

回文数&#xff08;题目来自力扣&#xff09; 给你一个整数 x &#xff0c;如果 x 是一个回文整数&#xff0c;返回 true &#xff1b;否则&#xff0c;返回 false 。 回文数 是指正序&#xff08;从左向右&#xff09;和倒序&#xff08;从右向左&#xff09;读都是一样的整…

使用 Tauri 2 + Next.js 开发跨平台桌面应用实践:Singbox GUI 实践

Singbox GUI 实践 最近用 Tauri Next.js 做了个项目 - Singbox GUI&#xff0c;是个给 sing-box 用的图形界面工具。支持 Windows、Linux 和 macOS。作为第一次接触这两个框架的新手&#xff0c;感觉收获还蛮多的&#xff0c;今天来分享下开发过程中的一些经验~ 为啥要做这个…