MIT推出SEAL框架:实现AI自我迭代新突破

news/2025/10/20 7:01:45/文章来源:https://www.cnblogs.com/codeshare1135/p/19151690

MIT推出SEAL框架:实现AI自我迭代新突破

研究背景

AI自我改进概念近期在研究界引发热议,多位知名人士就自进化智能系统未来发表见解。麻省理工学院最新论文《自适应语言模型》提出SEAL框架,使大语言模型能够更新自身权重,被视为实现真正自进化AI的重要进展。

该论文发布后立即引发广泛讨论。SEAL提出了一种方法,让大语言模型通过“自我编辑”生成自己的训练数据,随后基于新输入更新权重。关键在于,这种自我编辑过程通过强化学习习得,奖励机制与更新后模型的下游性能挂钩。

SEAL框架核心原理

SEAL的核心思想是让语言模型在遇到新数据时,通过生成自己的合成数据并通过自我编辑优化参数来实现自我改进。模型的训练目标是直接使用模型上下文提供的数据生成这些自我编辑。

自我编辑的生成通过强化学习实现。当生成的自我编辑应用后能提高目标任务性能时,模型会获得奖励。因此,SEAL可被概念化为具有两个嵌套循环的算法:外层的强化学习循环优化自我编辑的生成,内层的更新循环使用生成的自我编辑通过梯度下降更新模型。

该方法可被视为元学习的一个实例,重点在于如何以元学习方式生成有效的自我编辑。

通用框架设计

SEAL在单个任务实例上运行,其中包含与任务相关的上下文信息和定义下游评估的指标。例如,在知识整合任务中,上下文可能是需要整合到模型内部知识中的段落,而评估指标则是关于该段落的一组问题。

给定上下文后,模型生成自我编辑,然后通过监督微调更新其参数。强化学习用于优化这种自我编辑生成:模型执行动作,根据更新后模型在评估指标上的表现获得奖励,并更新其策略以最大化预期奖励。

研究人员发现传统的在线策略方法会导致训练不稳定,最终选择了某机构论文中提出的基于过滤的行为克隆方法。该方法可被视为期望最大化过程,其中E步从当前模型策略中采样候选输出,M步仅通过监督微调强化那些产生正奖励的样本。

论文还指出,虽然当前实现使用单一模型生成和学习自我编辑,但这些角色可以在“教师-学生”设置中分离。

具体领域应用

研究团队在两个特定领域实例化了SEAL:知识整合和少样本学习。

知识整合:目标是将文章信息有效整合到模型权重中。
少样本学习:涉及模型使用极少示例适应新任务。

实验结果

少样本学习和知识整合的实验结果都证明了SEAL框架的有效性。

在少样本学习中,使用Llama-3.2-1B-Instruct模型时,SEAL显著提高了适应成功率,达到72.5%,而使用基本自我编辑无强化学习的模型为20%,无适应的模型为0%。虽然仍低于理想基准,但这显示了重大进展。

在知识整合中,使用更大的Qwen2.5-7B模型整合来自SQuAD文章的新事实,SEAL consistently优于基线方法。使用基础模型生成的合成数据进行训练已显示出显著改进,随后的强化学习进一步提升了性能。准确率在外部强化学习迭代中快速提高,通常在两次迭代内就超过使用GPT-4.1生成数据的设置。

论文中的定性示例说明了强化学习如何导致生成更详细的自我编辑,从而提高性能。

局限性与展望

尽管前景广阔,研究人员也承认SEAL框架存在一些局限性,包括灾难性遗忘、计算开销和上下文相关评估等方面。这些在原始论文中有详细讨论。

原始论文:https://arxiv.org/pdf/2506.10943
项目网站:https://jyopari.github.io/posts/seal
GitHub仓库:https://github.com/Continual-Intelligence/SEAL
更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)或者 我的个人博客 https://blog.qife122.com/
对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号(网络安全技术点滴分享)

公众号二维码

公众号二维码

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/940741.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

2025.10.20+7[未完]

2025.10.20 Week 笔记

k8s api server

Experiencing kube-apiserver response times exceeding 3 seconds is a critical performance issue that can impact cluster stability and reliability. This is often caused by high request loads, resource co…

读人形机器人32读后总结与感想兼导读

读人形机器人32读后总结与感想兼导读1. 基本信息 人形机器人[加]李向明 著中信出版集团,2025年07月出版1.1. 读薄率 书籍总字数23.6万字,笔记总字数115967字。 读薄率115967236000≈49.14% 1.2. 读厚方向当我点击时,…

在AI技术唾手可得的时代,挖掘新需求成为核心竞争力——某知名知识管理工具生态需求洞察

本文深入分析某知名知识管理工具的生态系统,涵盖主题定制、插件扩展、模板资源等核心功能,通过用户反馈揭示界面美化、功能增强和内容更新等持续需求,展现社区驱动的产品演进路径。a.内容描述核心功能定位:该项目是…

语音助手减少不必要澄清问题的技术突破

本文介绍了一种通过机器学习模型减少语音助手不必要澄清问题的新方法。该方法结合语音识别、自然语言理解和上下文信号,在实验中使澄清问题的F1分数提高了81%,有效平衡了误报和漏报问题。减少语音助手不必要澄清问题…

CH32V003

这是沁恒开发的RISCV32单片机,48MHz,16K Rom,2K Ram,非常便宜,只需要5毛钱左右(其实py32f002系列更便宜性能更强大,但是老外玩的比较少,资料也少) 官方github:openwch/ch32v003: CH32V003 is an ultra-cheap…

PRISMS Senior Varsity Training 20250922

Problem 1 Find the number of integer values of \(k\) in the closed interval \([-500,500]\) for which the equation \[\log(kx)=2\log(x+2) \]has exactly one real solution. Solution 1 \[\begin{align} \log(…

高级语言:面向过程和面向对象

用一个简单的比喻来帮助你理解:“如何完成一顿饭?” 1. 面向过程 (Procedural Oriented) 核心思想:关注“步骤”和“流程”。 这就像你拿到一份菜谱。你必须严格按照步骤来执行: 第一步:洗菜。 第二步:切菜(把土…

Codeforces Round 1060 (Div. 2)

A. Notelock 题意:一个二进制串,问有多少位置的前\(k-1\)个位置没有\(1\)。 从前往后扫,维护一个可以包含的最右位置就行。点击查看代码 #include <bits/stdc++.h>using i64 = long long;void solve() {int n…

https://img2024.cnblogs.com/blog/3001825/202510/3001825-20251020014716729-439844091.png

用一个简单的比喻来帮助你理解:“如何完成一顿饭?” 1. 面向过程 (Procedural Oriented) 核心思想:关注“步骤”和“流程”。 这就像你拿到一份菜谱。你必须严格按照步骤来执行: 第一步:洗菜。 第二步:切菜(把土…

Luogu P14260 期待(counting) 题解 [ 蓝 ] [ 前缀和 ] [ 组合计数 ]

期待:按照部分分一步一步去想应该是不难出正解的,这题难点应该在于实现上。 看到题感觉不太好直接入手,于是先考虑特殊性质。特殊性质 A 的做法比较神秘,特殊性质 B 就是个骗分的,没啥启发性。 而特殊性质 C 是真…

golang unique包和字符串内部化

最近在做老系统优化,正好遇到了需要使用字符串内部化的场景,所以今天就来说说字符串内部化这种优化技巧。 什么是字符串内部化 熟悉Java或者python的开发者应该对“内部化”这种技术不陌生。内部化指的是对于内容完全…

EasySQLite 升级到.slnx 格式后的性能优化效果解析

一、升级动因与行业趋势 1.1 传统.sln 文件的技术瓶颈 在.NET 开发领域,解决方案文件 (.sln) 长期作为项目管理核心,但二十余年未变的自定义文本格式逐渐显现技术瓶颈。该格式包含大量重复配置信息与 GUID 引用,简单…

mochi-mqtt/server golang mqtt 包

mochi-mqtt/server golang mqtt 包最近在学习nats 的mqtt 能力,默认nats mqtt 的实现是3.1.1 的,同时想着集成nanomq 的bridge 进行桥接实现共享订阅的能力,但是发现有一个兼容的问题,似乎是nanomq 在发送3.1.1 协…

有了异步i/o的话,还需要协程么

1、异步 I/O 和协程区别 这个其实触及了高并发架构的底层原理:“异步 I/O 和协程有什么区别?如果我已经用异步 I/O(如 NIO、Netty、epoll),还需要协程吗?”我们来一步步拆开讲清楚(这题很多人理解偏差)👇一、…

永久暂停window10更新,不想更新到window11

视频:https://www.bilibili.com/video/BV1jsTMz9EUz?t=144.0 饱受自动更新之苦,现提供一个3分钟可以“永久”关闭Windows更新的思路。具体步骤: 1、Win+R,regedit打开注册表编辑器; 2、找到路径HKEY_LOCAL_MACHI…