小了 60,500 倍,但更强;AI 的“深度诅咒”

作者:Ignacio de Gregorio

图片来自 Unsplash 的 Bahnijit Barman

几周前,我们看到 Anthropic 尝试训练 Claude 去通关宝可梦。模型是有点进展,但离真正通关还差得远。

但现在,一个独立的小团队用一个只有一千万参数的模型通关了宝可梦,比主流前沿 AI 模型小了几千倍。

举个例子,它比最先进的 DeepSeek V3 模型小了 60,500 倍。

但这怎么可能呢?这么小的模型怎么能比所谓的“前沿模型”表现得还好?难道 AI 实验室的钱都打水漂了吗?

答案是:深度诅咒。这是一个很有意思的现象,任何想了解 AI 中最反直觉的问题之一,以及业界打造 AGI 最靠谱路径的人,都值得看看。

训练 AI 处理长线任务

这个小模型是通过强化学习算法(Reinforcement Learning,简称 RL)训练出来的。就像我以前说过很多次的,这个技术就是给 AI 一个目标和一些约束条件,让它学会一套能达成目标的行动策略。

但这次我想聚焦在三件事上:

  1. 为什么 RL 和过去两年我们用大语言模型(LLM)做的事不一样,
  2. 为什么它对于推动 AI 到新高度至关重要,
  3. 还有,为什么这么小的模型能打败大块头们?

我们来深入看看。

从模仿到探索

如果我们看看 AI 的最前沿,有两种主要的训练范式:模仿学习和探索学习。

模仿学习顾名思义就是让模型模仿它的训练数据。通过这种模仿,模型能识别出数据中的底层模式,然后学着去模仿它们。

在 LLM 的情况下,这个训练过程叫做“预训练”,模型会被暴露在互联网级别的大数据集上,它要学会如何模仿这些内容(当然我们也会加些小技巧,让模型在推理阶段生成相似的内容,而不是一模一样的句子;不然它就只是个数据库了)。

模仿学习在让 AI 行为像人方面非常优秀,而且在我们手上有大量可供模仿的数据时,是最佳选择。

但它也会促进记忆式的训练(说到底,就是让模型模仿数据嘛),这也解释了为什么 LLM 的表现主要依赖于它们的记忆能力,而不是真正的智能。

也就是说,模仿学习终究是有上限的。因为有很多应用场景,我们希望 AI 能处理的,恰恰卡在两个问题上:

  1. 我们没那么多数据给它模仿;
  2. 我们也不想让它去“模仿”,尤其是那种背诵式的,而是要它“真正推理”。

说到这,举个最好的例子就是:推理类任务。

AI 推理的科学

首先,推理类数据(就是人类会明确写出他们怎么推理的过程)非常少。再者,前面说过了,我们不希望 AI 是模仿,我们希望它“跳出框框”,或者更准确地说,在记忆不起作用的时候,探索出不同的解决方式。

基本上我在讲的就是为什么普通的非推理类 LLM 在推理任务上很拉胯——它们不是被训练来“推理”的,而是训练来“复读”的,所以它们只能“执行”它们记住的任务,本质上就是死记硬背而不是逻辑思考。

换句话说,有些任务是需要探索的,就像你也不是每道数学题都能一眼解出来。但是你有那个直觉——数学的“先验知识”——你能通过尝试去探索直到找到答案。

所以最近我们就把一个探索阶段,也就是 RL 阶段,加到了 LLM 上面,让它们去“探索”。

那这到底是怎么工作的?

理解推理训练

探索训练的基本思路就是让模型输出不同的答案,然后我们在训练时实时给予反馈,看哪个答案好,哪个不好。这样模型就能学会什么行为会带来好结果,什么不会。

你可以把这个训练想象成“热还是冷”游戏:我们告诉模型“热”或者“冷”,这样它就能一步步靠近目标(当然实际比这复杂多了,但基本逻辑就是这样)。在实际操作中,这就变成了大规模的试错游戏。

第一个真正用上探索训练的 LLM 是 DeepSeek R1(可能 o3 更早,但他们后来才承认)。

可以想象,这个方法极大地提高了 AI 在推理任务上的表现,于是我们才有了所谓的“推理模型”,像前面提到的 OpenAI 的 o1/o3 或 DeepSeek 的 R1。

在 LLM 的世界里,这种探索训练让模型发展出了推理技巧,比如反思(模型能反省自己的“想法”)、回溯(模型承认错误并自行纠正)等等。

通俗点说,就是靠“蛮力”试错,模型学会了怎么最有效地解决问题。这也是为什么 DeepSeek 的结果被认为是重大突破。

在 DeepSeek/OpenAI 出现之前,我们所谓的 RL 其实只是“人类反馈的强化学习”(RLHF),就是模型在两个选项中学会挑出更合适的那个,以此符合工程师希望的行为。但这当中没有探索,所以其实说是 RL 有点名不副实。

注意:大多数实验室现在仍然会用 RLHF,但只是作为进入“真正 RL”前的一个阶段。

总结一下,现在这些前沿推理模型的训练流程分两个步骤:

  1. 通过模仿学习把知识“塞进”模型,造出一个非推理模型(也就是传统的 LLM);
  2. 然后基于这个“认知基础”(或者说是直觉引擎,毕竟这个模型对问题处理还是有点直觉的),我们跑一轮探索训练,让它靠这些直觉去探索、去学会推理,最终造出一个推理模型。

如果这样理解更容易,那你可以把“推理”看作:直觉(内置知识和经验)+ 搜索。

换句话说,推理 = 直觉驱动的探索

说清楚 RL 在现在 AI 世界的重要性之后,我们还没回答这个问题:

一个小得不能再小的纯 RL 模型,怎么能打败用 RL 训练过的、像 Claude 3.7 Sonnet 这样的推理 LLM

广度 vs 深度

几十年来,AI 一直在“广”与“深”之间拉扯。

  • LLM 是“广”的代表。它们是超大规模的模型,被喂进各种你能找到的数据,目标是实现泛化,也就是在没见过的数据任务上也能表现不错。
  • 相对的,像 AlphaGo/AlphaZero 或这次的宝可梦模型,就是“深”的代表。它们只用 RL 训练,而且只聚焦在一个任务上。

在“基础模型”出现之前(它们之所以被叫这个名字就是这个原因),AI 一直是“深”的游戏:每个模型只专注一个任务。

而如今,大部分资金都砸在“广”的模型上。为什么?这样做有什么代价?

你大概已经猜到了,答案就是:AGI(通用人工智能)之梦

主流观点是,超级智能的 AI 应该是通用的。不需要它对每个任务都训练得很深入(这也不现实),但它应该有一套足够好的“先验知识”,能在没训练的任务上也有 decent 的表现。

有趣的是,虽然这个观点没错(也确实有证据,比如 AlphaZero 在多个棋类游戏上都超过了专精模型),但超级 AI 的表现却反着来。

人类历史上所有达到“超人水平”的 AI(就是远远超越人类的)全是单任务模型,比如 AlphaGo(围棋)。

而到目前为止,没有一个“广”的模型,在任何一个任务上做到超人。

这就解释了为什么我们今天讨论的这个宝可梦模型,虽然比 SOTA 小了四个数量级,却轻松打爆它们:

这个模型放弃了“广”,换来了在一个任务上的极致表现。

换句话说,它小巧、灵活,只专注一个任务,所以才能练出这个任务的终极能力,甚至反过来打败“全能型”的选手。它靠的是“开挂式”的探索学习。

这又意味着什么?

不像 LLM,因为太贵,无法让它们跑非常长时间的探索来找最优策略;小模型恰好相反:它可能在多个任务上都拉,但在那个唯一训练过的任务上,它能打出神级表现。

总结一句话,这个小团队之所以能训练出一个能打爆主流模型的宝可梦 AI,就是因为虽然我们知道 RL 很强,但我们还没学会怎么在“基础模型”上正确地跑 RL。

这能不能做到、能不能把 RL 训练应用到大模型上,就是现在所有顶级 AI 实验室都在努力搞清楚的问题。

所以,RL 是答案吗?

这项研究看起来可能有点泄气:

  • 我们 AI 的路是不是走错了?
  • 是不是在大模型上烧钱没意义?
  • AGI 是不是应该由一堆小的、单任务的模型组成?

我能理解你有这些想法,但我其实恰恰相反地看:

这又一次证明了 RL 是有效的,我们只需要找到方法,把它扩展到更大规模上。

如果我们能在 LLM 的基础上跑出纯 RL,那我们可能就找到了通往新时代 AI 的路:不再是“模仿”智能,而是真正拥有某种程度的“智能”。

这会不会把 AI 推向真正的智能?我们希望如此,但也不能确定。不过这是我们唯一已知的靠谱赌注,那就只能希望它能成功了。

但我们现在搞清楚怎么让这一步发生了吗?没有,那些被吹成“博士水平”的 LLM 连井字棋都玩不好。

总的来说,本文最重要的 takeaway 是:RL,或者说探索学习,依然是唯一一个在某些情况下能做到“超人表现”的方法。

虽然手段不同、技术各异,但从基本原理上看,所有 AI 实验室走的其实是一条路:直觉驱动的搜索

你只需要知道这一点,就能明白现在前沿 AI 的真相。他们全都在玩同一个游戏。

剩下的,就只是工程和资本分配而已。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/74183.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

nextjs使用02

并行路由 同一个页面,放多个路由,, 目录前面加,layout中可以当作插槽引入 import React from "react";function layout({children,notifications,user}:{children:React.ReactNode,notifications:React.ReactNode,user:React.Re…

github 无法在shell里链接

当我在shell端git push时,我发现总是22 timeout的问题。 我就进行了以下步骤的尝试并最终得到了解决。 第一步,我先确定我可以curl github,也就是我网络没问题 curl -v https://github.com 如果这个时候不超时和报错,说明网络…

当前主流的大模型知识库软件对比分析

以下是当前主流的大模型知识库软件对比分析,涵盖功能特性、适用场景及优劣势,结合最新技术动态和行业实践提供深度选型参考: 一、企业级智能知识库平台 1. 阿里云百炼(Model Studio) 核心能力:基于RAG技…

Java的比较器 Comparable 和 Comparator

在 Java 中,Comparable 和 Comparator 是用于对象排序的重要接口。它们提供了不同的排序方式,适用于不同的需求,同时在 Java 底层排序算法中发挥着关键作用。本文将从基础概念、使用方法、排序实现(包括升序、降序)、底…

基于Qlearning强化学习的太赫兹信道信号检测与识别matlab仿真

目录 1.算法仿真效果 2.算法涉及理论知识概要 2.1 太赫兹信道特性 2.2 Q-learning强化学习基础 2.3 基于Q-learning 的太赫兹信道信号检测与识别系统 3.MATLAB核心程序 4.完整算法代码文件获得 1.算法仿真效果 matlab2024b仿真结果如下(完整代码运行后无水印…

力扣刷题————199.二叉树的右视图

给定一个二叉树的 根节点 root,想象自己站在它的右侧,按照从顶部到底部的顺序,返回从右侧所能看到的节点值。 示例 1: 输入:root [1,2,3,null,5,null,4] 输出:[1,3,4] 解题思路:我们可以想到这…

文件包含漏洞的小点总结

文件本地与远程包含: 文件包含有本地包含与远程包含的区别:本地包含只能包含服务器已经有的问题; 远程包含可以包含一切网络上的文件。 本地包含: ①无限制 感受一下使用phpstudy的文件上传,开启phpstudy的apache…

深度学习处理时间序列(5)

Keras中的循环层 上面的NumPy简单实现对应一个实际的Keras层—SimpleRNN层。不过,二者有一点小区别:SimpleRNN层能够像其他Keras层一样处理序列批量,而不是像NumPy示例中的那样只能处理单个序列。也就是说,它接收形状为(batch_si…

操作系统相关知识点

操作系统在进行线程切换时需要进行哪些动作? 保存当前线程的上下文 保存寄存器状态、保存栈信息。 调度器选择下一个线程 调度算法决策:根据策略(如轮转、优先级、公平共享)从就绪队列选择目标线程。 处理优先级:实时…

从0到1:Rust 如何用 FFmpeg 和 OpenGL 打造硬核视频特效

引言:视频特效开发的痛点,你中了几个? 视频特效如今无处不在:短视频平台的滤镜美化、直播间的实时美颜、影视后期的电影级调色,甚至 AI 生成内容的动态效果。无论是个人开发者还是团队,视频特效都成了吸引…

【并发编程 | 第一篇】线程相关基础知识

1.并发和并行有什么区别 并发是指多核CPU上的多任务处理,多个任务在同一时刻真正同时执行。 并行是指单核CPU上的多任务处理,多个任务在同一时间段内交替执行,通过时间片轮转实现交替执行,用于解决IO密集型瓶颈。 如何理解线程安…

Kafka 偏移量

在 Apache Kafka 中,偏移量(Offset)是一个非常重要的概念。它不仅用于标识消息的位置,还在多种场景中发挥关键作用。本文将详细介绍 Kafka 偏移量的核心概念及其使用场景。 一、偏移量的核心概念 1. 定义 偏移量是一个非负整数…

18.redis基本操作

Redis(Remote Dictionary Server)是一个开源的、高性能的键值对(Key-Value)存储数据库,广泛应用于缓存、消息队列、实时分析等场景。它以其极高的读写速度、丰富的数据结构和灵活的应用方式而受到开发者的青睐。 Redis 的主要特点 ​高性能: ​内存存储:Redis 将所有数…

历年跨链合约恶意交易详解(一)——THORChain退款逻辑漏洞

漏洞合约函数 function returnVaultAssets(address router, address payable asgard, Coin[] memory coins, string memory memo) public payable {if (router address(this)){for(uint i 0; i < coins.length; i){_adjustAllowances(asgard, coins[i].asset, coins[i].a…

通俗易懂的讲解SpringBean生命周期

&#x1f4d5;我是廖志伟&#xff0c;一名Java开发工程师、《Java项目实战——深入理解大型互联网企业通用技术》&#xff08;基础篇&#xff09;、&#xff08;进阶篇&#xff09;、&#xff08;架构篇&#xff09;清华大学出版社签约作家、Java领域优质创作者、CSDN博客专家、…

深入理解 `git pull --rebase` 与 `--allow-unrelated-histories`:区别、原理与实战指南

&#x1f680; git pull --rebase vs --allow-unrelated-histories 全面解析 在日常使用 Git 时&#xff0c;我们经常遇到两种拉取远程代码的方式&#xff1a;git pull --rebase 和 git pull --allow-unrelated-histories。它们的区别是什么&#xff1f;各自适用哪些场景&…

Matlab_Simulink中导入CSV数据与仿真实现方法

前言 在Simulink仿真中&#xff0c;常需将外部数据&#xff08;如CSV文件或MATLAB工作空间变量&#xff09;作为输入信号驱动模型。本文介绍如何高效导入CSV数据至MATLAB工作空间&#xff0c;并通过From Workspace模块实现数据到Simulink的精确传输&#xff0c;适用于运动控制…

Spring Boot 中 JdbcTemplate 处理枚举类型转换 和 减少数据库连接的方法 的详细说明,包含代码示例和关键要点

以下是 Spring Boot 中 JdbcTemplate 处理枚举类型转换 和 减少数据库连接的方法 的详细说明&#xff0c;包含代码示例和关键要点&#xff1a; 一、JdbcTemplate 处理枚举类型转换 1. 场景说明 假设数据库存储的是枚举的 String 或 int 值&#xff0c;但 Java 实体类使用 enu…

API 安全之认证鉴权

作者&#xff1a;半天 前言 API 作为企业的重要数字资源&#xff0c;在给企业带来巨大便利的同时也带来了新的安全问题&#xff0c;一旦被攻击可能导致数据泄漏重大安全问题&#xff0c;从而给企业的业务发展带来极大的安全风险。正是在这样的背景下&#xff0c;OpenAPI 规范…

MATLAB绘图配色包说明

本栏目将分享MATLAB数据分析图表&#xff0c;该贴讲述配色包的使用 将配色包colormap_nclCM文件夹添加到路径close all&#xff08;尽量不要删&#xff09;&#xff0c;使用map colormap(nclCM(309))时会多出来一张空白图片。配色资源来自slandarer&#xff1b;找不到合适颜色…