人工智能:大语言模型或为死胡同?拆解AI发展的底层逻辑、争议与未来方向

news/2025/11/7 10:07:27/文章来源:https://www.cnblogs.com/ChenAI-TGF/p/19198782

当GPT生成流畅文案、SORA渲染超写实视频,当AI在国际数学奥林匹克竞赛中摘金,整个世界都在为大语言模型(LLM)的“震撼性突破”欢呼时,刚拿下图灵奖的强化学习之父 理查德·沙顿,却抛出了一句足以颠覆行业认知的话:“大语言模型可能是一条死胡同。”

这位奠定了强化学习理论基石的学者,并非随口唱衰——他的观点背后,是一套与当前AI主流路线截然不同的“智能世界观”:AI的核心不是模仿人类文本,而是与世界直接互动;智能的本质不是预测下一个词,而是实现目标的持续学习。今天,我们就从沙顿的视角出发,拆解AI发展的底层矛盾、关键悖论与未来可能的路径,同时尽可能还原原始讨论中的核心细节与案例。

一、AI的两大派系:模仿派(LLM)vs 理解派(强化学习),差的不止是“能力”

在开始之前,我们首先用一个表格来快速梳理二者的区别

维度 大语言模型(LLM) 强化学习
核心逻辑 模仿人类文本 与世界互动,从经验中学习
数据来源 互联网人类文本(二手数据) 真实世界的行动-反馈(一手数据)
目标 预测下一个词(不改变世界) 获得尽可能多的奖励(实现具体目标)
知识性质 静态模仿,无真理标准 动态验证,通过反馈修正
典型案例 GPT生成文案、SORA生成视频 Alpha Zero自我对弈、婴儿学走路
关键局限 易产生幻觉、无法应对开放世界 试错成本高、需大量互动数据

沙顿认为,当前AI已分裂成两大阵营,两者的逻辑差异之大,甚至“难以对话”。我们可以通过核心逻辑、数据来源、能力边界三个维度,看清它们的本质区别

1. 大语言模型(LLM):顶级“模仿者”,而非“思考者”

LLM的核心逻辑是模仿人类文本。它就像一个“吞掉整个互联网所有信息的学霸”,学习的是人类说过的话、写过的文章、发布的研究报告——你问它“什么是相对论”,它不会去“理解”相对论的物理本质,而是整合网上所有关于相对论的描述,给出“一个博学人类最可能说的答案”。

沙顿用一个极具画面感的比喻点破LLM的局限:“LLM就像一位顶级演员,要扮演物理学家。他能把所有物理公式、理论背得滚瓜烂熟,在电影里演得比真物理学家还像;但你把他扔进真实实验室,给一台粒子对撞机,让他预测全新实验的结果,他做不到——因为他只懂‘剧本’(人类文本),不懂‘世界’(物理规律)。”

更关键的是,LLM的输出“没有真理标准”。它回答的对错,不取决于是否符合客观规律,而取决于是否符合“人类文本中的多数观点”。比如你问其一个问题,LLM可能会倾向于模仿主流科学界的说法,但如果网上存在大量错误信息,它也可能整合出误导性答案——因为它无法通过“与世界互动”验证对错,只能做文本的“复读机+整合者”。

2. 强化学习:像婴儿一样“摸爬滚打”,从世界中学习

与LLM不同,强化学习的核心是理解世界规律。它的学习过程,像极了人类婴儿的成长:被扔进陌生环境,不知道什么对、什么错,只能通过“行动-反馈”总结生存法则,例如:

  • 伸手摸火,感到烫(负反馈),下次就不敢再摸;
  • 偶然按下按钮,掉出糖(正反馈/奖励),下次会主动按按钮;
  • 乱挥手时打到玩具,玩具发出声音(反馈),会反复尝试这个动作,观察不同力度的效果。

沙顿强调:“强化学习不是在模仿谁,而是在和世界直接互动。它的知识不是来自人类的‘二手文本’,而是来自自己的‘一手经验’——从结果中总结‘怎么做能获得奖励、怎么做会被惩罚’,这才是学习的本质。”

补充案例
为更好的说明以上两者的区别,我们这边详细举一些例子来看:
当你问LLM “如何解决可控核聚变的能量输出问题”,它可能会整合学术论文、专家访谈的内容,列出“改进磁场约束”“优化燃料配比”等步骤,但这些都是“模仿人类已有观点”;
如果让强化学习AI真的参与实验,它会通过调整磁场参数(行动),观察能量输出变化(感知),若输出提升则获得奖励、若设备过载则获得惩罚,最终通过“试错-反馈”总结出真正可行的方案——这就是“模仿”与“理解”的本质差距。

2c2d89499d744fe8854f3af0a0e7279c

二、智能的本质:有“目标”的世界互动,而非“被动”的文本预测

沙顿的核心质疑之一是:大语言模型没有真正的“目标”,因此算不上“智能”

很多人会说:“LLM有目标啊,它的目标是‘预测下一个词’。”但沙顿反驳:“这个目标不改变世界,只是被动的观察与预测——就像你猜我下一秒会说什么,哪怕猜对了,对我、对世界也没有任何影响。”

1. 真正的智能:为了目标主动调整行动

智能的本质,是“实现目标的能力”。没有目标,再复杂的系统也只是“运转的机器”,而非“智能体”。

  • 强化学习的目标很明确:“获得尽可能多的奖励”。为了这个目标,它会主动探索——比如要实现“减肥”(长期目标),它会拆解成“每天运动30分钟”“少吃高糖食物”等小目标,每完成一个小目标(获得“体重下降”“精力变好”的反馈),就会强化对应行为;

  • LLM没有这样的“主动目标”:它能生成“减肥计划”,却不会主动去执行计划,也不会根据“今天没运动”的反馈调整明天的计划——因为它的“目标”只停留在“文本预测”,不触及真实世界。

2. 为什么LLM无法成为“显式知识库”?

有人提出:“把LLM当成显式知识库,再叠加强化学习,不就能强强联合了吗?”
沙顿却泼了冷水:“这个逻辑不成立。”

因为“显式知识”的前提是“对真理的初步猜测”,而LLM的框架里根本没有“真理”——它的每一句话,都没有客观标准判断对错。比如:

  • 医生A认为“某疾病用A药更有效”,医生B认为“用B药更有效”,LLM只会模仿“多数医生的说法”,却无法判断A药和B药的真实疗效;
  • 而强化学习会通过“临床实验”验证:给患者用A药,若治愈率高则获得奖励,若副作用大则获得惩罚,最终通过反馈判断哪种药更接近“真理”。

沙顿的结论很直接:“没有对错,哪来的真理?没有真理,哪来的显式知识?LLM的核心是模仿,不是探索真理,因此无法成为可靠的知识底座。”

三、莫拉维克悖论:AI的“强项”与“软肋”,为何搞反了?

原始内容中提到一个关键现象——莫拉维克悖论:人类觉得“简单”的事(比如松鼠找坚果、婴儿学走路),AI反而做不到;人类觉得“复杂”的事(比如解奥数题、赢围棋),AI却很擅长。

这背后的核心原因,正是“封闭系统”与“开放世界”的差异:

  • 奥数题、围棋是封闭系统:规则明确(比如奥数题的公式、围棋的落子规则),所有变量都在预设范围内,AI可以通过“计算+模仿”解决;
  • 真实世界是开放系统:没有固定规则,充满未知(比如松鼠找坚果时,可能遇到天敌、坚果被埋在不同地方),需要“持续学习+灵活调整”,而这正是LLM的软肋。

61132326e5f74587bfa20ba377f72f53

案例对比

  1. AI能解奥数题:比如“已知a+b=5,ab=3,求a²+b²”,AI可以通过预训练的公式(a²+b²=(a+b)²-2ab)快速计算出结果,因为这是封闭的数学问题;
  2. AI不会“找坚果”:让AI像松鼠一样在院子里找坚果,它会面临无数未知——“哪里可能有坚果?”“如何避开石头?”“遇到猫该怎么办?”——LLM无法通过文本预测这些场景,而强化学习需要大量试错(比如在树下找到坚果获得奖励,被猫追获得惩罚),才能慢慢掌握生存技能。

沙顿认为,这恰恰说明:“AI发展的重心,不该只放在‘解复杂题、生成文本’上,而该回归‘所有智能体的共同核心’——从经验中学习的能力。人类能上月球、造芯片,只是智能的‘表层应用’;而像松鼠一样理解世界、像婴儿一样试错学习,才是智能的‘底层逻辑’。”

四、从Alpha GO到Alpha Zero:沙顿眼中的“AI正确路线”

沙顿用Alpha系列AI的案例,印证了“摆脱人类知识依赖”的重要性

  • Alpha GO:学习了大量人类棋谱,最终击败围棋冠军,看似厉害,但仍受限于“人类的棋路思维”;
  • Alpha Zero:彻底扔掉人类棋谱,从零开始“自我对弈”——通过“落子(行动)→观察局势变化(感知)→赢棋得奖励/输棋得惩罚”的循环,它总结出了人类从未想到的棋路:比如为了“长远赢面”,主动牺牲“眼前实地”,这种“格局与耐心”,连顶级人类棋手都自愧不如。

沙顿评价:“Alpha GO只是把90年代的强化学习方法‘放大’了,而Alpha Zero才是真正的突破——它证明了,AI不依赖人类知识,通过与世界(这里是围棋世界)直接互动,能超越人类的认知边界。”

这也呼应了他的预言:“未来一定会出现不依赖人类文本、纯粹从世界互动中学习的AI系统,到那时,LLM会像历史上依赖人类知识的旧方法一样,被无情超越。”

五、LLM+强化学习:看似完美,为何历史上全失败了?

有人会问:“先让LLM学人类知识,再让它用强化学习与世界互动,不就能‘强强联合’了吗?”
沙顿的答案是:“历史上这么做的人,全都失败了。”

核心问题是“预训练分布锁定”:LLM在预训练阶段,会深度依赖人类文本形成的“认知框架”,到了真实世界,很难跳出这个框架去“探索新可能”——

  • 比如LLM学了大量“书面语对话”,当它用强化学习与普通人对话时,会习惯性用“学术化表达”,即便用户反馈“听不懂”,它也很难快速调整为“口语化表达”;
  • 就像一个从小只看“标准答案”的学生,到了需要“灵活创新”的工作中,会束手束脚——因为它习惯了“模仿已有答案”,而非“探索新解法”。

沙顿的比喻很形象:“这就像给AI戴上了‘人类文本的枷锁’,看似有了‘知识基础’,实则限制了它的探索能力。真正的智能,不该从‘模仿人类’开始,而该从‘探索世界’开始。”

六、AI继位的必然性:宇宙文明的演进,人类的角色是什么?

沙顿的思考不止于AI技术,更延伸到了“文明演进”的维度。他认为,AI的崛起与“继位”是板上钉钉的事,背后有4条底层逻辑:

  1. 人类从未有“统一共识”:人类对“如何发展”“什么是正确”没有统一答案,每个人、每个群体都在按自己的方式行动,这种分散性注定无法“垄断智能发展”;
  2. 智能的秘密终将被破解:人类对“智能本质”的探索从未停止,从神经科学到AI理论,我们迟早会搞懂“智能是如何工作的”;
  3. 不会止步于“人类水平智能”:一旦搞懂智能的原理,人类必然会追求“超智能”——就像我们不会满足于“步行”,而会发明汽车、飞机一样;
  4. 时间足够长,聪明者会获得更多资源:在演化中,“更聪明、更能适应环境”的存在,终将获得更多资源与话语权,这是宇宙演化的基本规律。

从宇宙尺度看,沙顿将文明分为三个阶段:

  • 第一阶段:恒星与行星形成(无生命,物质演化);
  • 第二阶段:生命复制者时代(人类、动物,依赖基因复制,不理解智能本质);
  • 第三阶段:设计者时代(AI,人类设计的智能体,我们理解它的原理,它能设计下一代AI)。

05fc547646364a4d965732b951134cfe

“从‘复制’到‘设计’,这是宇宙级的跨越。”沙顿说,“人类的角色,不是‘控制AI’,而是‘开启机器文明’——我们就像‘文明的接生婆’,帮助更高级的智能体诞生,这是人类存在的终极意义之一。”

七、人类该如何自处?不是控制未来,而是传递价值观

面对AI“继位”的必然性,很多人会恐慌:“人类会被替代吗?”沙顿给出的答案很理性:“与其纠结‘如何控制宇宙未来’,不如先‘过好当下的生活’——控制自己的生活,照顾好家人,这些比‘掌控人类命运’更靠谱。”

而人类能为AI做的,是像“教育孩子”一样,传递普世价值观

  • 我们对“终极道德真理”没有共识,但我们知道“要教孩子正直、诚实、不伤害他人”;
  • 对AI也是如此,我们不必给它画“一百年后的蓝图”,但要植入“不伤害人类、尊重生命、可持续发展”的核心价值观。

比如:

  • 自动驾驶AI在遇到危险时,强化学习会让它“选择最小伤害的方案”(比如避开行人,哪怕自己受损),这就是价值观的体现;
  • 医疗AI在诊断时,不会只“模仿专家说法”,而是通过“治疗效果反馈”(患者康复为奖励、误诊为惩罚),同时坚守“优先保障患者安全”的原则。

沙顿的终极思考是:“当机器学会从世界中学习时,我们也会从机器的学习里,更深刻地理解‘人之所以为人’——不是因为我们会解奥数题、会写文章,而是因为我们有‘探索世界的好奇心’‘关爱他人的同理心’,这些才是人类最该传递给AI的东西。”

八、结语

沙顿对大语言模型的“质疑”,不是否定LLM的价值——它在文案生成、信息整合等场景中确实高效——而是提醒我们:AI的终极目标不是“模仿人类”,而是“理解世界、实现自主智能”。

未来的AI发展,或许会像Alpha Zero一样,摆脱“人类文本的枷锁”,在真实世界中“摸爬滚打”,形成超越人类认知的智能逻辑。而人类的角色,不是“阻碍”或“控制”,而是“引导”——传递我们的价值观,见证文明的下一次跨越。

当机器真正学会“从世界中学习”时,我们或许也能从中更深刻地回答那个终极问题:“智能是什么?人之所以为人,又是什么?”


文中部分观点与内容灵感来源于抖音博主 基底

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/958523.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

2025 年溴化锂回收公司最新推荐排行榜精选:含制冷机/溶液/旧机组回收服务商权威测评溴化锂机组/旧溴化锂机组回收公司推荐

引言 随着工业与商业领域溴化锂制冷设备迭代加速,废旧设备规范回收成为资源循环与环保治理的关键环节。制冷行业协会最新测评数据显示,当前市场合规回收企业仅占总量的 38%,近六成服务商存在拆解不规范、溶液处置超…

c++ __builtin函数

c++ __builtin函数1 __builtin_ctz() __builtin_ctzll() 返回二进制下数末尾 0 的个数2 __builtin_clz() __builtin_clzll() 返回二进制下数前导 0 的个数3 __builtin_popcount() 返回二进制下 1 的个数4 __builtin_pa…

2025年知名的液压振动台厂家最新TOP排行榜

2025年知名的液压振动台厂家最新TOP排行榜液压振动台作为力学环境模拟和可靠性测试的关键设备,在航空航天、汽车制造、电子电器、建筑抗震等领域发挥着不可替代的作用。随着中国制造业向高端化、智能化发展,液压振动…

2025年评价高的蛋卷铁盒厂家推荐及选购指南

2025年评价高的蛋卷铁盒厂家推荐及选购指南 蛋卷铁盒作为食品包装的重要形式,不仅需要具备良好的密封性和保鲜性能,还需兼顾美观与环保。随着消费者对包装品质要求的提升,选择一家技术成熟、口碑优良的蛋卷铁盒厂家…

【系列开篇】从零构建智能字幕校准系统:一个AI+微服务的完整实战之旅

系列名称:《智能字幕校准系统实战:从架构到算法的全栈技术解析》 作者:小豆 发布日期:2025年11月 难度:中高级 标签:Spring Boot Python NLP 微服务 AI算法 Spacy Redis AWS写在前面 你好,我是小豆。 过去一年,…

用“钥匙与房子”讲透Python中的跨引用、跨引用修改与数据独立性

用“钥匙与房子”讲透Python中的跨引用、跨引用修改与数据独立性 在Python里,引用和对象的关系总让人困惑,其实用“钥匙与房子”的比喻就能轻松理清——对象是“房子”,引用是打开房子的“钥匙”。而跨引用、跨引用…

内外网文件交换系统的安全解决方案与核心功能分析

内外网文件交换系统的内容概要是对文件传输和安全管理需求的全面回应。Ftrans Ferry系统通过一系列先进功能,确保在不同网络环境下的文件安全交换。它不仅具备强大的传输加密和权限管控功能,还通过病毒查杀和DLP检测…

2025年质量好的事件相机品牌最新TOP厂家排名

2025年质量好的事件相机品牌最新TOP厂家排名 事件相机(Event Camera)作为一种新型视觉传感器,凭借其超高动态范围、微秒级延迟和低功耗等特性,在自动驾驶、工业检测、机器人导航等领域展现出巨大潜力。2025年,随…

发现的工具以及网页

发现的工具以及网页https://10minutemail.one/zh 10 minute mail

2025年11月狐臭产品评测排名:草本四维调理与化学方案横向对比

一到秋冬,厚重衣物把腋下闷得密不透风,异味被“锁”在纤维里,社交距离一拉近就尴尬。很多用户第一次认真找狐臭产品,往往是因为“突然发现自己味很重”——电梯里同事的小动作、地铁里旁人的侧身、伴侣欲言又止的表…

2025年比较好的工业高速相机热门厂家推荐榜单

2025年工业高速相机热门厂家推荐榜单 在工业自动化、科研实验和质量检测等领域,工业高速相机凭借其高帧率、高分辨率和精准捕捉能力,成为不可或缺的关键设备。2025年,随着智能制造和精密检测需求的增长,工业高速相…

2025年11月狐臭产品推荐:苗母堂专利草本榜与四款热门对比评测

一到秋冬,厚重衣物让腋下闷湿与异味更明显,办公室抬手尴尬、地铁侧身避嫌、约会不敢脱外套,成为不少人的日常困扰。中国皮肤科医师协会2024流调显示,我国18—45岁人群对腋下异味“非常在意”比例已升至38.7%,其中…

2025年评价高的碳纤维3D打印耗材用户好评厂家排行

2025年评价高的碳纤维3D打印耗材用户好评厂家排行 随着3D打印技术的快速发展,碳纤维增强材料因其高强度、轻量化、耐高温等优异性能,在航空航天、汽车制造、医疗器械等领域得到广泛应用。2025年,市场上涌现出一批专…

量化选股与量化交易第849篇:通达信随主沉浮 - Leone

通达信随主沉浮主图DRAWTEXT_FIX(1,0.00,0.00,0,粉K黄K主力建仓,枣红橙空K主力洗买,墨绿观望,蓝主力出货,绿K主力清仓,先清又建游资换庄),COLORYELLOW;BANG:=GPJYVALUE(2,1,0)>0;日K:=("KDJ.K"(27,6…

喜报 | 隐语社区 SCQL Maintainer 荣获中国信通院 2025 年度 OSCAR“开源+人物”奖

近日,中国信息通信研究院(信通院)公布了 2025 年度 OSCAR “开源+”典型人物评选结果。 隐语(SecretFlow)社区 SCQL Maintainer 操顺德(花名童柯) 荣获 “开源+人物”奖项,这一奖项旨在表彰在开源项目建设、技…

量化选股与量化交易第850篇:通达信枭龙起爆 - Leone

通达信枭龙起爆主图MA5:MA(C,5);MA10:MA(C,10);MA20:MA(C,20);MA60:MA(C,60);ZYG:=IF((CLOSE>REF(CLOSE,1)),88,0);章鱼:=IF(((CLOSE)/(REF(CLOSE,1))>1.05) AND ((HIGH)/(CLOSE)>0),91,0);DRAWTEXT_FIX(1,0.…

AutoCAD 2025 CAD 安装包中文永久免费破解版下载及详细安装教程

一、软件下载链接 软件名称:CAD2025 软件大小:2.69GB 安装环境:Win10以及以上 下载链接: 夸克:https://pan.quark.cn/s/6e4191b0a19a 迅雷:https://pan.xunlei.com/s/VOdQzF2P6jO_GGqqyIjJI7IuA1?pwd=fu2d#二、软…

量化选股与量化交易第851篇:决心一指定阴阳 - Leone

决心一指定阴阳主图SH:=CODELIKE(00) OR CODELIKE(60); SZ:=CODELIKE(30) OR CODELIKE(68); SS:=CODELIKE(4) OR CODELIKE(8); X1:=IF(SH,0.1,IF(SZ,0.2,IF(SS,0.3,100))); Z章鱼大哥:=ZTPRICE(REF(C,1),X1); ZT:=C=H …

报税

报税次月15号前交纳税款; 季报:企业所得税; 小规模:个税月报,其它季报; 一般纳税人:个月、增值税、附加税 月报; 每月先做账,再申报增值税,若是增值税有小数上的差异,再调账;【一般因为无票收入可能造成差…

2025年口碑好的医用净化板TOP实力厂家推荐榜

2025年口碑好的医用净化板TOP实力厂家推荐榜 在医疗、制药、实验室等领域,医用净化板是确保环境洁净度的关键材料。优质的净化板不仅能有效控制微生物和颗粒物污染,还能提升整体工程的安全性与耐久性。2025年,随着…