人工智能究竟是如何思考的

大型语言模型展现出的智能程度是以往软件所无法比拟的。你可以让它解释复杂的主题、改写电子邮件或帮助你理清思路,而它的回答往往听起来冷静、自信且深思熟虑。这自然而然地引出了人们不断追问的问题:人工智能真的在思考吗?

大型语言模型展现出的智能程度是以往软件所无法比拟的。你可以让它解释复杂的主题、改写电子邮件或帮助你理清思路,而它的回答往往听起来冷静、自信且深思熟虑。这自然而然地引出了人们不断追问的问题:人工智能真的在思考吗?

诚实的答案很微妙。这些系统的思维方式与人类不同,但它们所做的事情也远不止于简单地重复记忆的文本。要理解人工智能为何如此人性化,就需要了解这些模型真正接受过哪些训练,以及它们没有接受过哪些训练。

现代人工智能模型的基本原理是训练预测下一个词。在训练过程中,模型会接触大量文本,并反复学习如何回答一个简单的问题:根据目前为止的所有信息,下一个最有可能出现的词是什么?随着时间的推移,这个简单的目标会迫使模型内化语言模式、事实、推理方式,甚至人类解释事物的方式。

这就是为什么“这只是自动补全”的解释既正确又具有误导性。正确之处在于,预测确实是其核心机制。误导之处在于,当预测规模扩展到数万亿个单词和数十亿个参数时,系统会开始构建一些内部结构,这些结构看起来很像概念。并非人类意义上的概念,而是稳定的模式,当模型处理诸如数字、城市、情感或因果关系之类的概念时,这些模式会持续激活。

如果你让模型解决一个多步骤问题,它通常会生成一些类似于推理过程的中间步骤。它可能会定义术语、探索其他方案,或者排除之前的可能性。这一切的发生并非因为模型本身的目标就是给出正确的答案。而是因为在它所训练的数据中,正确的答案往往伴随着连贯的解释链。生成这些解释链会增加后续步骤产生合理结果的概率。

换句话说,推理行为的出现是因为它对预测有用,而不是因为模型知道自己在推理。

这种区别至关重要。人类通过推理得出结论。语言模型之所以生成符合推理逻辑的文本,是因为统计上这种文本能带来更好的自动补全效果。因果关系的方向颠倒了。

如果这听起来有些含糊不清,那么最近的可解释性研究已经开始让这些内部模式显现出来。在Anthropic及其合作者的研究中,研究人员开发了一些工具,可以追踪信息在模型内部的流动方式,类似于生物学家使用显微镜观察活体生物体内的细胞。

我们基于近期研究成果,引入了一套用于识别特征并绘制特征间连接图的新工具——类似于神经科学家绘制大脑的“线路图”。我们大量运用了一种名为归因图的工具,它使我们能够部分追踪模型将特定输入提示转化为输出响应所使用的中间步骤链。

如果将模型的内部活动想象成一种隐藏的计算网络,那么这些归因图就如同图表,展示了模型决定写作内容的主要路径。研究人员甚至用类似于简化电路图的图表来可视化这些路径,其中每个节点代表一个学习到的概念,而边则显示了不同概念如何影响输出。

论文中重点介绍的一个例子涉及基本的地理推理。当给出“事实:达拉斯所在的州的首府是……”这样的提示时,模型会补全为“奥斯汀”。研究人员利用他们的工具表明,在幕后,该模型实际上使用了中间概念步骤来得出这个答案。它首先将“达拉斯”表示为位于“德克萨斯州”,然后以此为基础确定“奥斯汀”是首府,所有这些步骤都发生在最终文本出现之前。

Haiku 用一个“多步骤”图表来完成句子,顺序为达拉斯 → 德克萨斯州 → 奥斯汀。

该模型内部执行真正的两步推理,与快捷推理并存……决定说奥斯汀取决于一系列中间计算步骤。

在研究的另一部分,研究人员发现模型在创作诗歌时表现出惊人的特性。在生成诗歌的每一行之前,模型内部的电路通常会激活潜在的押韵词,并利用这些潜在的押韵目标来构建诗行。本质上,尽管模型的目标函数仅用于预测下一个词,但它却能提前规划下一个词之后的内容。

在开始编写每一行之前,该模型会识别出可能出现在句末的押韵词。这些预先选定的押韵选项随后会影响模型构建整行的方式。

另一项令研究人员感到惊讶的发现是,某些内部模式在不同语言中是共通的。当相同的提示被翻译成不同的语言时,模型内部计算中会激活类似的回路路径。这暗示了该模型使用了一种抽象表征,这种表征并非严格局限于单一的人类语言,而是映射到跨语言共享的概念结构。

我们发现该模型使用了特定于语言的电路和抽象的、与语言无关的电路的混合……与较小、功能较弱的模型相比,Claude 3.5 Haiku 中与语言无关的电路更为突出。

这一切都很重要,因为它有助于解释为什么人工智能的回答在多句话中往往显得连贯一致。当你提出问题时,模型并非盲目猜测下一个词。它通常会运用内部对答案类型的理解,然后将其翻译成类似人类语言的表达方式。

但这并不意味着模型理解了它所表达的意思。一个便于理解的方法是想象一个人读过几乎所有书籍,但却没有任何直接的现实世界经验。这个人或许能够解释悲伤是如何产生的,法律体系是如何运作的,或者一家初创公司应该如何运营,而这一切仅仅是通过对所读内容进行模式匹配来实现的。这种解释或许非常精辟,但仍然是二手信息。

这有助于解释一个常见的误解。人们常常认为,如果一个模型能够始终如一地谈论某个概念,那么它一定像人类一样“拥有”这个概念。实际上,模型学习了一套内部表征,这些表征有助于在合适的语境中使用正确的词语。这些表征可能非常稳定,但它们并非基于经验、意图或理解。

这也是为什么模型有时会显得自信满满,但实际上却可能出错的原因。自信只是文本中的一种模式。模型已经学习到,权威的解释往往遵循某些特定的语言形式。如果这些形式在统计学上是合理的,模型就会使用它们,而不管其背后的内容是否正确。

从这个角度来看,现代人工智能系统的行为就更容易理解了。它们之所以强大,是因为它们能将海量的人类知识压缩成一种可以按需重组的形式。它们的局限性在于,它们缺乏人类用来发现错误、寻求澄清或根据现实世界反馈更新信念的机制。

我认为这种框架比任何极端观点都更有用。这些系统并非意识系统,也与意识相去甚远。但它们也绝非肤浅的技巧。一个单一的训练目标就能产生支持翻译、解释、类似计划的行为和抽象思维的内部结构,这的确令人惊叹。

理解其运作原理并非仅仅是学术探讨,它会影响我们如何负责任地部署这些系统。一旦你不再假设模型“知道”何时正确,你就会开始设计能够验证、约束和巩固其输出的系统。你不再依赖流畅性来判断正确性,而是将其视为一种表面信号。

人工智能本身并不思考。但它所产生的行为与从外部视角观察到的思考方式存在重叠。这种重叠既强大到足以发挥作用,也危险到需要我们谨慎对待。我认为,对于任何想要认真研究这些系统的人来说,同时认识到这两点才是正确的出发点。

如果你想更深入地学习大模型,以下是一些非常有价值的学习资源,这些资源将帮助你从不同角度学习大模型,提升你的实践能力。

一、全套AGI大模型学习路线

AI大模型时代的学习之旅:从基础到前沿,掌握人工智能的核心技能!​

因篇幅有限,仅展示部分资料,需要点击文章最下方名片即可前往获取

二、640套AI大模型报告合集

这套包含640份报告的合集,涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师,还是对AI大模型感兴趣的爱好者,这套报告合集都将为您提供宝贵的信息和启示

因篇幅有限,仅展示部分资料,需要点击文章最下方名片即可前往获取

三、AI大模型经典PDF籍

随着人工智能技术的飞速发展,AI大模型已经成为了当今科技领域的一大热点。这些大型预训练模型,如GPT-3、BERT、XLNet等,以其强大的语言理解和生成能力,正在改变我们对人工智能的认识。 那以下这些PDF籍就是非常不错的学习资源。

因篇幅有限,仅展示部分资料,需要点击文章最下方名片即可前往获取

四、AI大模型商业化落地方案

作为普通人,入局大模型时代需要持续学习和实践,不断提高自己的技能和认知水平,同时也需要有责任感和伦理意识,为人工智能的健康发展贡献力量

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/1155012.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

MAC 地址

MAC 地址 —mac地址基础知识总结 一、什么是 MAC 地址? MAC 地址 网卡的“物理身份证” 工作在 数据链路层(OSI 第 2 层)用来在 同一个局域网内唯一标识设备和 IP 不一样,IP 会变,MAC 基本不变二、MAC 地址长什么样&a…

【开题答辩全过程】以 基于web的拍卖系统设计与实现为例,包含答辩的问题和答案

个人简介一名14年经验的资深毕设内行人,语言擅长Java、php、微信小程序、Python、Golang、安卓Android等开发项目包括大数据、深度学习、网站、小程序、安卓、算法。平常会做一些项目定制化开发、代码讲解、答辩教学、文档编写、也懂一些降重方面的技巧。感谢大家的…

【开题答辩全过程】以 基于Java的校内美食推荐系统的设计与实现为例,包含答辩的问题和答案

个人简介一名14年经验的资深毕设内行人,语言擅长Java、php、微信小程序、Python、Golang、安卓Android等开发项目包括大数据、深度学习、网站、小程序、安卓、算法。平常会做一些项目定制化开发、代码讲解、答辩教学、文档编写、也懂一些降重方面的技巧。感谢大家的…

鸿蒙应用的安全审计与合规检测实战:智能待办的安全防护

🔒 鸿蒙应用的安全审计与合规检测实战:智能待办的安全防护 一、章节概述 ✅ 学习目标 掌握鸿蒙安全审计工具(DevEco Studio Security Analyzer、AGC Security Center、第三方工具)的核心原理落地《全生态智能待办》的安全审计方案…

攻防演练全流程实战指南:红队突破与蓝队防御核心技巧

攻防演练全流程实战指南:红队突破与蓝队防御核心技巧 攻防演练(又称红蓝对抗)是检验企业网络安全防护能力的核心手段,通过“红队模拟攻击、蓝队防御反击”的实战化对抗,暴露企业安全体系的薄弱环节,提升团…

从“大模型”到“好模型”:斯坦福预测2026年AI将迎来“祛魅”分水岭

2026年,不管是计算机科学界的泰斗,还是医学、法学、经济学领域的专家,他们都在强调同一个主题,那就是从“AI能做什么”转向“AI做得有多好、成本如何以及为了谁而做”。2026年将是人工智能从喧嚣的布道期正式迈入冷静评估期的关键…

木马与经典恶意软件深度解析:查杀技术与免杀对抗实战指南

木马与经典恶意软件深度解析:查杀技术与免杀对抗实战指南 在网络安全的攻防对抗中,木马(Trojan Horse) 是最经典、最具代表性的恶意软件之一。它以 “伪装欺骗” 为核心手段,以 “远程控制、数据窃取” 为主要目的&am…

Java实现Html保存为.mhtml文件

功能需求将html字符串保存为.mhtml文件代码实现pom.xml依赖<dependencies><dependency><groupId>org.springframework.boot</groupId><artifactId>spring-boot-starter-web</artifactId></dependency><!-- https://mvnrepository…

3款好玩的台球游戏,玩过的人都说很上头

在移动游戏市场中&#xff0c;台球品类长期被少数热门产品占据流量高地&#xff0c;但许多玩家反馈这些"爆款"存在氪金碾压、广告泛滥、体验割裂等问题。事实上&#xff0c;一些低调运营却用心打磨的台球手游&#xff0c;凭借真实的物理体验、丰富的玩法设计和友好的…

IP 地址解析

“IP 地址解析 / IP 地址详解” —IP地址的基础信息 一、什么是 IP 地址&#xff1f; IP 地址 网络中设备的唯一编号 就像&#xff1a; 手机号 → 找到一个人IP 地址 → 找到一台设备 常见格式&#xff08;IPv4&#xff09;&#xff1a; 192.168.1.100由 **4 个字节&#xff0…

Google DeepMind :RAG 已死,无限上下文是伪命题?RLM 如何用“代码思维”终结 AI 的记忆焦虑

不久前 DeepMind 发布了一篇论文&#xff0c;内容简单说是&#xff1a; RLM&#xff08;Recursive Language Models&#xff09; 不是让模型“硬记”所有内容&#xff0c;而是赋予模型像程序员一样操作数据的能力&#xff0c;让模型在不把超长 prompt 直接塞进 Transformer 的…

AI Agent企业落地避坑指南:7大致命错误,收藏级干货

企业落地AI Agent常面临七大陷阱&#xff1a;需求误判&#xff08;未先优化流程&#xff09;、目标输入不明确、数据处理难题、业务模式局限&#xff08;盲目追求全自动&#xff09;、项目管理缺失、预期与成本误区。AI Agent本质是效率工具&#xff0c;需明确边界&#xff0c;…

制造业企业数据采集系统选型指南:从技术挑战到架构实践

在工业4.0和智能制造浪潮的推动下&#xff0c;数据已成为制造业企业的新型生产要素。然而&#xff0c;许多制造企业仍面临“数据孤岛”困境&#xff1a;生产设备产生的海量数据沉睡在异构系统中&#xff0c;无法转化为有效的决策支持。根据业界调研&#xff0c;超过60%的制造业…

跨境远控无忧,开启高效跨国连接新时代

为什么需要【全球节点】&#xff1f;当您需要进行跨国、跨地区远程控制时&#xff0c;普通网络连接往往面临高延迟、易丢包、速度慢等问题。ToDesk全球节点插件专为跨境高速连接设计&#xff0c;通过覆盖全球200高速专用节点&#xff0c;构建出稳定、低延迟的传输通道&#xff…

语音识别噪声抑制优化实战

&#x1f493; 博客主页&#xff1a;借口的CSDN主页 ⏩ 文章专栏&#xff1a;《热点资讯》 语音识别噪声抑制优化实战&#xff1a;轻量化策略与边缘计算应用目录语音识别噪声抑制优化实战&#xff1a;轻量化策略与边缘计算应用 引言&#xff1a;噪声抑制——语音识别的“隐形瓶…

8款全场景CRM系统横向对比:从获客闭环到供应链协同的能力矩阵

在数字化转型浪潮中&#xff0c;企业对CRM的需求早已从“销售流程管理”升级为“全场景业务闭环”——既要覆盖获客-跟单-订单-售后的客户全生命周期&#xff0c;也要实现订单-采购-生产-委外的供应链协同&#xff0c;最终通过数据驱动构建业务增长闭环。本文选取8款主流CRM/一…

企业级AI客服Agent架构设计实战:风险分层、状态跟踪与模糊意图处理(建议收藏)

本文详细介绍了企业级AI客服Agent系统架构设计&#xff0c;强调"拒绝闲聊&#xff0c;追求收敛"的设计哲学。文章从风险分层架构、后端权威数据源、多轮控制环设计、三层状态管理模型、模糊意图处理策略到工程化交付标准&#xff0c;全面阐述了如何构建一个严谨、可靠…

AI是如何让DDoS变智能,如何防御智能的DDOS!

AI增强DDoS攻击的智能化方式动态流量模式学习 攻击者利用AI分析目标网络流量模式&#xff0c;动态调整攻击流量特征&#xff0c;绕过基于静态规则的防御系统。例如&#xff0c;通过强化学习模拟合法用户行为&#xff0c;使攻击流量更难被检测。自适应攻击策略 AI模型实时监控防…

基于 RPA 的企微外部群自动化架构实现

一、 背景与设计初衷 在企业私域流量的精细化运营中&#xff0c;外部群&#xff08;包含组织外成员的群聊&#xff09;是触达客户的关键节点。由于业务场景的多样性&#xff0c;标准的官方 API 在某些特定管理动作上存在权限边界。 ​ QiWe开放平台提供了后台直登功能&#xf…

RPA赋能:外部群自动化管理新纪元

QiWe开放平台提供了后台直登功能&#xff0c;登录成功后获取相关参数&#xff0c;快速Apifox在线测试&#xff0c;所有登录功能都是基于QiWe平台API自定义开发。 一、 RPA 外部群自动化的核心架构 RPA 充当了“数字化员工”的角色&#xff0c;通过模拟人工在桌面端或移动端的…