CMUNYU最新工作解释:存储在权重里的“智能”是从哪来的?

我们先来做一个思想实验:AlphaZero 在没有任何人类棋谱输入的情况下,仅凭几行代码写就的游戏规则,通过自我博弈训练成了超人类的棋手。它的权重文件中包含了数以亿计的参数,那是关于“如何赢棋”的深邃知识。

但如果你去问信息论祖师爷香农(Claude Shannon),或者算法信息论的奠基人柯尔莫哥洛夫(Kolmogorov),他们会告诉你:AlphaZero 没有产生任何新信息。因为它的一切产出都源自确定的规则和代码,从信息论的角度看,确定性变换后的信息量(熵)不可能增加 。

这显然不符合我们的直觉。那些存储在神经网络权重里的“智能”是从哪来的?

这就是这篇论文《From Entropy to Epiplexity》试图回答的核心问题。作者们并没有修补旧理论,而是直接掀了桌子:在算力有限的现实世界里,我们需要一种新的度量——Epiplexity(认识复杂性)。

  • 论文:From Entropy to Epiplexity: Rethinking Information for Computationally Bounded Intelligence

  • 链接:https://arxiv.org/pdf/2601.03220v1

当经典理论撞上 AI 现实:三大悖论

为了说明为什么我们需要新理论,让我们看看经典信息论在现代 AI 面前显得多么苍白无力。作者敏锐地指出了三个“房间里的大象” :

悖论 1:确定性过程能不能创造信息?

在经典理论中,数据处理不等式(Data Processing Inequality)告诉我们,对数据做确定性变换(Deterministic Transformations)绝不会增加信息量。但是,现在的 LLM 大量使用合成数据(Synthetic Data)来提升能力,数学家通过推理公理得到新定理。如果计算不能创造信息,那训练神经网络的过程究竟在干什么? 。

悖论 2:信息的顺序重要吗?

数学上,,这意味着先学 A 再学 B,和先学 B 再学 A,总信息量是一样的。 但在训练大模型时,我们不仅发现数据的顺序至关重要(Curriculum Learning),甚至对同一段文本,从左到右建模(预测下一个词)和从右到左建模的效果截然不同。如果信息是对称的,为什么 AI 对“时间箭头”如此敏感? 。

悖论 3:似然建模 = 仅仅是拟合分布?

通常我们认为,训练模型就是为了拟合数据生成分布。如果生成过程很简单(比如康威生命游戏 Game of Life 的规则),模型似乎就不应该学到比规则更复杂的东西。 但事实是,算力受限的模型为了预测那些简单的规则产生的复杂现象,往往需要“涌现”出比生成规则更高级的认知结构(比如识别滑翔机、飞船等高级模式) 。

Epiplexity:观察者的算力决定了看见什么

为了解决这些矛盾,作者引入了一个核心变量:观察者的计算能力(Computational Constraints)。

结构信息随机噪声

在此基础上,数据的总信息量被拆解为两部分:

  • Time-bounded Entropy ():那些对当前算力水平的观察者来说,完全无法预测、像噪声一样的部分。

  • Epiplexity ():那些可以通过计算被“以此为据”地压缩、学习到的结构化规律

图注:见图左侧。对于一个计算能力有限的模型,真正的随机噪声(下)和高度复杂的加密数据看起来都是“高熵”的。唯有中间那类具有可学习结构的数据(如代码逻辑、动物图像),才具有高 Epiplexity。

这里有一个非常精彩的洞察:对于一个拥有无限算力的上帝(God-like observer),伪随机数生成器(PRNG)生成的数字序列没有任何随机性,全是结构,因为它是确定的。但在我们有限算力的计算机看来,它就是纯噪声(高熵,低 Epiplexity)。 反之,一段复杂的自然语言文本,如果我们算力太弱,看不出语法规律,它也是噪声;只有当算力足够强去理解语法时,噪声才转化为了 Epiplexity 。

公式定义:作者利用时间受限的最小描述长度(Time-bounded MDL)来定义 Epiplexity。假设我们有一个算力预算,我们要找一个程序来解释数据

其中是在运行时间不超过 的限制下,使得“程序长度 + 预测误差”最小的那个模型 。简单来说,Epiplexity 就是你的模型为了在有限时间内解释数据,不得不“长”出来的脑子(权重结构)。

如何测量“认知复杂度”?

既然 Epiplexity 这么重要,怎么算?我们不可能遍历所有图灵机程序。作者巧妙地用神经网络的训练过程来近似。

主要方法被称为Prequential Coding(序列编码): 想象你在训练一个网络。起初,模型什么都不懂,Loss 很高。随着训练进行,模型学到了规律,Loss 下降。

Epiplexity 可以被近似为 Loss Curve 下方、且在最终收敛 Loss 之上的那部分面积。

图注:见图(a) Prequential estimation。黄色虚线是 Entropy(不可约的随机性),绿色区域就是 Epiplexity。

  • 直觉解释:如果数据很简单(比如全是 1),模型瞬间就学会了,Loss 瞬间掉到底,面积很小 -> Epiplexity 低。

  • 直觉解释:如果数据全是随机乱码,模型怎么学 Loss 都不掉,面积为 0(因为那条基线很高) -> Epiplexity 低(全是熵)。

  • 直觉解释:如果数据有深层逻辑(比如小说情节),模型需要漫长的过程去一点点“顿悟”,Loss 缓慢下降,积累了巨大的面积 ->Epiplexity 高!这就是我们要的数据。

实验:当逆序比正序更“有营养”

论文通过几个极具创意的实验验证了 Epiplexity 的有效性。

1. 国际象棋中的“教学顺序”

作者做了一个反直觉的实验:用 Transformer 训练下棋数据 。

  • 顺序 A (Forward):输入每一步棋的序列 -> 预测最终棋盘局面。这很简单,甚至不需要懂棋,死记硬背就行。

  • 顺序 B (Reverse):输入最终局面 -> 预测之前的每一步棋。这太难了!模型必须深刻理解棋子的攻防逻辑,进行复杂的推理(Induction)才能反推回去。

图注:见图 Chess orderings。Reverse ordering(逆序)虽然 Loss 更高(更难学),但它产生的 Epiplexity 显著高于正序。

结果令人震惊:尽管逆序任务更难,训练出的模型 Epiplexity 更高。更重要的是,用逆序数据预训练的模型,在解决 OOD(分布外)的死活题和局面评估时,性能远超正序模型!。 这证明了:困难的、需要消耗更多算力去“挤压”数据的过程,能迫使模型学到更通用的结构。

2. 元胞自动机:混乱不是复杂

作者对比了 Rule 30(混沌系统)和 Rule 54(具有滑翔机等结构的系统)。

  • Rule 30 对有限算力的观察者来说,几乎全是熵(随机性),学不到东西。

  • Rule 54 则展现了丰富的结构,随着算力增加,模型能学到越来越多的“涌现规律”,Epiplexity 持续上升 。

这完美解释了为什么不是所有“难学”的数据都是好数据——只有那些包含可被挖掘结构的数据(High Epiplexity),而非纯噪声数据,才对 AI 有价值。

总结与展望

这篇文章的贡献在于它提供了一种“去人类中心化”的信息视角。传统的香农信息论是以“上帝视角”看数据,认为信息是静态的。而 Epiplexity 告诉我们:信息是主观的,它取决于观察者(模型)有多少算力去“解码”数据中的结构。

给我们的启示:

  1. 合成数据的价值:确定性计算之所以能创造价值,是因为它将我们要学的“结构”从隐性状态(如公理)转化为了有限算力观察者可及的显性状态(如定理步骤)。

  2. 数据筛选的标准:以后选 Pre-training 数据,别只看 Perplexity(困惑度/熵),要看 Epiplexity。那些能让模型 Loss 持续下降、且最终收敛得足够低的数据,才是让模型产生“智能”的黄金数据 。

  3. 计算即信息:在 AI 时代,算力(Compute)本身就是一种将熵转化为 Epiplexity 的炼金术。

一句话总结:模型学到的不是数据本身,而是为了“压缩”数据而不得不构建的那个复杂的“程序”——这就是智能的本质。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/1166311.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

5分钟搭建个人微博档案馆:Speechless零门槛备份指南

5分钟搭建个人微博档案馆:Speechless零门槛备份指南 【免费下载链接】Speechless 把新浪微博的内容,导出成 PDF 文件进行备份的 Chrome Extension。 项目地址: https://gitcode.com/gh_mirrors/sp/Speechless 还在为那些即将消失的微博记忆而焦虑…

Node.js环境下的超高效并行下载神器:Nugget全面解析与应用实践

Node.js环境下的超高效并行下载神器:Nugget全面解析与应用实践 【免费下载链接】nugget minimalist wget clone written in node. HTTP GET files and downloads them into the current directory 项目地址: https://gitcode.com/gh_mirrors/nu/nugget 在现代…

线程池以及HashTable,HashMap,ConcurrentHashMap之间的区别

什么是线程池 线程池(Thread Pool)是一种线程使用模式,提前创建一定数量的线程并进行复用,统一管理线程的创建、销毁和调度,从而: 降低线程创建和销毁的开销 提高程序响应速度 防止线程数量失控导致系统…

3dsconv:专业3DS游戏文件格式转换工具完全指南

3dsconv:专业3DS游戏文件格式转换工具完全指南 【免费下载链接】3dsconv Python script to convert Nintendo 3DS CCI (".cci", ".3ds") files to the CIA format 项目地址: https://gitcode.com/gh_mirrors/3d/3dsconv 3dsconv是一款功…

DeepSeek-R1实战:数学证明自动生成系统

DeepSeek-R1实战:数学证明自动生成系统 1. 引言 1.1 本地化逻辑推理的现实需求 随着大模型在自然语言理解、代码生成和数学推理等任务上的突破,越来越多开发者希望将这些能力集成到本地系统中。然而,主流大模型通常依赖高性能GPU进行推理&…

抖音内容自动采集系统:从零搭建智能素材库的完整指南

抖音内容自动采集系统:从零搭建智能素材库的完整指南 【免费下载链接】douyin-downloader 项目地址: https://gitcode.com/GitHub_Trending/do/douyin-downloader 想要轻松获取抖音平台的优质内容,却苦于手动下载效率低下?作为内容创…

2024语义模型趋势:GTE云端体验成主流

2024语义模型趋势:GTE云端体验成主流 你有没有发现,2024年一开年,AI圈的风向就变了?以前大家拼的是谁家模型参数大、训练数据多,现在技术决策者们聊得最多的,却是“哪家的云端服务更稳”“API调用延迟能不…

Z-Image-Turbo显存溢出怎么办?低成本GPU适配实战解决策略

Z-Image-Turbo显存溢出怎么办?低成本GPU适配实战解决策略 在AI图像生成领域,Z-Image-Turbo凭借其高效的推理速度和高质量的生成效果,逐渐成为开发者与创作者关注的焦点。然而,在实际部署过程中,尤其是在使用显存有限的…

MinerU定时任务:cron实现每日文档自动处理

MinerU定时任务:cron实现每日文档自动处理 1. 引言 1.1 业务场景描述 在企业级文档自动化处理流程中,PDF 文件的结构化提取是一项高频且重复性高的任务。无论是科研文献归档、财务报表解析,还是合同信息抽取,都需要将大量 PDF …

抖音内容采集实战:从单视频到直播流的一站式解决方案

抖音内容采集实战:从单视频到直播流的一站式解决方案 【免费下载链接】douyin-downloader 项目地址: https://gitcode.com/GitHub_Trending/do/douyin-downloader 在数字内容创作和电商运营领域,抖音平台已成为不可或缺的素材来源。无论是单个视…

Qwen-Image-2512艺术展览:数字藏品创作全流程

Qwen-Image-2512艺术展览:数字藏品创作全流程 1. 引言:AI艺术与数字藏品的融合新范式 随着生成式人工智能技术的快速发展,AI在艺术创作领域的应用已从实验性探索走向规模化生产。Qwen-Image-2512作为阿里开源的最新图像生成模型&#xff0c…

抖音引流公司哪些厉害,实力怎么样

抖音凭借庞大的流量池与精准的客资匹配能力,已成为ToB、ToC行业通用的营销阵地。无论是品牌曝光还是引流获客,抖音都能为企业创造多元价值。而专业的抖音推广公司是放大效果的关键,能帮助企业规避试错成本、精准拿捏平台规则,实现…

抖音直播自动采集终极方案:构建企业级内容管理系统

抖音直播自动采集终极方案:构建企业级内容管理系统 【免费下载链接】douyin-downloader 项目地址: https://gitcode.com/GitHub_Trending/do/douyin-downloader 在内容营销竞争白热化的今天,直播已成为品牌曝光和用户互动的核心阵地。想象一下&a…

DoL-Lyra技术架构深度解析:自动化构建系统与社区协作开发模式

DoL-Lyra技术架构深度解析:自动化构建系统与社区协作开发模式 【免费下载链接】DoL-Lyra Degrees of Lewdity 整合 项目地址: https://gitcode.com/gh_mirrors/do/DoL-Lyra 项目架构概述 DoL-Lyra项目代表了一种创新的游戏Mod管理范式,它通过系统…

毕业设计救星:基于DamoFD-0.5G的课堂考勤系统极速搭建指南

毕业设计救星:基于DamoFD-0.5G的课堂考勤系统极速搭建指南 你是不是也和小李一样,计算机专业的毕业设计只剩两周?想做一个人脸识别考勤系统,结果本地环境各种报错,学校GPU服务器还得排队申请,连调试都困难…

5个最火AI镜像推荐:ComfyUI开箱即用,10块钱全试遍

5个最火AI镜像推荐:ComfyUI开箱即用,10块钱全试遍 你是不是也遇到过这种情况:AI课老师布置作业,要求体验3个不同的AI模型并写报告。你兴致勃勃打开GitHub,结果发现光是“Stable Diffusion”相关的项目就有几十个&…

QMC解码器终极指南:5分钟解锁所有加密音乐

QMC解码器终极指南:5分钟解锁所有加密音乐 【免费下载链接】qmc-decoder Fastest & best convert qmc 2 mp3 | flac tools 项目地址: https://gitcode.com/gh_mirrors/qm/qmc-decoder 你是否曾经下载了QQ音乐的正版歌曲,却发现只能在特定播放…

Qwen多任务协同:情感判断如何影响对话生成

Qwen多任务协同:情感判断如何影响对话生成 1. 引言:单模型驱动的智能对话新范式 在当前AI应用快速落地的背景下,如何在资源受限的设备上实现高效、稳定的多任务推理成为工程实践中的关键挑战。传统方案通常采用“专用模型堆叠”架构——例如…

AI不会淘汰所有销售,但会淘汰一半!不是销售会消失,而是平庸会消失。AI销售B2B大客户销售专业销售技巧客户开发培训老师培训师唐兴通分享销售技巧AI赋能销售

当AI学会说服:复杂销售与简单销售的AI分水岭想象下凌晨两点,隔壁老张盯着电脑屏幕,第三次修改给客户的方案。这是一个价值三千万的企业数字化转型项目,牵涉到客户公司的七个部门、十二位决策者,以及他根本无法预测的内…

电商海报设计新利器:Z-Image-Turbo实际应用案例

电商海报设计新利器:Z-Image-Turbo实际应用案例 1. 引言:AI图像生成在电商场景的痛点与机遇 1.1 传统电商视觉内容生产的挑战 在当前高度竞争的电商平台中,高质量、高频率的视觉内容已成为吸引用户注意力的核心手段。然而,传统…