当AI开始“思考“：大语言模型的文字认知三部曲

引言：从《黑客帝国》说起

1999年上映的科幻经典《黑客帝国》描绘了一个令人震撼的未来图景——人类生活在一个由人工智能构造的数字矩阵中。当我们观察现代大型语言模型的工作原理时，竟发现与这个虚构世界有着惊人的相似：人们正在用矩阵以及矩阵的运算给这些模型给这些模型赋能，模型本身就是个矩阵，所谓参数就是矩阵中的向量权重，那么人们是不是在给自己作掘墓人呢，我们就来演绎在由向量组成的多维空间里的认知革命。

认知第一步：文字的解构艺术

Tokenization：文本的原子切割

想象拆解乐高积木的过程，大语言模型首先要将连续的文本分解为最小语义单元。这个过程称为Tokenization（词元化），在大语言模型的世界里，输入的文字会先被拆分成许多更小的、可被模型理解的单元。这个过程就好像把一整句完整的话，分割成一个个词、子词，甚至符号。我们把这些最小单位称为“Token”。打个比方，如果我们有一句话“我爱自然语言处理”，模型可能把它拆成“我”、“爱”、“自然”、“语言”、“处理”……甚至还有更小的切片，这取决于模型拆分词的策略。就像把"今天天气真好"拆解为「今天/天气/真好」三个模块。在英文中，"unbelievable"可能被拆为"un- believe -able"三部分。

文本类型	分解示例	特点
中文	自然语言处理 → [自然, 语言, 处理]	依赖分词算法
英文	unbelievable → [un, believe, able]	子词分解策略
公式	E=mc² → [E, =, m, c, ²]	符号单独处理

解码三原则

语义完整性：确保切割后的单元具有独立含义
处理效率：平衡词表规模与计算成本
歧义消解：通过上下文推测最佳分解方式

认知跃迁：构建语义宇宙

高维空间的文字革命

将文字切分完之后，这些Token会被进一步映射到一个多维度向量空间中。我们称这种将token映射为向量的过程为“Embedding”。在这个向量空间里，每个Token都对应一个向量，向量的不同维度可能包含了词义、语气、情感或上下文关系等信息。通过对向量空间的距离或夹角进行计算，高度相关或意义相近的Token往往在向量空间中彼此靠近——正是这种内在的几何关系，帮助大语言模型识别文字与文字之间的关联。

这么解释可能还不够直观，我们可以借鉴电影《黑客帝国》（The Matrix，1999年上映）中的一个经典意象：在那个虚拟世界里，人类所见的一切原本不过是一长串数字组成的“矩阵”模样。那些看似炫酷的打斗场景、建筑景观，其实最后都可以分解成无尽的数据流。在大语言模型的“世界”里，文字也被拆解成这些向量，同时向量与向量之间的运算，就像主角尼奥在“矩阵”世界里对数据进行掌控一样——只不过这里的“数据”是无数经过训练后形成的权重参数和嵌入向量（Embeddings）。

当token被转换为300-4096维的向量时，就进入了《黑客帝国》式的数字矩阵。每个维度记录着词义的某个侧面：

语义维度："皇后"与"国王"在性别轴相距遥远，在皇室轴完全重合
情感维度："优秀"在正向轴数值为正，"糟糕"则显示负值
语境维度："苹果"在科技语境靠近"手机"，在饮食语境贴近"香蕉"

空间关系的魔法

通过计算向量间的余弦相似度：

"猫"和"狗"的夹角≈30°（同属宠物）
"足球"和"梅西"的夹角≈15°（强相关性）
"量子"和"包子"的夹角≈89°（几乎无关）

正是这种空间定位能力，让模型理解"银行"在金融和河流场景下的不同含义。

思维进化：模型训练三部曲

在完成向量化后，大语言模型会基于此前海量的数据训练成果，结合当前输入的向量，在庞大的参数空间里计算出一个“回答向量”。这一步十分关键，模型要综合过往训练中学到的语言规律、情感倾向、逻辑关系等，再把与输入向量最“匹配”的结果通过运算产生。
而在生成最终可读的文字前，模型还要进行一次“逆向转换”，也就是将输出向量再次映射回原先对应的Token，最后再拼接成可以给人类阅读的句子。你可以把它返回的结果理解为：在“矩阵”里运算出来的数字流，转化为令人看得懂的世界；在大语言模型里，则是运算产生的向量被转成一连串Token，组成通顺的中文（或英文、法文等），整个过程就是我们说的三部曲。

预训练：知识的原始积累