一、先从二维空间说起:语义=几何
设想你有一个二维平面,横轴代表“性别”,纵轴代表“社会地位”。
我们把一些词放进这个平面里:
| 词语 | 大致坐标 (示意) | 语义特征 |
|---|---|---|
| 男人 | (1, 0) | 男性、普通地位 |
| 女人 | (-1, 0) | 女性、普通地位 |
| 国王 | (1, 1) | 男性、高地位 |
| 王后 | (-1, 1) | 女性、高地位 |
示意图(二维语义平面):
↑ 地位(高)|王后 国王|女人 男人|+----------------→ 性别(男)(女)
二、“方向”承载语义关系
现在我们来看“方向”意味着什么。
- 从「男人」→「女人」的方向,就是 性别变化方向(gender axis)
- 从「男人」→「国王」的方向,就是 地位提升方向(royalty axis)
所以:
语义方向 = 某种抽象关系的几何方向。
在数学上:
vec(国王) - vec(男人) ≈ vec(王后) - vec(女人)
换句话说:
「男人」→「国王」的变化 = 「女人」→「王后」的变化
这就是著名的 词向量类比现象 (word analogy)。
方向不只是几何上的移动,而是“语义操作”。
三、“距离”承载语义相似度
假设我们测量两点之间的欧氏距离(或余弦相似度)。
- 「男人」与「女人」:距离较近,因为语义相似(都是人类、性别不同)
- 「男人」与「苹果」:距离很远,因为语义完全不同
所以:
距离越近,语义越相似。
在词向量中我们通常用 cosine similarity(余弦相似度):
sim(a, b) = (a · b) / (|a||b|)
它衡量的是角度而不是绝对长度。
四、扩展到三维:语义轴的叠加
二维空间不足以表达丰富语义,我们可以加更多“语义维度”:
- X 轴:性别(男 ←→ 女)
- Y 轴:地位(平民 ←→ 贵族)
- Z 轴:时代(古代 ←→ 现代)
于是:
- “国王”可能在 (男, 贵族, 古代)
- “女王”在 (女, 贵族, 古代)
- “总统”在 (中性, 贵族, 现代)
- “市民”在 (中性, 平民, 现代)
这就构成了一个高维语义空间的投影。
在真实模型中,比如 word2vec 或 BERT 的 embedding,这种空间通常是 几百维,但几何意义仍然相似。
五、小结直觉
| 几何概念 | 对应语义意义 | 示例 |
|---|---|---|
| 方向 | 抽象关系(gender, tense, royalty, etc.) | vec(国王) − vec(男人) ≈ vec(王后) − vec(女人) |
| 距离 | 语义相似度 | “男人”接近“女人”,远离“苹果” |
| 平移 | 类比推理 | “巴黎”−“法国”+“日本”≈“东京” |
| 角度 | 概念相似性 | 同义词向量夹角小 |