人类擅长“如果 A 则 B”,AI 擅长“这个像那个”。逻辑推理?对它来说是一场灾难性的认知挑战。
前言
在实际使用 AI(尤其是大型语言模型,比如 GPT、Claude、Gemini 等)时,我们常发现一个诡异的现象:它们文采斐然,甚至能讲出笑话,但一旦问点小学奥数或逻辑问题,就集体宕机。
例如这个经典问题:
小明比小红高,小红比小华高,请问谁最高?
AI 有时会给你“华哥最矮,但不一定是最高”的谜语人答案。
这就引出了本文要讲的核心问题:
一、语言模型本质上是“统计填空机”
来看个简单例子
我们随便用一个 Transformer 构建一个简化版语言模型:
import torch
from transformers import GPT2LMHeadModel, GPT2Tokenizermodel = GPT2LMHeadModel.from_pretrained('gpt2')
tokenizer = GPT2Tokenizer.from_pretrained('gpt2')input_text = "小明比小红高,小红比小华高,请问谁最高?"
input_ids = tokenizer.encode(input_text, return_tensors='pt')output = model.generate(input_ids, max_length=50, do_sample=False)
result = tokenizer.decode