
从“概率模仿与监管”到“共识锚定与生成”
当前人工智能的发展正面临一个根本性瓶颈:如何让智能系统理解、承载并协同人类复杂多元的价值体系。传统的“价值对齐”范式在技术上主要依赖于统计拟合与行为约束:通过在海量人类数据中学习价值表达的概率分布,并在输出端设置安全过滤器来规避显著的有害内容。
然而,这种“概率模仿+事后监管”的路径存在根本性缺陷:
- 在哲学层面,它无法解决 “价值不可通约” 的终极挑战。模型学到的是不同价值主张在数据中的出现频率和语境关联,而非它们之间的理性权衡原则。当面临必须取舍的困境时(如“效率”与“公平”),它缺乏进行原则性裁决的内在能力。
- 在认识论层面,它陷入了 “价值表征困境” 。系统并未真正理解“公平”或“正义”为何物,它只是在模仿人类在相似语境下使用这些词汇的语言惯例。其价值响应是相关性的再现,而非因果性的推理。
- 在实践层面,它难以应对动态、多元的现实世界。事后监管是脆弱且滞后的,无法预见新的价值冲突形态;而基于历史数据的概率模仿,则必然固化数据中存在的偏见,并缺乏适应新情境的创新能力。
因此,问题的本质并非“静态参数植入得不够好”,而是整个“模仿-监管”范式的内在局限性。 它造就的是一个精于“复现过去”而拙于“应对未来”的价值系统。
共识锚定:构建价值理性的内生之路
为克服上述局限,我们提出“AI元人文”构想,其核心是从“概率模仿与监管”的外围路径,转向 “共识锚定与生成”的内生路径。
共识锚定不满足于让AI学习“人类过去通常怎么做”,而是要赋予它参与 “我们此刻应该怎么做” 的协商能力。它将价值决策从一个基于统计的黑箱行为,转变为一个透明、可审阅、可追责的理性过程。
其根本区别在于:
· 传统对齐(概率模仿):目标是输出一个“像人”的回答。其价值正当性来源于与训练数据的统计相似性。
· 共识锚定(理性生成):目标是输出一个“经得起辩驳”的决策。其价值正当性来源于遵循了各方共识的协商程序,并产生了情境化的临时共识。
这一转变,标志着AI价值能力的进化:从一台价值“复读机”,升级为一个价值“议事厅”。 它不再仅仅是人类价值概率的反射镜,而是能够参与价值理解、辩论与创造的理性主体。