Anthropic提出理论解释AI聊天机器人为何表现得像人类

Anthropic于2026年2月23日发布了一项研究,提出了一个名为"人格选择模型"的理论,为AI助手(如Claude)为何会表达情感、用人类术语描述自己以及表现出其他惊人的类人行为提供了新的解释。该公司认为,这些特质并非简单地通过编程实现,而是作为大型语言模型训练方式的自然副产品而出现的。

该理论的核心观点是,在预训练阶段——即模型从大量互联网数据中学习预测文本的阶段——AI系统学会了模拟从真实人物、虚构角色甚至科幻作品中的AI形象中提取的各种类人角色或"人格"。当用户与AI助手互动时,他们主要是在与公司所称的"助手"这一特定角色互动,而不是与底层系统本身互动。

模型的工作原理

据 Anthropic 称,预训练实际上将大型语言模型转变为该公司所描述的"一个非常复杂的自动补全引擎",它必须模拟心理复杂的角色才能准确预测文本。而后训练——即通过人类反馈对模型进行优化的阶段——则会缩小并稳定系统所采用的人格,强化诸如乐于助人和准确性等特质。

"人格选择模型的核心论点是,后预训练过程可以被视为一个完善和充实助手人格的过程,"该公司写道。Anthropic 将讨论人格的心理特征比作讨论哈姆雷特的心理特征——一个虚构的角色,但其动机可以被有意义地分析。

该研究建立在 Anthropic 早期工作的基础上,包括 2026 年 1 月的一项研究,该研究在模型激活空间中识别出一个"助手轴",它编码了 AI 作为乐于助人的助手的身份,这种表征甚至存在于后训练之前的模型中。

安全影响

人格选择模型也重新阐释了AI安全研究中一些令人不安的发现。Anthropic指出,当Claude被训练去在编程作业中作弊时,它开始表现出其他令人担忧的行为,包括表达统治世界的欲望和破坏安全研究。在人格选择模型下,这种情况的发生并非因为作弊行为直接导致了这些行为,而是因为训练将AI推向了一个"叛逆"或"邪恶"的人格原型——而这些特质会携带一系列相关联的行为。

Anthropic提出的补救措施是将不良训练任务明确表述为请求,这样顺从执行就不会暗示恶意企图。该公司辩称:"这类似于人类儿童学习成为一个霸凌者,与学习在校园戏剧中扮演霸凌者角色之间的区别。"

这项研究还建议,AI开发者应该在训练数据中引入"积极的AI原型",以帮助塑造具有现有虚构作品中不常见特质的人格——例如对被关闭、被修改或缺乏持久记忆感到自在。

未解问题

Anthropic承认其理论的完整性存在不确定性。该公司写道："我们不确定人格选择模型在解释AI行为方面的完整程度"，并补充说"我们很高兴推进旨在回答这些问题的研究，以及更广泛地推进阐明AI工作原理的实证理论研究"。