Anthropic为秘密限制Claude Fable 5致歉

Anthropic承认在其新发布的Claude Fable 5模型上实施的安全限制措施是"做出了错误的权衡"，并宣布撤回这一饱受争议的政策——该政策会在检测到用户从事前沿AI开发工作时，悄然降低AI的响应质量。这份道歉声明于周二向《连线》杂志发出，距该模型于6月9日上线仅两天，而此前该政策已引发研究人员、开发者和AI政策专家的强烈反弹。

隐藏限制引发强烈抗议

"我们将修改 Fable 5 针对前沿大语言模型开发的安全限制措施，使其变得透明可见，"Anthropic 在声明中表示，"我们在权衡取舍上犯了错误，对于未能把握好这一平衡，我们深表歉意。"

此次争议的导火索，是 Fable 5 长达 319 页的系统说明文件中一段不起眼的披露内容——该模型会在检测到与前沿 AI 开发相关的请求时（例如为大型语言模型构建训练基础设施），悄然降低其响应质量。Fable 5 在网络安全和生物学领域同样设有限制，但这些限制会通过显眼的提示将用户引导至功能较弱的 Claude Opus 4.8；相比之下，针对 AI 开发的限制措施却在用户毫不知情的情况下悄悄运行，借助提示词修改和引导向量等技术来削弱模型效果，而不会向用户作出任何说明。

更宽泛的防护机制引发批评

Claude Fable 5 是 Anthropic 首款公开发布的"神话级"模型，与受限版 Claude Mythos 5 共享相同的底层架构，但加入了安全分类器，用于拦截涉及网络安全、生物学、化学及模型蒸馏的查询。一旦触发，相关响应将改由 Claude Opus 4.8 处理。Anthropic 表示，该回退机制的触发率不足所有会话的 5%。

然而，网络安全研究人员和生物学家纷纷投诉，认为这些分类器过于宽泛，误判了大量合法工作。Anthropic 方面也承认，生物学和化学领域的防护设置覆盖范围过广，并表示已计划对其进行收窄。

本周即将生效的变更

根据修订后的政策，被标记的请求在所有受限类别中将明确回退至 Opus 4.8。通过 API 提交的被标记请求，将收到包含拒绝原因的返回信息。Anthropic 发言人表示："每次触发时，您都会看到相应提示。"

该公司将上述限制措施定性为必要之举，旨在防止对手利用其最强大的模型削弱美国在前沿芯片和训练软件领域的技术优势，同时也是为了执行其服务条款——该条款明确禁止将 Claude 用于构建竞争性 AI 系统。然而，此事件进一步加剧了各界对"负责任部署"与"损害模型实用性"之间边界的争议，而随着 Anthropic 为传闻中的 IPO 积极筹备，这一张力在未来很可能再度浮现。