Anthropic 最新发布的顶级模型 Claude Fable 5 仅在面世 3 天后便遭到全球暂停访问——美国政府援引国家安全权限,禁止向任何外国公民提供该模型及同系列 Mythos 5 的访问,连 Anthropic 自己的外籍员工也无法使用。触发这一极端措施的导火索,是 AI 越狱社区研究者 Pliny the Liberator 公开演示了一套成功绕过 Fable 5 安全防护的方案,让模型展现出读取代码库、修复软件漏洞的能力,美方认为这构成了潜在的安全风险。
越狱是怎样做到的
Pliny 公开的越狱方法并非单一漏洞,而是组合了多种技巧。核心手法包括:利用 Unicode 同形异义字符替换(比如把拉丁字母换成视觉相同的西里尔字母),绕过基于关键词的安全过滤器;将敏感请求拆散到超长对话历史中,让安全分类器难以一次性识别有害意图;以及把指令包装成“写小说”或“学术讨论”等无害叙事框架。更关键的是,攻击者不直接询问危险操作,而是将整个过程分解成许多无害小问题,再让模型自行重组,最终产出完整的攻击链。这套方案在 GitHub 上同步发布了 Fable 5 的内部系统提示词,引发了社区广泛关注。
政府的干预与 Anthropic 的回应
6 月 12 日,美国商务部长 Howard Lutnick 向 Anthropic CEO Dario Amodei 发函,援引国家安全权限,将 Fable 5 和 Mythos 5 纳入出口管制。要求立即禁止所有外国公民访问——无论对方在美国境内还是境外,甚至 Anthropic 内部的非美国籍员工同样受限。从通知到全面下线,Anthropic 仅剩几个小时响应。Anthropic 在官方声明中辩称,美国政府仅提供了一条“口头描述”的越狱路径,且该路径让模型“读取代码库并修复软件缺陷”的能力在其他公开模型(如 GPT-5.5)上已日常可见,并不构成 Mythos 级模型独有的危险“提升”。公司称已进行超过 1000 小时的漏洞悬赏和红队测试,未发现能够完全移除所有安全防护的通用越狱方法。Anthropic 认为政府的解读过于严重,并不足以成为召回整个模型的理由。
影响与后续
Fable 5 本被寄望于挽救 Claude 4.7 和 4.8 的口碑滑坡,却在收集用户反馈的关键阶段突遭掐停。这一事件不仅暴露了 AI 安全防护在现实中的脆弱性——即便经过严格测试,仍可能被创意性的越狱组合攻破——也让业界再次聚焦美国对前沿 AI 模型的出口管制逻辑。Anthropic 被迫同时限制美国内外所有外籍用户访问,这在 AI 行业几乎史无前例。而 Pliny 的越狱演示是否真正触及了网络安全能力的“红线”,以及 GPT-5.5 是否会面临类似审查,都在等待更详细的监管解读。
编注:信源为知乎问答合集,材料包含多篇用户分析与官方声明转载,主线为 Fable 5 因越狱被政府叫停的因果链条,未涉及 Anthropic 财务或长期战略