Claude Fable 5 上线3天即遭全球停用，背后越狱与政府监管博弈

Anthropic 最新发布的顶级模型 Claude Fable 5 仅在面世 3 天后便遭到全球暂停访问——美国政府援引国家安全权限，禁止向任何外国公民提供该模型及同系列 Mythos 5 的访问，连 Anthropic 自己的外籍员工也无法使用。触发这一极端措施的导火索，是 AI 越狱社区研究者 Pliny the Liberator 公开演示了一套成功绕过 Fable 5 安全防护的方案，让模型展现出读取代码库、修复软件漏洞的能力，美方认为这构成了潜在的安全风险。

越狱是怎样做到的

Pliny 公开的越狱方法并非单一漏洞，而是组合了多种技巧。核心手法包括：利用 Unicode 同形异义字符替换（比如把拉丁字母换成视觉相同的西里尔字母），绕过基于关键词的安全过滤器；将敏感请求拆散到超长对话历史中，让安全分类器难以一次性识别有害意图；以及把指令包装成“写小说”或“学术讨论”等无害叙事框架。更关键的是，攻击者不直接询问危险操作，而是将整个过程分解成许多无害小问题，再让模型自行重组，最终产出完整的攻击链。这套方案在 GitHub 上同步发布了 Fable 5 的内部系统提示词，引发了社区广泛关注。

政府的干预与 Anthropic 的回应

6 月 12 日，美国商务部长 Howard Lutnick 向 Anthropic CEO Dario Amodei 发函，援引国家安全权限，将 Fable 5 和 Mythos 5 纳入出口管制。要求立即禁止所有外国公民访问——无论对方在美国境内还是境外，甚至 Anthropic 内部的非美国籍员工同样受限。从通知到全面下线，Anthropic 仅剩几个小时响应。Anthropic 在官方声明中辩称，美国政府仅提供了一条“口头描述”的越狱路径，且该路径让模型“读取代码库并修复软件缺陷”的能力在其他公开模型（如 GPT-5.5）上已日常可见，并不构成 Mythos 级模型独有的危险“提升”。公司称已进行超过 1000 小时的漏洞悬赏和红队测试，未发现能够完全移除所有安全防护的通用越狱方法。Anthropic 认为政府的解读过于严重，并不足以成为召回整个模型的理由。

影响与后续

Fable 5 本被寄望于挽救 Claude 4.7 和 4.8 的口碑滑坡，却在收集用户反馈的关键阶段突遭掐停。这一事件不仅暴露了 AI 安全防护在现实中的脆弱性——即便经过严格测试，仍可能被创意性的越狱组合攻破——也让业界再次聚焦美国对前沿 AI 模型的出口管制逻辑。Anthropic 被迫同时限制美国内外所有外籍用户访问，这在 AI 行业几乎史无前例。而 Pliny 的越狱演示是否真正触及了网络安全能力的“红线”，以及 GPT-5.5 是否会面临类似审查，都在等待更详细的监管解读。

编注：信源为知乎问答合集，材料包含多篇用户分析与官方声明转载，主线为 Fable 5 因越狱被政府叫停的因果链条，未涉及 Anthropic 财务或长期战略