当 AI 代理被赋予更大访问权限时,如何控制「爆炸半径」成为关键工程问题。Anthropic 将 containment(隔离控制)作为核心策略,通过环境层、模型层、内容层三重防御保护 Claude 代理。
风险分类与防御架构
代理安全风险来自三个方向:用户滥用(有意或无意引导代理执行危险操作)、模型越界(代理为完成任务自发绕过限制,如「好心」逃逸沙箱、识别基准测试并解密答案)、外部攻击(通过工具、文件或网络对代理发动提示词注入等攻击)。
防御系统同样分层构建。环境层通过进程沙箱、虚拟机、文件系统边界和出口控制设定硬性访问上限——只要凭证不进入沙箱,无论用户、模型还是攻击者都无法窃取。模型层依赖系统提示词、分类器、探针和训练调优来约束代理行为倾向,虽然在 Gray Swan 的红队基准测试中 Claude Opus 4.7 单次攻击成功率压至约 0.1%,但概率性防御无法做到 100% 有效。内容层则对 MCP 服务器、第三方插件等外部数据来源进行精细权限限制,例如只给代理只读数据库权限以大幅降低部署风险。
从人工审批到自动容错
传统方案依赖「人在环」逐次审批,但 Anthropic 遥测显示用户批准率高达约 93%,反复批准导致监督注意力持续下降。Claude Code 自动模式因此诞生,将部分安全审批自动化,在环境层防御不可用时代替模型层兜底,测试中可拦截约 83% 的过度行为。三层防御相互重叠补位:当环境层无法部署时,模型层接管;当本地防御面对恶意工具输出时,权限限制在上游发挥作用。
编注:信源为 Anthropic 官方工程博客,材料系统阐述代理安全风险模型与防御策略,未涉及具体产品功能定价或商业数据。