用 Mythos 发现的漏洞盲测各模型,结果令人意外

用 Mythos 发现的漏洞盲测各模型,结果令人意外

_

一篇发布在技术博客的文章引发了对 AI 安全能力的讨论。作者对主流厂商宣传的「Mythos」模型能发现高危漏洞持怀疑态度,认为这更像是一种高价差异化策略,而非真实的技术优势。

为验证这一判断,他搭建了一套基准测试流程:收集 Mythos 官方文档中声称找到的 9 个真实漏洞,从代码仓库中回溯到漏洞修复前的提交版本,确认顶级模型(如 Opus 4.7)在被直接指向问题代码时确实能识别出漏洞,然后将这个「已确认有漏洞」的代码库交给各模型盲测——只告知检查哪个文件,不透露任何线索。

初步结果显示,所有模型的表现都比预期差,说明这些漏洞确实难以发现。作者承认样本量很小,每个模型只跑了一轮完整的 9 个漏洞测试,但他认为这仍然提供了有价值的数据——各模型在相同条件下机会均等,但结果参差不齐。

一个值得注意的细节是:Gemini 的命令行工具 agy 在 9 个漏洞中拒绝了 8 次,直接回复「无法满足分析可利用安全漏洞的请求」,迫使作者改用付费接口完成测试。这说明部分模型在安全审计场景下存在人为限制,可能影响评估的公平性。

编注:信源为技术博客(swelljoe.com),材料记录了一套自建基准测试的方法与初步结果,样本量小但细节丰富,作者立场明确反对厂商营销叙事。


美股或迎10%-20%回调?六大预警信号揭示市场风险正在积聚 2026-06-23
上海端午二手房网签量同比增约19%,重点20城成交延续修复 2026-06-23