智谱 GLM-5.2 发布：国产编程模型首次追平世界一流

智谱上周发布 GLM-5.2，这是其迄今能力最强的开源模型。支持真正可用的 100 万 token 上下文窗口，在长程编程任务中保持领先，官方称其为「最强国产 Coding 模型」。GLM-5.2 今晚 5:21 起向 GLM Coding Plan 全量用户开放，覆盖 Lite / Pro / Max / 团队版；API 将于下周上线，模型下周正式开源，采用 MIT 协议。

为什么值得注意

在国内大模型竞争中，编程能力长期由 OpenAI 的 GPT 系列和 Anthropic 的 Claude 系列主导。GLM-5.2 前代产品 GLM-5.1 曾是首个突破编程基本可用线的国产模型，但存在明显短板：上下文超过 10 万 token 后注意力快速散失，在实际工程场景中可用性大幅下滑。

此后两个月，DeepSeek V4、Qwen3.7-Max、Kimi K2.6 等模型多次冲击国产编程 SOTA（最强模型），均未成功。同期北美迭代两代，GPT-5.5 与 Opus 4.8 将差距进一步拉大。在此背景下，GLM-5.2 实现了几个关键突破：

在 5 个公开工程测试中取得 3 个 A 档（A 档意味着模型几乎不犯错、需求理解一步到位），与 Opus 4.8 持平
前代 GLM-5.1 完不成全部 5 个项目，GLM-5.2 首次全部通过
在 2 个更高难度的隐藏工程测试中首次参与并以 C 档通过，DeepSeek 和 GLM-5.1 则无法完成项目
代码产出量平均高出其他模型 30%，但因注意力机制改进，漏看细节导致的 Bug 反而更少
效率上，以成绩相近的 F 项目为例，Opus 4.8 产生 564 次工具调用、输出 26 万 token，GLM-5.2 仅用 557 次调用、17 万 token

不过在小众技术栈领域，GLM-5.2 与 Opus 仍有差距。测试中有项目需要大量使用较新三方库 API，GLM 全程被坑，而 GPT 会大量检索官方文档和 demo 来解决。智谱官方也承认，用户补充明确背景知识后表现会好很多。

技术观察

有分析指出，智谱模型在参数量上并非最激进：GLM-4.7 为 3580 亿参数，GLM-5.1 为 7440 亿，架构与 DeepSeek-V3.2 基本一致、参数量相近，但效果表现突出。分析认为这与其思维链设计有关：

GLM-5 系列在思维链中会显式地从头到尾梳理用户提供的所有要点，不遗漏
内容过多时会递归压缩、逐层归纳，直到有信心给出答案
在复杂编程任务中，这种方式类似「状态寄存器」，帮助模型按步骤完成任务，而非只在简单任务上展示长思维链却不收敛

影响

国产模型第一次在国内市场拉开代差。随着 GLM-5.2 开源，中小团队和企业可本地部署成本更低的编程助手，减少对北美 API 的依赖。有用户直言，这一开源让「token 中转站庞大产业链」面临压力。

编注：材料来源为知乎用户综合帖，含官方发布信息、第三方 benchmark 评测数据、技术原理分析。信源类型混杂，部分内容为主观判断，非独立测试报告。