智谱 GLM-5.2 发布:国产编程模型首次追平世界一流

智谱 GLM-5.2 发布:国产编程模型首次追平世界一流

_

智谱上周发布 GLM-5.2,这是其迄今能力最强的开源模型。支持真正可用的 100 万 token 上下文窗口,在长程编程任务中保持领先,官方称其为「最强国产 Coding 模型」。GLM-5.2 今晚 5:21 起向 GLM Coding Plan 全量用户开放,覆盖 Lite / Pro / Max / 团队版;API 将于下周上线,模型下周正式开源,采用 MIT 协议。

为什么值得注意

在国内大模型竞争中,编程能力长期由 OpenAI 的 GPT 系列和 Anthropic 的 Claude 系列主导。GLM-5.2 前代产品 GLM-5.1 曾是首个突破编程基本可用线的国产模型,但存在明显短板:上下文超过 10 万 token 后注意力快速散失,在实际工程场景中可用性大幅下滑。

此后两个月,DeepSeek V4、Qwen3.7-Max、Kimi K2.6 等模型多次冲击国产编程 SOTA(最强模型),均未成功。同期北美迭代两代,GPT-5.5 与 Opus 4.8 将差距进一步拉大。在此背景下,GLM-5.2 实现了几个关键突破:

  • 在 5 个公开工程测试中取得 3 个 A 档(A 档意味着模型几乎不犯错、需求理解一步到位),与 Opus 4.8 持平
  • 前代 GLM-5.1 完不成全部 5 个项目,GLM-5.2 首次全部通过
  • 在 2 个更高难度的隐藏工程测试中首次参与并以 C 档通过,DeepSeek 和 GLM-5.1 则无法完成项目
  • 代码产出量平均高出其他模型 30%,但因注意力机制改进,漏看细节导致的 Bug 反而更少
  • 效率上,以成绩相近的 F 项目为例,Opus 4.8 产生 564 次工具调用、输出 26 万 token,GLM-5.2 仅用 557 次调用、17 万 token

不过在小众技术栈领域,GLM-5.2 与 Opus 仍有差距。测试中有项目需要大量使用较新三方库 API,GLM 全程被坑,而 GPT 会大量检索官方文档和 demo 来解决。智谱官方也承认,用户补充明确背景知识后表现会好很多。

技术观察

有分析指出,智谱模型在参数量上并非最激进:GLM-4.7 为 3580 亿参数,GLM-5.1 为 7440 亿,架构与 DeepSeek-V3.2 基本一致、参数量相近,但效果表现突出。分析认为这与其思维链设计有关:

  • GLM-5 系列在思维链中会显式地从头到尾梳理用户提供的所有要点,不遗漏
  • 内容过多时会递归压缩、逐层归纳,直到有信心给出答案
  • 在复杂编程任务中,这种方式类似「状态寄存器」,帮助模型按步骤完成任务,而非只在简单任务上展示长思维链却不收敛

影响

国产模型第一次在国内市场拉开代差。随着 GLM-5.2 开源,中小团队和企业可本地部署成本更低的编程助手,减少对北美 API 的依赖。有用户直言,这一开源让「token 中转站庞大产业链」面临压力。

编注:材料来源为知乎用户综合帖,含官方发布信息、第三方 benchmark 评测数据、技术原理分析。信源类型混杂,部分内容为主观判断,非独立测试报告。


首批实践成果毕业生:商业计划书与文学作品替代论文的探索 2026-06-13
端午亲子游占比超五成 广东龙舟赛事成最热目的地 2026-06-14