GLM-5.2 智谱迄今为止能力最强的开源模型

就在刚才,智谱官宣:今晚 5:21,GLM-5.2 面向 GLM Coding Plan 全量用户开放

👉 Join GLM Coding Plan — $18/月起

不是内测,不是排队,是全量。Lite、Pro、Max、团队版,全部可用。

而且,API 下周上线,模型下周正式开源,MIT 协议

 

这意味着什么?意味着你花 $18/月订阅的 Coding Plan,背后跑的是智谱迄今为止能力最强的开源模型,支持真正可用的 1M 上下文,长程任务继续领先。

 


先上硬货:官方性能数据

GLM-5.2 是 GLM-5.1 的继任者,而 GLM-5.1 的官方评测数据已经相当能打。以下是智谱官方技术报告(z.ai/blog/glm-5.1)释放的核心指标:

基准测试GLM-5.1对比对象(GPT-5.2 / Claude Opus 4.6)
SWE-Bench Pro 58.4% GPT-5.2: 55.6%
HLE( Humanity's Last Exam ) 31.0% Claude Opus 4.6: 36.7%
HLE w/ Tools 52.3% Claude Opus 4.6: 53.1%*
AIME 2026 95.3% Claude Opus 4.6: 95.6%
HMMT Nov. 2025 94.0% Claude Opus 4.6: 96.3%
GPQA-Diamond 86.2% Claude Opus 4.6: 91.3%
Terminal-Bench 2.0 63.5% Claude Opus 4.6: 65.4%
CyberGym 68.7% Claude Opus 4.6: 66.6%
BrowseComp 68.0%
BrowseComp w/ Context Manage 79.3% Claude Opus 4.6: 84.0%
Vending Bench 2(长程商业模拟) \$5,634.41 Claude Opus 4.6: \$8,017.59

 

几个关键结论:

1. SWE-Bench Pro 上,GLM-5.1 已经领先 GPT-5.2

BenchLM 的独立对比显示,GLM-5.1 在 SWE-Bench Pro 上以 58.4% vs 55.6% 击败 GPT-5.2,在 Agentic 任务上更是以 65.3 vs 55.2 大幅领先。

 

2. 长程任务能力开源第一

在 Vending Bench 2(让模型经营一年自动售货机生意)中,GLM-5.1 最终账户余额 $5,634.41,较 GLM-5 的 $4,432 提升 27%,接近 Claude Opus 4.6 的 $8,017.59。

 

3. LMArena 开源模型双榜第一

GLM-5 在 LMArena 的 Text Arena 和 Code Arena 均为开源模型 #1,整体与 Claude Opus 4.5、Gemini 3 Pro 持平。

 

4. GLM-5.2 在 5.1 基础上继续突破

官方明确表态:GLM-5.2 是"智谱迄今能力最强的开源模型",1M 上下文"真正可用",长程任务"继续领先"。

 

这意味着 5.2 在 5.1 的基准之上,长上下文和持续 agentic 能力会有进一步提升。


为什么我一直在用 GLM Coding Plan?

一句话:Claude Code 的体验,Claude Max 1/10 的价格

官方 Claude Code 的订阅路径:

  • Claude Pro:$20/月,限额极低,写半天就触顶
  • Claude Max 5x:$100/月
  • Claude Max 20x:$200/月

而 GLM Coding Plan:

  • Lite:$18/月,80 prompts/5小时,约 3 倍于 Claude Pro 的用量
  • Pro:$36–$50/月,400 prompts/5小时
  • Max:$72–$96/月,1600 prompts/5小时,无实际限制

更关键的是,它原生兼容 Claude Code、Cline、Cursor、Roo Code、OpenClaw 等 20+ 工具

 

你不需要换工作流,只需要把 API endpoint 切到 Z.AI,粘贴 API Key,就能继续用你熟悉的 agentic 编程工具。

实测下来的感受:日常写业务代码、重构模块、多文件编辑,GLM-5.1 已经跟 Claude Sonnet 4.6 几乎无差别。SWE-Bench Pro 得分 58.4,Claude Code 内部评测达到 Claude Opus 4.6 的 94.6%。

 

现在 5.2 来了,只会更强。


GLM-5.2 到底升级了什么?

根据官方释放的信息,核心亮点就三个:

1. 智谱迄今能力最强的开源模型 不是"之一",是"最强"。而且下周开源,MIT 协议,你可以随便部署、随便改。

2. 真正可用的 1M 上下文 不是纸面参数,是实际能跑长文档、长代码库、长会话的 1M。做大型项目重构、读整个仓库的上下文,终于不用拆片段了。

3. 长程任务继续领先 GLM-5.1 已经强调过长程任务突破,5.2 在这个方向上继续深耕。对于需要连续数小时 agentic 编程的场景,这是硬通货。


适合谁?不适合谁?

适合:

  • 用 Claude Code 但嫌 $200/月太贵的开发者
  • 学生、独立开发者、自由职业者
  • 需要多一个备份渠道的团队(防止单一模型突然不可用)
  • 想尝鲜 1M 上下文长程编程的人

不适合:

  • 写金融级、航天级代码,必须 Claude Opus 4.7 才安心的场景
  • 需要原生 1M 上下文且预算充足到不在乎 $200/月的用户

对绝大多数日常写代码的人来说,$18/月的 Lite 足够当主力,$50/月的 Pro 足够当主力+备用


怎么上车?

如果你还没订阅,可以直接用我的邀请链接,锁定当前价格:

👉 Join GLM Coding Plan — $18/月起

支持 Claude Code、Cline、Cursor 等 20+ 工具,今晚就能用上 GLM-5.2。


最后说两句

智谱今天有句话说得挺硬气:"在一些前沿模型突然变得不可用的时刻,智谱选择相信另一条路:前沿智能不应只属于少数人,也不应被少数规则随时收回。"

 

不管你是不是认同这个价值观,$18/月能用上 1M 上下文的顶级编程模型,这件事本身就已经把门槛砸穿了。

posted @ 2026-06-13 17:56  码奋  阅读(952)  评论(0)    收藏  举报