GLM-5.2 智谱迄今为止能力最强的开源模型

就在刚才，智谱官宣：今晚 5:21，GLM-5.2 面向 GLM Coding Plan 全量用户开放。

不是内测，不是排队，是全量。Lite、Pro、Max、团队版，全部可用。

而且，API 下周上线，模型下周正式开源，MIT 协议。

这意味着什么？意味着你花 $18/月订阅的 Coding Plan，背后跑的是智谱迄今为止能力最强的开源模型，支持真正可用的 1M 上下文，长程任务继续领先。

先上硬货：官方性能数据

GLM-5.2 是 GLM-5.1 的继任者，而 GLM-5.1 的官方评测数据已经相当能打。以下是智谱官方技术报告（z.ai/blog/glm-5.1）释放的核心指标：

基准测试	GLM-5.1	对比对象（GPT-5.2 / Claude Opus 4.6）
SWE-Bench Pro	58.4%	GPT-5.2: 55.6%
HLE（ Humanity's Last Exam ）	31.0%	Claude Opus 4.6: 36.7%
HLE w/ Tools	52.3%	Claude Opus 4.6: 53.1%*
AIME 2026	95.3%	Claude Opus 4.6: 95.6%
HMMT Nov. 2025	94.0%	Claude Opus 4.6: 96.3%
GPQA-Diamond	86.2%	Claude Opus 4.6: 91.3%
Terminal-Bench 2.0	63.5%	Claude Opus 4.6: 65.4%
CyberGym	68.7%	Claude Opus 4.6: 66.6%
BrowseComp	68.0%	—
BrowseComp w/ Context Manage	79.3%	Claude Opus 4.6: 84.0%
Vending Bench 2（长程商业模拟）	\$5,634.41	Claude Opus 4.6: \$8,017.59

几个关键结论：

1. SWE-Bench Pro 上，GLM-5.1 已经领先 GPT-5.2

BenchLM 的独立对比显示，GLM-5.1 在 SWE-Bench Pro 上以 58.4% vs 55.6% 击败 GPT-5.2，在 Agentic 任务上更是以 65.3 vs 55.2 大幅领先。

2. 长程任务能力开源第一

在 Vending Bench 2（让模型经营一年自动售货机生意）中，GLM-5.1 最终账户余额 $5,634.41，较 GLM-5 的 $4,432 提升 27%，接近 Claude Opus 4.6 的 $8,017.59。

3. LMArena 开源模型双榜第一

GLM-5 在 LMArena 的 Text Arena 和 Code Arena 均为开源模型 #1，整体与 Claude Opus 4.5、Gemini 3 Pro 持平。

4. GLM-5.2 在 5.1 基础上继续突破

官方明确表态：GLM-5.2 是"智谱迄今能力最强的开源模型"，1M 上下文"真正可用"，长程任务"继续领先"。

这意味着 5.2 在 5.1 的基准之上，长上下文和持续 agentic 能力会有进一步提升。

为什么我一直在用 GLM Coding Plan？

一句话：Claude Code 的体验，Claude Max 1/10 的价格。

官方 Claude Code 的订阅路径：

Claude Pro：$20/月，限额极低，写半天就触顶
Claude Max 5x：$100/月
Claude Max 20x：$200/月

而 GLM Coding Plan：

Lite：$18/月，80 prompts/5小时，约 3 倍于 Claude Pro 的用量
Pro：$36–$50/月，400 prompts/5小时
Max：$72–$96/月，1600 prompts/5小时，无实际限制

更关键的是，它原生兼容 Claude Code、Cline、Cursor、Roo Code、OpenClaw 等 20+ 工具。

你不需要换工作流，只需要把 API endpoint 切到 Z.AI，粘贴 API Key，就能继续用你熟悉的 agentic 编程工具。

实测下来的感受：日常写业务代码、重构模块、多文件编辑，GLM-5.1 已经跟 Claude Sonnet 4.6 几乎无差别。SWE-Bench Pro 得分 58.4，Claude Code 内部评测达到 Claude Opus 4.6 的 94.6%。

现在 5.2 来了，只会更强。

GLM-5.2 到底升级了什么？

根据官方释放的信息，核心亮点就三个：

1. 智谱迄今能力最强的开源模型 不是"之一"，是"最强"。而且下周开源，MIT 协议，你可以随便部署、随便改。

2. 真正可用的 1M 上下文 不是纸面参数，是实际能跑长文档、长代码库、长会话的 1M。做大型项目重构、读整个仓库的上下文，终于不用拆片段了。

3. 长程任务继续领先 GLM-5.1 已经强调过长程任务突破，5.2 在这个方向上继续深耕。对于需要连续数小时 agentic 编程的场景，这是硬通货。

适合谁？不适合谁？

适合：

用 Claude Code 但嫌 $200/月太贵的开发者
学生、独立开发者、自由职业者
需要多一个备份渠道的团队（防止单一模型突然不可用）
想尝鲜 1M 上下文长程编程的人

不适合：

写金融级、航天级代码，必须 Claude Opus 4.7 才安心的场景
需要原生 1M 上下文且预算充足到不在乎 $200/月的用户

对绝大多数日常写代码的人来说，$18/月的 Lite 足够当主力，$50/月的 Pro 足够当主力+备用。

怎么上车？

如果你还没订阅，可以直接用我的邀请链接，锁定当前价格：

👉 Join GLM Coding Plan — $18/月起

支持 Claude Code、Cline、Cursor 等 20+ 工具，今晚就能用上 GLM-5.2。

最后说两句

智谱今天有句话说得挺硬气："在一些前沿模型突然变得不可用的时刻，智谱选择相信另一条路：前沿智能不应只属于少数人，也不应被少数规则随时收回。"

不管你是不是认同这个价值观，$18/月能用上 1M 上下文的顶级编程模型，这件事本身就已经把门槛砸穿了。

posted @ 2026-06-13 17:56 码奋阅读(952) 评论(0) 收藏举报

刷新页面返回顶部

码奋