四大模型都标100万上下文，实测扒出残酷真相

6月13日，国内AI公司智谱发了新模型GLM 5.2，核心卖点是100万Token上下文窗口——是上一代的5倍，号称"真可用"。

现在市面上的AI旗舰——Anthropic的Claude Opus 4.8、OpenAI的GPT-5.5、DeepSeek的V4 Pro——也都标了100万。100万已经成了旗舰入场券。

但参数表上写的"支持1M上下文"，不等于你实际能用的1M上下文。

中间的差距有多大？我们用三组数据拆开看。

第一关：找一根针

最简单的测试，在一百万字的文档里找一根针。四大模型全都能拿满分——这个不算数。跟考驾照科目一一样，过了不代表你会开车。

第二关：同时找八根针

这才拉开差距。八根针散在100万字文档的不同角落，全找到才算过。

两个发现：第一，Claude Opus 4.6能拿78%，但它的下一代4.7直接跌到32%——掉了46个百分点。这是"能用"和"不能用"的差距。4.8号称修了，但这份数据至今没公布。沉默本身就是信号。第二，DeepSeek V4 Pro只拿了59%。你把整个代码仓库塞进去让它找关键依赖，它有四成的概率找不到。这对写代码来说非常致命。

第三关：链式推理

真正的工程场景不是找信息，是推信息——"A调B，B靠C，C什么时候会崩？"

香港大学一篇论文用100万Token古文做了三跳推理测试。三种模型，三种命运：

Claude和Gemini是稳定型——25万、50万到100万，慢慢衰减但不崩。

DeepSeek是匀速下滑型——每扩一倍，稳定折一截。

GPT-5.5是悬崖型——前50万稳如泰山，50万到100万直接腰斩到40%。

另一组数据也印证了这个结论：在GraphWalks长图推理测试里，Claude Opus 4.8拿了68.1%，GPT-5.5只有45.4%——差了23个百分点。

还有一个维度更隐蔽：上下文编造

不是凭空瞎编，是明明看了你的文档，却说"第二季度营收增长12%"，而文档里根本没写这个数。

GPT-5.5最强，不编造率98.1%；Kimi K2.6是94.6%；GLM 5.1是87.2%；Claude Opus 4.8是81.4%。而且Claude 4.8在这个测试上有个尴尬细节——它跑不了完整的100万Token输入，只能退到85万来测。

回到GLM 5.2

它6月13日发布，但到现在没公布任何一个公开评测数据。代码修复、多针检索、多跳推理——全都没有。只有一个内部"综合得分约81.43"。

这不等于它不行。GLM 5.1在开源模型里已经很强——在一项行业标准的代码修复测试上拿了58.4%，跟GPT-5.5的58.6%几乎打平。而5.1只有20万上下文。

现在5.2把上下文翻了5倍。保持力还在吗？这个问题只能等下周API开放、第三方实测后才能回答。

但这也是GLM 5.2最大的机会——Opus 4.7翻车了，GPT-5.5悬崖下跌了，如果GLM 5.2能在多针检索和多跳推理上站稳，国产模型在长上下文这件事上，就真的追上来了。

一句话

选模型别看参数表上的"最大上下文"，看第三方评测里的"有效上下文"。标称一视同仁，实测天差地别。

posted @ 2026-06-15 13:01 爻枢未来阅读(46) 评论(0) 收藏举报

刷新页面返回顶部