四大模型都标100万上下文,实测扒出残酷真相

6月13日,国内AI公司智谱发了新模型GLM 5.2,核心卖点是100万Token上下文窗口——是上一代的5倍,号称"真可用"。

现在市面上的AI旗舰——Anthropic的Claude Opus 4.8、OpenAI的GPT-5.5、DeepSeek的V4 Pro——也都标了100万。100万已经成了旗舰入场券。

参数表上写的"支持1M上下文",不等于你实际能用的1M上下文。

中间的差距有多大?我们用三组数据拆开看。

第一关:找一根针

最简单的测试,在一百万字的文档里找一根针。四大模型全都能拿满分——这个不算数。跟考驾照科目一一样,过了不代表你会开车。

第二关:同时找八根针

这才拉开差距。八根针散在100万字文档的不同角落,全找到才算过。

多针检索准确率对比

两个发现:第一,Claude Opus 4.6能拿78%,但它的下一代4.7直接跌到32%——掉了46个百分点。这是"能用"和"不能用"的差距。4.8号称修了,但这份数据至今没公布。沉默本身就是信号。第二,DeepSeek V4 Pro只拿了59%。你把整个代码仓库塞进去让它找关键依赖,它有四成的概率找不到。这对写代码来说非常致命。

第三关:链式推理

真正的工程场景不是找信息,是推信息——"A调B,B靠C,C什么时候会崩?"

三跳推理衰减模式对比

香港大学一篇论文用100万Token古文做了三跳推理测试。三种模型,三种命运:

Claude和Gemini是稳定型——25万、50万到100万,慢慢衰减但不崩。

DeepSeek是匀速下滑型——每扩一倍,稳定折一截。

GPT-5.5是悬崖型——前50万稳如泰山,50万到100万直接腰斩到40%。

另一组数据也印证了这个结论:在GraphWalks长图推理测试里,Claude Opus 4.8拿了68.1%,GPT-5.5只有45.4%——差了23个百分点。

还有一个维度更隐蔽:上下文编造

不是凭空瞎编,是明明看了你的文档,却说"第二季度营收增长12%",而文档里根本没写这个数。

GPT-5.5最强,不编造率98.1%;Kimi K2.6是94.6%;GLM 5.1是87.2%;Claude Opus 4.8是81.4%。而且Claude 4.8在这个测试上有个尴尬细节——它跑不了完整的100万Token输入,只能退到85万来测。

回到GLM 5.2

它6月13日发布,但到现在没公布任何一个公开评测数据。代码修复、多针检索、多跳推理——全都没有。只有一个内部"综合得分约81.43"。

这不等于它不行。GLM 5.1在开源模型里已经很强——在一项行业标准的代码修复测试上拿了58.4%,跟GPT-5.5的58.6%几乎打平。而5.1只有20万上下文。

现在5.2把上下文翻了5倍。保持力还在吗?这个问题只能等下周API开放、第三方实测后才能回答。

但这也是GLM 5.2最大的机会——Opus 4.7翻车了,GPT-5.5悬崖下跌了,如果GLM 5.2能在多针检索和多跳推理上站稳,国产模型在长上下文这件事上,就真的追上来了。

一句话

选模型别看参数表上的"最大上下文",看第三方评测里的"有效上下文"。标称一视同仁,实测天差地别。

posted @ 2026-06-15 13:01  爻枢未来  阅读(46)  评论(0)    收藏  举报