大模型终于不卷跑分,改卷打工了!

这两天我刷帖子刷得有点懵。

4 月 20 号,Kimi 悄悄放出 K2.6。4 月 23 号,腾讯混元 3.0 开源,小米 MiMo-V2.5 同一天公测。4 月 24 号,DeepSeek V4 Preview 上线。大洋彼岸那边,GPT-5.5、Claude Opus 4.7 接连发出,image2 火遍全网。

我数了一下,就这 7 天,至少 6 个万亿参数级别或者准万亿级别的模型同时在线。

这种密度,大模型火了这三年,一共都没见过几次。

热闹归热闹,我发现一件有意思的事。

大家聊的东西变了。以前一个新模型出来,讨论区清一色的「几分」「跑分第几」「MMLU 多少」。现在呢?我刷了两天帖子,发现讨论最多的不是谁更聪明,而是两个特别具体的问题。

一个是「它能帮我干什么活」。

一个是「用它要花多少钱」。

傅盛之前在节目里做过一个大致测算,要想大模型产生生产力,一个人每天花在买 token 上的钱,大约是 10 美元,我的体感与此类似。

顶尖的模型做出一流的工作,一流的模型做出二流的工作,其他模型做出来的就很废了。

所以你看,这背后其实就是两件事,产能和成本。

这两个词,恰好对应了这波神仙打架里我最想聊的两个选手。

DeepSeek V4 和 Kimi K2.6。

一个把「AI 能帮你干多少活」这件事往前推了一大步,一个把「用 AI 要花多少钱」打到了一个让人不敢相信的地板价。

而且这两家之间有一段特别有意思的关系。K2.6 的架构用了 DeepSeek 的 MLA 注意力机制,V4 的训练用了 Kimi 的 Muon 优化器。两家公司最后的深层交汇点,居然是芯片。

这不是段子。这是 2026 年中国 AI 行业让人觉得「能打」的那个部分。

我觉得这件事值得好好聊聊。先说模型,再聊体验,最后我们聊开源。

DeepSeek做到了啥

先聊DeeSeek V4。

DeepSeek 的路线,我给它取了个名字叫「基础设施路线」。单点极致,不做多模态,不做花哨的 C 端交互,所有力气花在推理和编码上,然后把 API 定价打到地板。

V4 Pro 的定价,输入$1.74/百万 token,输出$3.48/百万 token。

GPT-5.5 呢?输入$5,输出$30。

Mashable 算了一笔账,V4 比 GPT-5.5 便宜大约 85%。VentureBeat 的说法更直接,大概是 GPT-5.5 的七分之一,Opus 4.7 的六分之一。

V4 Flash 更离谱。输入$0.14/百万 token,输出$0.28/百万 token。Cline 的 CEO 算了一笔账说,如果 Uber 用 V4 替代 Claude,它 2026 年的 AI 预算本来只够用四个月,换成 V4 够用七年。

七年。

这就是 DeepSeek 的风格。你要造什么都行,我负责把成本给你打下来。

图片

(这里说明一下,由于没有查到 K2.6 价格,这里通过公开数据计算得出)

这对 Agent 场景的意义太大了。一个 Agent 跑长任务的时候,每个工具返回的结果都会追加到上下文里,上下文越来越长,每生成一个新 token 都要对前面所有内容做一遍注意力计算。如果这个成本降不下来,100 万 token 就是个摆设。V4 在这块做的事情,其实是在给整个 Agent 生态铺路。

当一群AI开始帮你干活

K2.6 走的是另一条路。

坦率的讲,K2.6 让我真正兴奋的不是模型本身有多强。强不强,数据摆两个你自己看。

OpenRouter 编程能力日榜第一。

图片

Artificial Analysis 的 Intelligence Index 给了 54 分,全球第四。前面三个分别是 Claude Opus 4.7、Gemini 3.1 Pro、GPT-5.4,而这四个里面,仅有 K2.6 是开源模型。

图片

火了一段时间了,模型配置我就不摆了,大家应该都看到了。

真正让我坐直的,是跑在 K2.6 上面的两个功能。

一个叫「Agent 集群」。一个叫「Office 文档转 Skill」。

翻译翻译,一个叫产能,一个叫标准。

Agent 集群,这个架构跟 Anthropic 今年 2 月在 Claude Code 里上线的 Agent Teams 异曲同工,但 Claude 那个是给开发者用的,得敲命令行配 settings.json,产物主要是代码。K2.6 的 Agent 集群面向所有人,说句话就行,交付的是 PDF、PPT、Excel、Word 这些办公产物。

同样的群体智能方向,截然不同的答卷。

现实世界里,一个真正复杂的项目是怎么完成的?不是一个天才坐在那里从头干到尾。而是一个团队,产品经理定方向,设计师出视觉,工程师写代码,分析师跑数据,每个人各司其职,并行推进,最后汇总交付。

Agent 集群做的就是这件事。

它不再是一个 Agent 在那里单打独斗了。K2.6 驱动的 Agent 集群架构迎来一次大升级,现在支持 300 个子 Agent 并行完成 4000 个协作步骤。其实 Agent 集群在 K2.5 就有了,但这次我是真的觉得,它达到了生产级。

Kimi 官方文档里说了,最多可以有 300 个 Agent 一起干活。

既然如此,我不客气了。必须拉满。

请看我的提示词。

图片

从思维链中可以看到,它立刻生成了一堆子 agent 开始安排任务。

图片

过程中能够看到,始终有两个子 agent 在总揽全局。

图片

第一次跑通的时候,说实话愣了好几秒。

因为它输出给我的不是一个数据模拟器,而是有过程、有可视化呈现、有结果报告的全方位展示。

图片

甚至还有意见领袖上台演讲。大家可以看一下辩论过程呈现网页中的这一部分,有演讲大纲、说服网络、达成效果。我感觉自己不是在和 AI 对话,更像是站在一个 300 人的报告厅里听辩论。

图片

这还没完。总输出物是一个辩论过程网页呈现、一个辩论 PPT 报告,还有一个 33 页的混合架构白皮书。

图片

大家可以看一下这个白皮书。

图片

我当时的反应不是「哇好厉害」,而是一种很奇怪的恍惚感。

当你第一次看到 AI 也开始协作的时候,那种感觉其实挺奇妙的。你不是在用一个工具。你是在旁观一个组织开始工作。

甚至它还做了成本分析和对比。

AI 开始雇佣 AI 了?AI 也开始计算人效比?

图片

后来我又试了几个场景。

例如我要制作一个包豪斯风格的日历,直接告诉它需求,它就开始分步骤,给不同的 Agent 安排活儿。

图片

出来的是中英文配套、审美在线的日历图,并且还配了一个 PPT 产品展示。

图片

每次看到这些产物一次性弹出来的时候,我都会想起一个数字。

广告公司一个项目组做类似的事情,大概需要 100 个小时。

Agent 集群需要多久?

大概 30 分钟。

前两天我和一个深度 ChatGPT 用户的朋友聊天,他感叹了一句,Pro 的活儿是真好,慢也是真慢,贵也是真贵。

ChatGPT Pro 之所以有这样的效果,核心原因是它有非常长的思维链,大模型在不断回溯之前的结果,不断修改。此刻我有了使用 Pro 的感觉,Kimi 用多 Agent 的方式做到了同样的事。

100 个小时和 30 分钟。记住这个对比,后面还会用到。

回到 Skill 这块。

Skill 满天飞,但我觉得它是最容易被低估的一个东西。因为真正决定交付质量的,往往不是你有没有灵感,而是你有没有稳定的方法。

K2.6 的「Office 文档转 Skill」功能,把这件事做得极其简洁。

把你认为最好的那份产物,一份顶级研报、一份精美的 PPT 模板、一份专业的财务分析表,直接发给 Kimi Agent,它会自动深度学习这份产物的结构、风格、排版、配色和逻辑,然后生成一份对应的 Skill。

图片

以后你每次让 Agent 集群干活的时候,调用这个 Skill,产出的东西就会自动对齐那份顶级产物的标准。Excel、PDF、Word、PPT,全格式支持。

Skill 加上 Agent 集群,等于标准化批量交付。

这两个功能合在一起,才是 K2.6 真正的杀手锏。

DeepSeek V4 vs Kimi K2.6

聊到这儿,一个有趣的问题出现了。

K2.6 和 V4,到底谁更强?

坦率的讲,这个问题本身就问错了。它们走的是完全不同的路。

图片

K2.6 是系统优化路线。模型加产品加 Agent 一起上,原生多模态,能处理文本、图片和视频,Agent 集群能力是它最重要的差异化。它想做的是 AI 时代的操作系统,让每个人都能调度一个 AI 团队帮自己干活。

V4 是基础设施路线。单点极致,100 万 token 上下文,API 定价打到地板,不做多模态,专注推理和编码。它想做的是 AI 时代的水电煤,让所有开发者和企业都能用最低成本跑最强的模型。

一个面向所有人说「你只要开口,剩下的交给我的团队」。

一个面向开发者说「我把成本给你打下来」。

而且正因为走的不同,才有了我开头提到的那段有意思的关系。

DeepSeek V4 的训练,用了 Kimi 的 Muon 优化器。月之暗面团队在万亿参数规模上验证了 MuonClip 的训练稳定性,预训练全程零 Loss Spike。DeepSeek 看到效果,直接拿来用了。

Kimi K2.6 的架构,用了 DeepSeek 的 MLA 注意力机制。Multi-head Latent Attention,通过对投影矩阵做低秩近似,把 KV Cache 的压缩率做到了 93%以上。翻译成人话就是,推理时占的显存大幅降低,同样的硬件能跑更大的模型。

这两个技术创新都不是偷来的。是光明正大地、通过论文和 GitHub 拿来用的。

你品品这个事。

两家中国最顶尖的 AI 公司,各自拿出了自己最核心的技术创新,开源出去,然后对方在下一代模型里直接用上了。

开源正在改写游戏规则

顺着这个再往深聊一层。

很多朋友可能会问,互相用对方的技术,那护城河在哪?如果谁都能用你的东西,你凭什么比别人强?

这个问题问得好。但它基于一个旧世界的假设,就是「技术是排他性资产」。

在闭源体系里确实是这样。你发明了一个牛逼的注意力机制,那是你的护城河,你得申请专利,设置使用限制。

但在开源体系里,逻辑完全不同。

你发明了 MLA,全世界都能用。但你的团队因为最先使用它、最理解它的设计意图、在工程实现上跑得最远,所以你天然领先。护城河不是「你有什么别人没有的」,而是「你能比别人更快地把最新的技术整合到下一代模型里」。

这有点像 Linux。Linux 从来不属于任何一家公司。但基于 Linux 构建的生态,支撑了整个互联网时代。Red Hat、Google、Amazon,都在 Linux 上面建了自己的商业帝国。它们的护城河不是 Linux 本身,而是在 Linux 之上构建的独特能力。

DeepSeek 和 Kimi 正在做的事情,是在共同浇筑中国 AI 的「Linux」。

回头看看大洋彼岸在干什么。

当时看到 OpenAI 创始人和 Claude 创始人两人合照用手势对立的时候,当时第一反应是。。。你们认真的吗?

怎么说呢,有点像小学生吵架。

我不想把这个事情上升到什么宏大叙事,什么制度优越性,那太扯了。但有一个事实是很难反驳的,当技术通过开源代码自由流动的时候,整个生态的进化速度,是封闭生态没法比的。

DeepSeek 的 MLA 发明出来之后,不只 Kimi 在用,全世界的开源模型都在用。Kimi 的 MuonClip 验证成功之后,不只 DeepSeek 在用,学术界和其他公司也在跟进。每一个技术创新都在被以最快的速度吸收、改进、再释放出去。

还有一条很多人没注意到的暗线。

H20 已经断供一年了。推理芯片短期内只有国产一个选项。

Kimi 上周末发了一篇论文,叫 Prefill-as-a-Service。简单来讲就是,它用 Kimi Linear 混合注意力架构把 KV Cache 的传输需求压到了极低的水平,然后把 Prefill 和 Decode 两个阶段解耦到不同的异构集群,甚至可以跨数据中心。实验结果是吞吐量提升 54%,P90 TTFT 降低 64%。

论文里有一句容易被忽略的话。

这个方案对「算力强但显存容量和带宽有差距的国产卡」特别友好。

与此同时,Fortune 的报道提到 DeepSeek V4 正在跟华为芯片做紧密整合。

你看到了吗?两条线又汇到一起了。

Kimi 用新架构为国产芯片打开了推理的大门。DeepSeek 可能成为第一个在国产芯片上大规模部署的万亿参数模型。一个从软件侧降低硬件要求,一个从应用侧直接适配硬件。

殊途同归。

黄仁勋前阵子在 The Dwarkesh Podcast 上被问到禁止对中国出口芯片这件事,他说了一句很耐人寻味的话,芯片又不是铀浓缩,禁售阻挡不了中国芯片的进步,他们依旧可以通过国产芯片暴力堆叠来开发模型。

图片

DeepSeek 和 Kimi 的下一步,就是标准答案。

其实写到这里,我本来想收了。但有一个念头一直在脑子里转。

这一周发生的事情,表面上看是几个模型在打架。但往后退一步看,你会发现一个更大的图景正在成型。

过去三年,我们一直在跟 AI「聊天」。一问一答,一来一回。这个交互模式让我们不自觉地把 AI 想象成「一个人」。

但这一周的发布,不管是 K2.6 的 300 个子 Agent 并行,还是 V4 的 100 万 token 长上下文,还是 Claude 的 Agent Teams,它们指向的都是同一个东西。

AI 不再是「一个聪明人」了。

它开始变成一个组织。一个能拉群、能分工、能协作的组织。

还记得前面那个对比吗?广告公司 100 个小时,Agent 集群 30 分钟。V4 把推理成本打到地板,让这种大规模协作在经济上可行。K2.6 把 Agent 集群做成产品,让普通人也能调度这种协作。

一个在铺路,一个在开车。

我不确定这到底会走向哪里。但我确定的是,当 DeepSeek 和 Kimi 各自交出这样的答卷,而且还在互相借力往前跑的时候,这场游戏的走向,已经跟很多人想的不一样了。

历史不会简单重复。但它会押韵。

posted @ 2026-04-26 23:24  贾克斯的平行世界  阅读(20)  评论(1)    收藏  举报