Anthropic 官宣 Mythos:强到不敢外放,DeepSeek 连夜悄悄更新
今天早上打开手机,又被两条消息刷屏了。
一边是 Anthropic 官宣 Mythos 强到 “不敢外放”,一边是 DeepSeek 网页版悄悄加了双模式。
今早 AI 圈两条消息,刚好代表了行业现在的两个方向:安全控风险,产品精细化。
我们今天来简单聊一下这两件事。
先说说Mythos。
Mythos: 很厉害,很危险
Mythos 在古希腊文化里是神话的意思,从这个起名就能感受到他们的野心。
全面碾压的基准测试数据
在衡量网络安全漏洞复现能力的 CyberGym 测试中,Claude Mythos Preview 的得分为 83.1%,而 Opus 4.6 仅为 66.6%。

在智能体编程(Agentic coding)能力方面,进步同样令人瞩目:

在智能体搜索和计算机使用(Agentic search and computer use)维度上也有进步:

在衡量综合推理能力的测试中,Claude Mythos Preview 同样表现优异。在 GPQA Diamond 基准测试中,其得分为 94.6% ;在极具挑战性的 Humanity's Last Exam 测试中,借助工具的 Mythos Preview 获得了 64.7% 的分数,显著高于 Opus 4.6 的 53.1%。

光看分数已经很强,但是Anthropic的说法是,这个模型的挖洞能力极强。
官博客中写了三个案例:
-
在 OpenBSD 中发现了一个存在了 27 年之久的漏洞。OpenBSD 在业内以其极高的安全性著称,被广泛用于运行防火墙和其他关键基础设施。这个被 AI 发现的漏洞允许攻击者仅仅通过连接目标机器,就能远程使任何运行该操作系统的设备崩溃。
-
在 FFmpeg 中发现了一个潜伏了 16 年的漏洞。FFmpeg 是一个被无数软件用于编码和解码视频的底层组件。令人惊讶的是,这个漏洞隐藏在一行代码中,而自动化的安全测试工具在过去已经对这行代码进行了高达 500 万次的测试,却始终未能捕捉到这个致命问题。
-
在 Linux 内核(运行着全球绝大多数服务器的底层软件)的测试中,Claude Mythos 展现了强大的逻辑链条构建能力。它自主发现并串联了多个看似独立的 Linux 内核漏洞,最终构建出一条完整的攻击路径,允许攻击者从普通的用户访问权限直接跃升,获取对整台机器的完全控制权。
展示了它有多强,又说太强了我们必须要慎重。
他们的原话是“AI 模型在发现和利用软件漏洞方面的编码能力已经达到可以超越除最顶尖人类之外所有人类的水平。”
所以跟Mythos一起推出的还有一个“Project Glasswing”(玻璃之翼)的计划。

意思就是太强了,需要大家联合起来一起来加强防御。Anthropic 几乎把所有合作伙伴都叫上了。

除了 12 家核心合作伙伴,还有超过 40 个构建或维护关键软件基础设施的组织获得了访问权限,可以用 Mythos 扫描自家系统和开源项目。
我突然感觉,Token usage烧的飞快,Pro用户「降级」成免费用户,OpenClaw被断水断粮,Claude Code莫名其妙的开源……
都有原因了。
DeepSeek的静默更新
就在Mythos 疯狂占领流量高地的时候,DeepSeek也在今天凌晨上线了新功能。
还是跟往常一样,没有新闻,没有发布,没有任何官方言论。
DeepSeek输入框上方多了一个闪电图标(快速模式)和一个钻石图标(专家模式)。


目前从实测和网友拆解来看,两个模式的差异大概是这样的:
快速模式,可以识别图片和文件中的文字,速度快,响应即时。
代价是,背后跑的大概率是一个更轻量的 V4 Lite 模型,但针对速度做了优化。

专家模式,疑似路由到了更大、更强的模型——很可能就是 DeepSeek V4 正式版的某个形态。

所以专家模式功能更少?我的推测是现在灰度的专家模式不是最终形态。
另外还有一个爆料,虽说现在只有两种模式,但是第三种模式已经在路上:Vision 模式。

关注 DeepSeek 技术路线的博主 Teortaxes 认为:把 Vision 单独列为一个类,是很不寻常的设计。
他认为DeepSeek 之前拒绝在网页端部署 DS-VL 系列,原因是「尚未成熟」。
如果 Vision 模式真的上线,背后支撑它的,很可能已经是一个「完全功能化」的 VLM。
如果这样的话,V4可能确实会是一个多模态大模型。
那DeepSeek 上线这两个模式啥意思?
在大家心里,DeepSeek 一直是类似“扫地僧”一样的存在。默默研发,默默开源,API定价低。
现在做两个模式,是为收费打基础?还是为了缓解算力压力的一种策略?
幻方虽然挣钱,但是GPU推理的成本摆在那里,要控本也完全能理解。
还是说,就是我想多了。
DeepSeek只是习惯性“闷声憋大招”?
你咋看?
AI进入新阶段?
这两件事还挺有意思的。
以前看大模型,比拼的都是谁更高更快更强,如今行业终于开始认真面对安全边界、成本控制和可持续性这些现实问题。
在我看来,这正是大模型技术愈发落地的体现。
这无疑是件好事,毕竟只有能持续、安全落地运行的大模型,才能真正走到实处、普惠于民。

浙公网安备 33010602011771号