Claude Opus 4.6 是 Anthropic 迄今为止最强大的模型升级,也是 Opus 系列在长上下文与专家级推理能力上的一次关键跃迁。它不仅在编码、推理和代理任务等核心能力上实现了系统性提升,还首次引入了最高达 100 万 token 的上下文窗口(测试版),显著扩展了模型在真实复杂工作场景中的可用边界。
相较前代模型,Opus 4.6 更擅长在长时间运行的任务中保持专注与一致性,能够在超大规模代码库和文档集合中稳定工作,并在代码审查、调试和复杂问题分析中更频繁地发现并修正自身错误。这种能力提升不仅体现在工程与研究场景中,也延伸到了金融分析、知识密集型研究以及文档、表格和演示文稿等日常知识工作。
在多项行业权威基准测试中,Claude Opus 4.6 均处于领先地位,涵盖智能体编码、长上下文检索、多学科推理以及高价值知识工作评估等关键维度。同时,这些智能水平的显著提升并未以安全性为代价:在 Anthropic 迄今为止最全面的安全评估中,Opus 4.6 依然保持了极低的错位行为发生率,整体对齐水平达到甚至超过此前表现最好的前沿模型。

Claude Opus 4.6是什么
新的 Claude Opus 4.6 在前代模型的基础上提升了编码能力。它更善于规划、在更长时间内保持“智能体(agent)”任务运行、在更大的代码库中更可靠地工作,并且在代码审查和调试方面更强,可以发现自己的错误。作为 Opus 系列模型的首次尝试,Opus 4.6 引入了 100 万令牌上下文窗口(beta 测试)。
Opus 4.6 还可以将其改进的能力应用于各种日常工作任务:运行金融分析、进行研究以及使用和创建文档、电子表格和演示文稿。在 Cowork 中(Claude 可以自主多任务执行的平台),Opus 4.6 能够把这些技能整合起来为你工作。
该模型在多个评估指标上表现处于行业领先水平。例如,它在智能体编码评估 Terminal-Bench 2.0 上取得最高分,并在复杂的多学科推理测试 Humanity’s Last Exam 中领先所有其他前沿模型。 在评估经济价值性知识工作(如金融、法律等领域)的 GDPval-AA 中,Opus 4.6 的得分比行业第二名(OpenAI 的 GPT-5.2)高出约 144 Elo 分,比其前代模型(Claude Opus 4.5)高出 190 Elo 分。 在衡量模型查找难找在线信息能力的 BrowseComp测试中,它也表现更好。
正如我们在详细的系统卡里展示的,Opus 4.6 在全面的安全评估中表现出与行业其他前沿模型一样好或更好的整体安全特性,在安全评估中表现出较低的错位行为率。
知识工作
Opus 4.6 在多个专业领域的实际工作任务中都达到了最先进的水平。

代理搜索
Opus 4.6 在深度、多步骤代理搜索方面获得了业内最高分。

编码
Opus 4.6 在现实世界的智能体编码和系统任务方面表现出色。

推理
Opus 4.6 扩展了专家级推理的边界。

在 Claude Code 中,你现在可以组建代理团队共同协作完成任务。在 API 上,Claude 可以使用‘压缩(compaction)’来对自身上下文进行总结,从而执行更长时间运行的任务而不会轻易触达上下文限制。我们还引入了‘自适应思考(adaptive thinking)’,模型可以根据上下文线索判断在多大程度上启用扩展思考;同时提供新的 ‘effort(投入程度)’ 控制项,让开发者能在智能水平、速度和成本之间进行更精细的权衡。
我们对 Claude in Excel 进行了大幅升级,并以研究预览的形式推出了 Claude in PowerPoint,这让 Claude 在日常办公场景中更加强大。
Claude Opus 4.6评价
在自主编码、计算机操作、工具使用、搜索以及金融等方面,Opus 4.6 都是业界领先的模型,而且往往以明显优势取胜。下表展示了 Claude Opus 4.6 在各类基准测试中与我们以往模型及其他业界模型的对比情况

Opus 4.6 在从大规模文档集合中检索相关信息方面有显著提升。这种能力同样体现在长上下文任务上:它可以在几十万 token 的上下文中保持并跟踪信息,偏移更少,还能捕捉到连 Opus 4.5 都会忽略的细节。
人们对 AI 模型的常见抱怨之一是‘上下文腐烂(context rot)’,即当对话超过一定 token 数量后性能会下降。Opus 4.6 在这方面明显优于此前的模型:在 MRCR v2 的 8-needle 1M 变体测试中——这是一项考察模型在海量文本中检索‘隐藏’信息能力的“针在草堆里”评测——Opus 4.6 的得分为 76%,而 Sonnet 4.5 仅为 18.5%。这标志着模型在维持峰值表现的前提下,能够实际利用的上下文规模发生了质的飞跃。
总的来说,Opus 4.6 在跨长上下文检索信息、在吸收信息后的推理能力,以及整体专家级推理能力方面都有大幅提升。
上下文检索
在长上下文检索上,Opus 4.6 显示出显著进步

长语境推理
Opus 4.6 在跨越长上下文的深度推理方面表现出色

最后,下方图表展示了 Claude Opus 4.6 在多种基准测试中的表现,这些测试衡量了它的软件工程能力、多语言编程能力、长期一致性、网络安全能力以及生命科学知识水平。
根本原因分析
Opus 4.6 擅长诊断复杂的软件故障。

多语言编码
Opus 4.6 解决了跨编程语言的软件工程问题。

长期一致性
Opus 4.6 能够持续保持专注,并且在 Vending-Bench 2 上比 Opus 4.5 多赚 3,050.53 美元。

网络安全
Opus 4.6 比任何其他模型都能更好地发现代码库中的真正漏洞。

生命科学
Opus 4.6 在计算生物学、结构生物学、有机化学和系统发育测试中表现比 Opus 4.5 好近 2 倍。

安全性的提升
这些智能方面的提升并没有以安全性为代价。在我们的自动化行为审计中,Opus 4.6 在欺骗、逢迎、迎合用户妄想以及协助滥用等失配行为上的发生率都很低。总体而言,它与前代模型 Claude Opus 4.5(迄今为止我们对齐度最高的前沿模型)一样对齐,甚至更好。与近期的其他 Claude 模型相比,Opus 4.6 在‘过度拒答’(即在面对无害问题时也拒绝回答)的发生率上也最低。

(我们对每个最近的 Claude 模型进行了自动化行为审核,并计算了其总体不一致性行为得分)
对于 Claude Opus 4.6,我们进行了迄今为止最全面的一套安全评估,对多项测试进行了首次应用,并升级了多项既有测试。我们新增了关于用户福祉的评估,更复杂地测试模型拒绝潜在危险请求的能力,并更新了关于模型秘密执行有害行为能力的评估。我们还尝试了一些来自可解释性研究的新方法——可解释性是一门研究 AI 模型内部工作机理的科学——以开始理解模型为何会以某种方式行事,并最终发现常规测试可能遗漏的问题。
在 Opus 4.6 尤其出色、但既可能被用于正当用途也可能被滥用的领域,我们也引入了新的防护措施。尤其是针对其增强的网络安全能力,我们开发了 6 种新的网络安全探针——即用于检测有害回复的方法——以帮助我们追踪不同形式的潜在滥用。
我们也在加速该模型在网络防御方向上的应用,利用它帮助发现并修补开源软件中的漏洞(详见我们新的网络安全博客文章)。我们认为,让网络防御方使用像 Claude 这样的 AI 模型来缩小差距至关重要。网络安全形势瞬息万变,我们会在进一步了解潜在威胁的过程中,不断调整和更新防护措施;在不久的将来,我们可能还会引入实时干预,以阻止滥用行为。
产品与API更新
我们在 Claude、Claude Code 和 Claude 开发者平台上进行了大幅更新,以便让 Opus 4.6 能够发挥出最佳表现。”
Claude开发者平台
在 API 侧,我们让开发者对模型的投入程度拥有更好的控制权,并为长时间运行的代理提供更高的灵活性。为此,我们引入了以下特性:
-
- 自适应思考(Adaptive thinking)。此前,开发者只能在开启或关闭扩展思考之间二选一。现在,通过自适应思考,Claude 可以自行判断何时需要更深入的推理。在默认的高投入(high)设置下,模型会在有用时启用扩展思考,但开发者也可以调节投入程度,让模型在使用扩展思考时更为或更不“挑剔”。
-
- 投入程度(Effort)。现在共有四个投入等级可供选择:low(低)、medium(中)、high(高,默认)和 max(最大)。我们鼓励开发者尝试不同设置,以找出最适合自己场景的选项。
-
- 上下文压缩(Context compaction,测试版)。长时间的对话和自主任务往往会触达上下文窗口上限。上下文压缩功能会在对话接近可配置阈值时自动对较早的上下文进行总结并替换,从而让 Claude 在不触碰上下文限制的情况下执行更长时长的任务。
-
- 100 万 token 上下文(测试版)。Opus 4.6 是我们首款支持 100 万 token 上下文的 Opus 级模型。对于超过 20 万 token 的提示部分,将采用溢价定价:每百万输入/输出 tokens 分别为 10 美元/37.50 美元。
-
- 128k 输出 tokens。Opus 4.6 支持最多 128k token 的输出,使 Claude 能够在不拆分为多个请求的情况下完成大规模输出任务。
-
- 仅限美国推理(US-only inference)。对于必须在美国境内运行的工作负载,我们提供仅限美国推理选项,token 定价为标准价格的 1.1 倍。
产品更新
在 Claude 和 Claude Code 中,我们新增了多项功能,帮助知识工作者和开发者借助日常常用的工具应对更困难的任务
我们在 Claude Code 中以研究预览的形式引入了代理团队(agent teams)。你可以启动多个并行工作的代理,将它们作为一个团队进行自主协作——这尤其适用于可以拆分为多个独立、阅读量大的子任务的场景,比如代码库审查。你可以通过 Shift+↑/↓ 或 tmux 直接接管任意子代理。
Claude 现在也能更好地配合你现有的办公工具使用。Claude in Excel 在处理长时间和高难度任务时表现更佳,能够先进行规划再执行,自动接收非结构化数据并在无需额外指引的情况下推断出合适结构,并能在一次操作中完成多步修改。配合 Claude in PowerPoint 使用时,你可以先在 Excel 中处理并结构化数据,再在 PowerPoint 中将其以可视化方式呈现。Claude 能够读取你的版式、字体和母版,以保持品牌一致性,无论你是基于模板创建还是根据描述生成整套演示文稿。Claude in PowerPoint 目前以研究预览形式向 Max、Team 和 Enterprise 方案用户开放。
价格与使用
Claude Opus 4.6 现已在 claude.ai、我们的 API,以及所有主要云平台上提供。如果你是开发者,可以通过 Claude API 使用 claude-opus-4-6。定价保持不变,每百万 tokens 收费 5 美元/25 美元(输入/输出);
官方API价格

神马中转API价格
可以在神马中转API尝鲜测试使用

首页-工作台-操练场选择模型claude-opus-4-6,输入问题测试使用

浙公网安备 33010602011771号