除了在编程上的优势，Claude Sonnet 4.5 在推理、数学和专业知识领域也展现出更高水平。金融、法律、医学及 STEM 领域的专家反馈，它在知识覆盖与逻辑推理上明显超越了此前的 Claude Opus 4.1 等旧版本。

Claude Sonnet 4.5 在真实世界软件编程评测 SWE-bench Verified 中达到 SOTA 水平，在复杂的多步骤任务中能够专注运行超过 30 小时。

在真实计算机任务基准 OSWorld 上，Sonnet 4.5 以 61.4% 的成绩领先，仅四个月前，Sonnet 4 的成绩还停留在 42.2%。

不仅如此，它在推理、数学等广泛评估中也表现出更强实力。来自金融、法律、医学和 STEM 领域的专家普遍反馈：与包括 Opus 4.1 在内的旧模型相比，Sonnet 4.5 在专业知识与逻辑推理方面有了质的飞跃。

Anthropic 表示，Claude Sonnet 4.5 不仅是性能最强的模型，也是迄今为止 对齐度最高的前沿模型。

通过更广泛的安全训练，它有效减少了谄媚、欺骗、权力攫取以及鼓励妄想等风险行为。

在智能体与计算机使用场景下，Claude 也在抵御 提示注入攻击（prompt injection）方面取得显著进展。

Claude Sonnet 4.5 在 AI 安全等级 3（ASL-3） 保护措施下发布，配备了可检测潜在危险输入输出的 分类器，特别针对化学、生物、放射性等高风险内容。Anthropic 已在减少误报方面取得十倍以上的改进，并将继续优化。

更详细的安全与一致性评估可在系统卡中查阅，其中首次包含基于「机制可解释性」技术的测试。

经过半年以上的迭代，Anthropic 将其用于构建 Claude Code 的底层基础设施向开发者开放，称为 Claude Agent SDK。

它不仅适用于编程，还能支持各种智能体任务，帮助开发者解决 长任务记忆管理、权限控制、子智能体协作等核心难题。

换句话说，开发者现在拥有与 Anthropic 相同的工具，可以自由搭建属于自己的强大智能体。

作为额外惊喜，Anthropic 同步推出临时研究预览 —— Imagine with Claude。

在这一实验中，Claude 可以 实时生成软件，无需预先设定功能或代码，完全根据用户的请求即时创造与调整。

这一功能目前对 Max 订阅用户开放五天，可在 claude.ai/imagine 体验。

Claude Sonnet 4.5 已全面上线。开发者可以通过 Claude API 直接调用 claude-sonnet-4-5，定价与 Sonnet 4 保持一致，也可以使用神马中转API（api.whatai.cc）国内使用：

总结：

Claude Sonnet 4.5 不只是 Anthropic 的新模型，它代表了 编程能力、智能体构建与计算机使用的全面跃升，并在对齐与安全性上树立了新标准。

从长时间自主任务，到多领域知识与推理，再到对开发者的 SDK 开放，Claude Sonnet 4.5 展示了下一代 AI 的潜力。

posted on 2025-09-30 13:20 whatai 阅读(294) 评论(0) 收藏举报

刷新页面返回顶部

导航