GPT-5.5 开启更强的智能体工作方式

GPT-5.5 开启更强的智能体工作方式

OpenAI 正在发布 GPT-5.5,这是迄今为止最聪明、最直观易用的模型,也是迈向一种全新计算机工作方式的下一步。

GPT-5.5 能更快理解用户意图,并承担更多实际工作。它擅长编写和调试代码、在线研究、分析数据、创建文档和电子表格、操作软件,并能在多个工具之间移动,直到任务完成。用户可以把一个混乱的、多部分的任务交给 GPT-5.5,并信任它完成规划、使用工具、检查工作、穿越模糊性并持续推进。

提升在智能体编码、计算机使用、知识工作和早期科学研究中尤其明显。这些领域的进展依赖跨上下文推理和长期行动。GPT-5.5 在不牺牲速度的情况下实现了智能跃升:更大、更强的模型通常服务速度更慢,但 GPT-5.5 在真实服务场景中匹配 GPT-5.4 的每 token 延迟,同时具备更高智能水平。它完成相同 Codex 任务时也显著减少 token 使用量,因此兼具更高效率和更强能力。

OpenAI 以迄今最强的防护体系发布 GPT-5.5,目标是在保留有益工作访问能力的同时减少滥用。该模型接受了完整 Preparedness Framework(准备框架)评估,OpenAI 与内部和外部红队合作,增加了针对高级网络安全和生物能力的定向测试,并在发布前从近 200 家受信任的早期访问合作伙伴处收集了真实用例反馈。

今天,GPT-5.5 正在向 ChatGPT 和 Codex 中的 Plus、Pro、Business 和 Enterprise 用户推出,GPT-5.5 Pro 正在向 ChatGPT 中的 Pro、Business 和 Enterprise 用户推出。API 部署需要不同的防护措施,OpenAI 正在与合作伙伴和客户密切合作,推进大规模服务所需的安全与安保要求。GPT-5.5 和 GPT-5.5 Pro 很快将进入 API。

评测 GPT-5.5 GPT-5.4 GPT-5.5 Pro GPT-5.4 Pro Claude Opus 4.7 Gemini 3.1 Pro
Terminal-Bench 2.0 82.7% 75.1% - - 69.4% 68.5%
Expert-SWE(内部) 73.1% 68.5% - - - -
GDPval(胜出或持平) 84.9% 83.0% 82.3% 82.0% 80.3% 67.3%
OSWorld-Verified 78.7% 75.0% - - 78.0% -
Toolathlon 55.6% 54.6% - - - 48.8%
BrowseComp 84.4% 82.7% 90.1% 89.3% 79.3% 85.9%
FrontierMath Tier 1-3 51.7% 47.6% 52.4% 50.0% 43.8% 36.9%
FrontierMath Tier 4 35.4% 27.1% 39.6% 38.0% 22.9% 16.7%
CyberGym 81.8% 79.0% - - 73.1% -

模型能力

OpenAI 正在建设面向智能体 AI 的全球基础设施,使世界各地的人和企业都能借助 AI 完成工作。在过去一年中,AI 已经显著加速软件工程。随着 GPT-5.5 进入 Codex 和 ChatGPT,同样的转变开始扩展到科学研究以及更广泛的计算机工作。

在这些领域中,GPT-5.5 的提升体现在智能水平和问题处理效率上,常常以更少 token 和更少重试获得更高质量输出。在 Artificial Analysis 的 Coding Index 上,GPT-5.5 以竞争性前沿编码模型一半的成本实现了最先进的智能水平。

Artificial Analysis Intelligence Index 是外部机构运行的 10 项评测的加权平均,包括 AA-LCR、AA-Omniscience、CritPt、GDPval-AA、GPQA Diamond、Humanity's Last Exam、IFBench、SciCode、Terminal-Bench Hard 和 τ²-Bench Telecom。

智能体编码

GPT-5.5 是 OpenAI 迄今最强的智能体编码模型。在 Terminal-Bench 2.0 上,它达到 82.7% 的最先进准确率;该评测测试需要规划、迭代和工具协调的复杂命令行工作流。在 SWE-Bench Pro 上,它达到 58.6%;该评测衡量真实 GitHub issue 解决能力,GPT-5.5 能比以往模型在单次执行中端到端解决更多任务。在 Expert-SWE 这一 OpenAI 内部长程编码前沿评测上,任务的人类预计完成时间中位数为 20 小时,GPT-5.5 也优于 GPT-5.4。

在三项评测中,GPT-5.5 均在使用更少 token 的同时提升了 GPT-5.4 的分数。

模型的编码优势在 Codex 中尤其清晰,能够承担从实现、重构到调试、测试和验证的工程工作。早期测试表明,GPT-5.5 更擅长真实工程工作依赖的行为,例如在大型系统中保持上下文、推理模糊故障、用工具检查假设,并把变更贯穿到周边代码库。

渲染轨迹使用 NASA/JPL Horizons 提供的 Orion、月球和太阳向量数据,并为可读性应用显示缩放。

Prompt

使用 WebGL 和 Vite 将其实现为一个新应用,并使用 Artemis II 任务的真实数据。确保充分测试该应用,直到它完全可用,并且看起来像图片中的应用。请特别注意行星和飞行路径的渲染。需要能够与 3D 渲染交互。确保它具备真实的轨道力学。

除基准测试外,早期测试者表示,GPT-5.5 对系统形态的理解能力更强:为什么某个问题会失败、修复应该落在何处,以及代码库中还有哪些部分会受影响。

Dan Shipper,Every 创始人兼 CEO,将 GPT-5.5 描述为“第一个具备严肃概念清晰度的编码模型”。

在发布一个应用后,他花了数天调试一个发布后问题,随后请一位优秀工程师重写系统的一部分。为了测试 GPT-5.5,他实际上把时间倒回去:模型能否查看破损状态,并产出工程师最终决定采用的那类重写方案?GPT-5.5 能做到。

Pietro Schirano,MagicPath CEO,观察到类似的阶跃变化:GPT-5.5 将一个包含数百项前端和重构变更的分支合并进同样发生大量变化的主分支,并在约 20 分钟内一次性完成处理。

参与测试的资深工程师表示,GPT-5.5 在推理和自主性上明显强于 GPT-5.4 和 Claude Opus 4.7,能够提前发现问题,并在没有显式提示的情况下预测测试和审查需求。在一个案例中,一位工程师要求它重新架构协作文档编辑器中的评论系统,回来时得到一个几乎完成的 12 个 diff 的变更栈。其他人表示,需要的实现纠正少得出乎意料,并且相比 GPT-5.4 更信任 GPT-5.5 的计划。

一位获得早期访问权限的 NVIDIA 工程师甚至表示:“失去 GPT-5.5 的访问权限,让他感觉像被截去了一条肢体。”

“GPT-5.5 明显比 GPT-5.4 更聪明、更持久,编码性能更强,工具使用更可靠。它能显著更长时间地保持任务状态并避免过早停止,这对 Cursor 用户委托的复杂长程工作最为重要。”
— Michael Truell,Cursor 联合创始人兼 CEO

知识工作

让 GPT-5.5 擅长编码的同一组能力,也让它在日常计算机工作中强大。由于模型更擅长理解意图,它可以更自然地完成知识工作的完整循环:查找信息、理解重点、使用工具、检查输出,并将原始材料转化为有用成果。

在 Codex 中,GPT-5.5 在生成文档、电子表格和幻灯片方面优于 GPT-5.4。Alpha 测试者表示,它在运营研究、电子表格建模以及将混乱的业务输入转化为计划等工作中优于以往模型。结合 Codex 的计算机使用技能时,GPT-5.5 让模型更接近“真的可以和用户一起使用计算机”的体验:看到屏幕内容、点击、输入、导航界面,并精确地跨工具移动。

OpenAI 内部团队已经在真实工作流中使用这些能力。今天,公司超过 85% 的员工每周都在软件工程、财务、传播、市场、数据科学和产品管理等职能中使用 Codex。传播团队使用 Codex 中的 GPT-5.5 分析了六个月的演讲请求数据,构建评分和风险框架,并验证一个自动化 Slack Agent,使低风险请求可以自动处理,而较高风险请求仍转交人工审查。财务团队使用 Codex 审查了 24,771 份 K-1 税表,总计 71,637 页;该工作流排除了个人信息,并帮助团队相比上一年提前两周完成任务。在 Go-to-Market 团队,一名员工自动化生成每周业务报告,每周节省 5-10 小时。

在 ChatGPT 中,GPT-5.5 Thinking 为更难问题提供更快帮助,以更聪明、更简洁的答案帮助用户更高效地推进复杂工作。它擅长编码、研究、信息综合与分析、文档密集型任务等专业工作,尤其适用于使用插件的场景。

在 GPT-5.5 Pro 中,早期测试者看到 ChatGPT 可承担工作的难度和质量都显著提升,延迟改善也让高要求任务更加实用。相比 GPT-5.4 Pro,测试者认为 GPT-5.5 Pro 的回应显著更全面、结构更好、更准确、更相关、更有用,在商业、法律、教育和数据科学方面尤其强。

GPT-5.5 在多个反映此类工作的基准上达到最先进性能。在 GDPval 上,它得分 84.9%;该评测测试智能体在 44 个职业中产出明确规格知识工作的能力。在 OSWorld-Verified 上,它达到 78.7%;该评测衡量模型能否独立操作真实计算机环境。在 Tau2-bench Telecom 上,它在无提示词调优的情况下达到 98.0%。GPT-5.5 在其他知识工作基准上也表现强劲:FinanceAgent 得分 60.0%,内部投行业务建模任务得分 88.5%,OfficeQA Pro 得分 54.1%。



Tau2-bench Telecom 在无提示词调优条件下运行,并使用 GPT-4.1 作为用户模型。GPT-5.5 比前代模型更理解任务意图,也更节省 token。

科学研究

GPT-5.5 在科学和技术研究工作流中也显示出提升,这类工作需要超越回答难题本身。研究人员需要探索想法、收集证据、测试假设、解释结果,并决定下一步尝试方向。相比其他模型,GPT-5.5 更擅长在这个循环中持续推进。

值得注意的是,GPT-5.5 在 GeneBench 上相对 GPT-5.4 有清晰提升。GeneBench 是一项新评测,聚焦遗传学和定量生物学中的多阶段科学数据分析。这些问题要求模型在最少监督指导下,对可能存在歧义或错误的数据进行推理,处理隐藏混杂因素或质控失败等现实障碍,并正确实现和解释现代统计方法。考虑到其中任务通常对应科学专家的多日项目,模型表现十分显著。

类似地,在围绕真实生物信息学和数据分析设计的 BixBench 上,GPT-5.5 在已发布成绩的模型中取得领先表现。该模型的科学能力已经强到可以作为真正的共同科学家,在生物医学研究前沿实质性加速进展。

另一个例子中,一个配备自定义 harness 的 GPT-5.5 内部版本帮助发现了一个关于 Ramsey 数的新证明。Ramsey 数是组合数学的核心对象之一。组合数学研究离散对象如何组合在一起:图、网络、集合和模式。粗略地说,Ramsey 数追问一个网络必须多大,某种秩序才必然出现。该领域的结果稀少且通常技术难度很高。在这里,GPT-5.5 找到了关于非对角 Ramsey 数一个长期渐近事实的证明,之后该结果在 Lean 中得到验证。这一结果具体展示了 GPT-5.5 的贡献范围涵盖代码、解释,以及核心研究领域中令人意外且有用的数学论证。

早期测试者在 ChatGPT 中把 GPT-5.5 Pro 当作研究伙伴使用:多轮批判稿件、压力测试技术论证、提出分析方案,并结合代码、笔记和 PDF 上下文工作。共同主线是,GPT-5.5 更擅长帮助研究者从问题推进到实验,再推进到产出。

Derya Unutmaz,Jackson Laboratory for Genomic Medicine 的免疫学教授和研究员,使用 GPT-5.5 Pro 分析了一个包含 62 个样本和近 28,000 个基因的基因表达数据集,生成了一份详细研究报告。该报告总结了发现,并提出关键问题和洞见;他表示这项工作原本会让团队花费数月。

Bartosz Naskręcki,波兰波兹南 Adam Mickiewicz University 数学助理教授,使用 Codex 中的 GPT-5.5 从单个提示词出发,在 11 分钟内构建了一个代数几何应用,可视化二次曲面的交线,并将所得曲线转换为 Weierstrass 模型。

后来,他进一步扩展该应用,加入更稳定的奇点可视化和可复用于进一步工作的精确系数。对他而言,更大的转变在于 Codex 现在可以帮助实现自定义数学可视化和计算机代数工作流,而这些过去需要专用工具。合起来看,这些案例展示了 GPT-5.5 正在把专家意图转化为可运行的研究工具和分析。

Credit: Bartosz Naskręcki

Prompt:

# 代数几何曲面相交

制作一个应用,绘制两个二次曲面,并用红色标出交线。使用计算 Riemann-Roch 定理将其转换为 Weierstrass 曲线。

## 主窗口

两个带色调的曲面,具有轻微透明着色,高质量渲染沿红色代数曲线相交。

支持鼠标双向旋转、完整捏合缩放机制、触觉长按显示小菜单,菜单中有滑块可改变每个曲面的系数;通过 Z-buffer 层级检测。

## 右侧窗口

通过有效 Riemann-Roch 定理公式即时计算得到的简短 Weierstrass 方程(定义在 Q 或二次域扩张上)。

## 氛围模式

隐藏所有控件,让用户欣赏形状之美。

## 规格

应用运行在浏览器中,轻量实现,使用最新全栈库,可移植、可部署。

## 文档

Git 仓库、日志、计划(Markdown 文件)

Brandon White 表示,OpenAI 的新 GPT-5.5 模型进入 Axiom Bio 的 harness 后,能够对大规模生化数据集进行推理以预测人体药物结果,并在最难的药物发现评测上带来显著准确率提升;如果 OpenAI 持续推进,药物发现的基础将在年底前发生变化。
— Brandon White,Axiom Bio 联合创始人兼 CEO

下一代推理效率

以 GPT-5.4 延迟服务 GPT-5.5,需要把推理作为一个集成系统重新设计。GPT-5.5 与 NVIDIA GB200 和 GB300 NVL72 系统共同设计、训练,并在这些系统上运行和提供服务。Codex 和 GPT-5.5 对实现性能目标起到了关键作用。Codex 帮助团队更快从想法进入可基准测试的实现,草拟方法、连接实验,并帮助识别哪些优化值得更深入投入。GPT-5.5 帮助在堆栈本身中发现并实现关键改进。模型帮助改进了服务它的基础设施。

其中一项改进是负载均衡和分区启发式算法。在 GPT-5.5 之前,OpenAI 会把加速器上的请求拆分为固定数量的块,以在计算核心之间平衡工作,确保大请求和小请求可以在同一 GPU 上运行。然而,预先确定的静态块数量并不适合所有流量形态。为了更好地利用 GPU,Codex 分析了数周生产流量模式,并编写自定义启发式算法来最优分区和平衡工作。这项工作产生了超比例影响,使 token 生成速度提升超过 20%。

推进网络安全以保护所有人

为这类擅长发现和修补安全漏洞的模型建立世界级准备体系,是一项团队运动,需要整个生态系统努力建设韧性,通过民主化模型访问和迭代部署迎接下一代网络防御。

前沿模型在网络安全方面能力持续增强。这些能力将会广泛分布,OpenAI 相信最佳路径是确保它们能用于加速网络防御并强化生态系统。

GPT-5.5 是迈向能够解决网络安全等世界最艰难挑战的 AI 的渐进但重要一步。随着 12 月的 GPT-5.2,OpenAI 主动部署了必要的网络防护措施,以限制模型潜在网络滥用;现在随着 GPT-5.5,OpenAI 正在部署更严格的潜在网络风险分类器。随着后续调优,一些用户初期可能觉得这些分类器带来摩擦。

OpenAI 多年来一直在 Preparedness Framework 中把网络安全识别为一个类别,同时随着模型能力逐步提高,迭代开发和校准缓解措施,以便负责任地发布具备有意义网络安全能力的模型。

OpenAI 正在为这一网络能力水平部署行业领先的防护。OpenAI 去年首次随 GPT-5.2 引入网络专项防护,并在后续部署中持续测试、细化和扩展。对于 GPT-5.5,OpenAI 围绕较高风险活动、敏感网络请求设计了更严格控制,并为重复滥用增加保护。广泛访问由 OpenAI 在模型安全、认证使用和禁止用途监控方面的投入所支撑。OpenAI 数月来一直与外部专家合作,开发、测试并迭代这些防护的稳健性。借助 GPT-5.5,OpenAI 正在确保开发者可以轻松保护代码,同时围绕最可能被恶意行为者造成伤害的网络工作流建立更强控制。

OpenAI 正在扩大访问范围,以加速各层级网络防御。OpenAI 将通过 Trusted Access for Cyber 提供网络许可模型,首先从 Codex 开始;该计划在发布时为满足特定信任信号的已验证用户提供对 GPT-5.5 高级网络安全能力的扩展访问,并减少限制。负责防御关键基础设施的组织可以申请访问 GPT-5.4-Cyber 等网络许可模型,同时满足严格安全要求,将这些模型用于保护内部系统。这为广泛的已验证防御者提供更强工具,支持合法安全工作并减少不必要摩擦,从而推动重要防御能力的民主化访问。用户可以在 chatgpt.com/cyber 申请受信任访问,以在使用 GPT-5.5 进行已验证防御工作时减少不必要拒绝。

OpenAI 正在与政府合作伙伴合作,帮助保护公共关键基础设施。各方共同探索先进 AI 如何支持受信任官员的防御工作,这些官员负责公众依赖的系统,从保护重要纳税人数据的数字系统,到地方社区的电网和供水系统。

OpenAI 在 Preparedness Framework 下将 GPT-5.5 的生物/化学和网络安全能力视为 High。评估和测试表明,GPT-5.5 的网络安全能力相比 GPT-5.4 有所提升,并处于 High 等级。

此外,GPT-5.5 在发布前经历了完整安全与治理流程,包括准备度评估、领域专项测试、面向高级生物和网络安全能力的新定向评测,以及外部专家的稳健测试。更多细节见 GPT-5.5 system card。

这项工作体现了 OpenAI 更广泛的 AI 韧性方法。随着模型能力提升,这种方法是必要的。OpenAI 希望强大的 AI 能被用于防御系统、机构和公众。可行路径是受信任访问、随能力扩展的稳健防护,以及检测和响应严重滥用的运营能力。


可用性和价格

今天,GPT-5.5 正在向 ChatGPT 和 Codex 中的 Plus、Pro、Business 和 Enterprise 用户推出,GPT-5.5 Pro 正在向 ChatGPT 中的 Pro、Business 和 Enterprise 用户推出。OpenAI 很快将把 GPT-5.5 和 GPT-5.5 Pro 带到 API。

在 ChatGPT 中,GPT-5.5 Thinking 面向 Plus、Pro、Business 和 Enterprise 用户开放。GPT-5.5 Pro 旨在处理更难问题和更高准确率工作,面向 Pro、Business 和 Enterprise 用户开放。

在 Codex 中,GPT-5.5 面向 Plus、Pro、Business、Enterprise、Edu 和 Go 计划开放,提供 400K 上下文窗口。GPT-5.5 也在 Fast mode 中可用,以 2.5 倍成本实现 1.5 倍 token 生成速度。

对于 API 开发者,gpt-5.5 很快将在 Responses 和 Chat Completions API 中开放,价格为每 100 万输入 token 5 美元、每 100 万输出 token 30 美元,并提供 100 万上下文窗口。Batch 和 Flex 价格为标准 API 费率的一半,Priority processing 为标准费率的 2.5 倍。OpenAI 还将在 API 中发布 gpt-5.5-pro,以支持更高准确率,价格为每 100 万输入 token 30 美元、每 100 万输出 token 180 美元。完整细节见定价页面。

GPT-5.5 价格高于 GPT-5.4,同时更智能且 token 效率显著更高。在 Codex 中,OpenAI 已经精细调校体验,使 GPT-5.5 对多数用户而言能以少于 GPT-5.4 的 token 带来更好结果,同时继续在各订阅层级提供充足用量。

评测

编码

评测 GPT-5.5 GPT-5.4 GPT-5.5 Pro GPT-5.4 Pro Claude Opus 4.7 Gemini 3.1 Pro
SWE-Bench Pro(公开)* 58.6% 57.7% - - 64.3% 54.2%
Terminal-Bench 2.0 82.7% 75.1% - - 69.4% 68.5%
Expert-SWE(内部) 73.1% 68.5% - - - -

*实验室已指出该评测存在记忆化证据。

专业工作

评测 GPT-5.5 GPT-5.4 GPT-5.5 Pro GPT-5.4 Pro Claude Opus 4.7 Gemini 3.1 Pro
GDPval(胜出或持平) 84.9% 83.0% 82.3% 82.0% 80.3% 67.3%
FinanceAgent v1.1 60.0% 56.0% - 61.5% 64.4% 59.7%
Investment Banking Modeling Tasks(内部) 88.5% 87.3% 88.6% 83.6% - -
OfficeQA Pro 54.1% 53.2% - - 43.6% 18.1%

计算机使用和视觉

评测 GPT-5.5 GPT-5.4 GPT-5.5 Pro GPT-5.4 Pro Claude Opus 4.7 Gemini 3.1 Pro
OSWorld-Verified 78.7% 75.0% - - 78.0% -
MMMU Pro(无工具) 81.2% 81.2% - - - 80.5%
MMMU Pro(使用工具) 83.2% 82.1% - - - -

工具使用

评测 GPT-5.5 GPT-5.4 GPT-5.5 Pro GPT-5.4 Pro Claude Opus 4.7 Gemini 3.1 Pro
BrowseComp 84.4% 82.7% 90.1% 89.3% 79.3% 85.9%
MCP Atlas** 75.3% 70.6% - - 79.1% 78.2%
Toolathlon 55.6% 54.6% - - - 48.8%
Tau2-bench Telecom***(原始提示词) 98.0% 92.8% - - - -

** MCP Atlas:Scale AI 在 2026 年 4 月最新更新后的结果。
*** Tau2-bench Telecom:5.5 和 5.4 使用原始提示词的结果,即没有提示词调整。该表省略了其他实验室在提示词调整条件下评估的结果。

学术

评测 GPT-5.5 GPT-5.4 GPT-5.5 Pro GPT-5.4 Pro Claude Opus 4.7 Gemini 3.1 Pro
GeneBench 25.0% 19.0% 33.2% 25.6% - -
FrontierMath Tier 1-3 51.7% 47.6% 52.4% 50.0% 43.8% 36.9%
FrontierMath Tier 4 35.4% 27.1% 39.6% 38.0% 22.9% 16.7%
BixBench 80.5% 74.0% - - - -
GPQA Diamond 93.6% 92.8% - 94.4% 94.2% 94.3%
Humanity's Last Exam(无工具) 41.4% 39.8% 43.1% 42.7% 46.9% 44.4%
Humanity's Last Exam(使用工具) 52.2% 52.1% 57.2% 58.7% 54.7% 51.4%

网络安全

评测 GPT-5.5 GPT-5.4 GPT-5.5 Pro GPT-5.4 Pro Claude Opus 4.7 Gemini 3.1 Pro
Capture-the-Flags challenge tasks(内部)**** 88.1% 83.7% - - - -
CyberGym 81.8% 79.0% - - 73.1% -

**** 该评测扩展了 system card 中使用的最难 CTF,并增加了额外困难挑战。

长上下文

评测 GPT-5.5 GPT-5.4 GPT-5.5 Pro GPT-5.4 Pro Claude Opus 4.7 Gemini 3.1 Pro
Graphwalks BFS 256k f1 73.7% 62.5% - - 76.9% -
Graphwalks BFS 1mil f1 45.4% 9.4% - - 41.2%(Opus 4.6) -
Graphwalks parents 256k f1 90.1% 82.8% - - 93.6% -
Graphwalks parents 1mil f1 58.5% 44.4% - - 72.0%(Opus 4.6) -
OpenAI MRCR v2 8-needle 4K-8K 98.1% 97.3% - - - -
OpenAI MRCR v2 8-needle 8K-16K 93.0% 91.4% - - - -
OpenAI MRCR v2 8-needle 16K-32K 96.5% 97.2% - - - -
OpenAI MRCR v2 8-needle 32K-64K 90.0% 90.5% - - - -
OpenAI MRCR v2 8-needle 64K-128K 83.1% 86.0% - - - -
OpenAI MRCR v2 8-needle 128K-256K 87.5% 79.3% - - 59.2% -
OpenAI MRCR v2 8-needle 256K-512K 81.5% 57.5% - - - -
OpenAI MRCR v2 8-needle 512K-1M 74.0% 36.6% - - 32.2% -

抽象推理

评测 GPT-5.5 GPT-5.4 GPT-5.5 Pro GPT-5.4 Pro Claude Opus 4.7 Gemini 3.1 Pro
ARC-AGI-1(Verified) 95.0% 93.7% - 94.5% 93.5% 98.0%
ARC-AGI-2(Verified) 85.0% 73.3% - 83.3% 75.8% 77.1%

GPT 的评测在 reasoning effort 设置为 xhigh 的情况下运行,并在研究环境中进行。在某些情况下,输出可能与生产版 ChatGPT 略有不同。
GPT-5.5 开启更强的智能体工作方式

posted @ 2026-04-24 09:29  JaguarJack  阅读(70)  评论(1)    收藏  举报