GPT4.1 技术报告
https://openai.com/index/gpt-4-1
【openai的技术报告越来越没意思了,除了秀肌肉,没有干货】
引言
今天我们正式发布API中的三个新模型:GPT-4.1、GPT-4.1 mini 和 GPT-4.1 nano。这些模型在各方面均优于GPT-4.0和GPT-4.0 mini,特别是在编程和指令遵循方面取得了显著进步。它们还拥有更大的上下文窗口——支持多达100万token的上下文——并且在长上下文理解方面表现出更强的能力。这些模型的知识截止日期更新为2024年6月。
GPT-4.1在以下几个行业标准指标上表现出色:
- 编程:GPT-4.1在SWE-bench Verified上的得分为54.6%,比GPT-4.0提高了21.4%的绝对值,比GPT-4.5提高了26.6%的绝对值,使其成为领先的编程模型。
- 指令遵循:在Scale的MultiChallenge基准测试中,GPT-4.1得分38.3%,比GPT-4.0提高了10.5%的绝对值。
- 长上下文理解:在Video-MME基准测试中,GPT-4.1在多模态长上下文理解方面树立了新的行业标准——在无字幕的长视频类别中得分72.0%,比GPT-4.0提高了6.7%的绝对值。
尽管基准测试提供了宝贵的参考信息,但我们在训练这些模型时重点关注其实际应用价值。与开发者社区的密切合作和伙伴关系使我们能够优化这些模型,使其适用于最重要的任务。
为此,GPT-4.1模型系列在降低成本的同时提供了卓越的性能。这些模型在延迟曲线的每个点上都推动了性能的提升。
GPT-4.1 mini 是小模型性能提升的重要一步,甚至在许多基准测试中超越了 GPT-4o。它在智能评估中与 GPT-4o 匹配或超过,同时将延迟减少了近一半,并将成本降低了 83%。
对于需要低延迟的任务,GPT-4.1 nano 是我们目前最快且最经济高效的模型。它在小型模型中提供了卓越的性能,拥有 100 万个标记的上下文窗口,在 MMLU 上得分为 80.1%,在 GPQA 上得分为 50.3%,在 Aider polyglot 编码上得分为 9.8%,甚至高于 GPT-4o mini。它非常适合分类或自动补全等任务。
这些指令遵循可靠性和长上下文理解的改进,也使得 GPT-4.1 模型在驱动代理或能够为用户独立完成任务的系统方面更加有效。结合如 Responses API 等基本功能,开发人员现在可以构建在实际软件工程、从大型文档中提取洞见、以最少指导解决客户请求及其他复杂任务方面更有用且更可靠的代理。
请注意,GPT-4.1 仅通过 API 提供。在 ChatGPT 中,许多指令遵循、编码和智能方面的改进已逐渐纳入 GPT-4o 的最新版本,我们将在未来的发布中继续纳入更多改进。
我们还将开始在 API 中逐步淘汰 GPT-4.5 预览版,因为 GPT-4.1 在许多关键能力上提供了相似或更好的性能,同时降低了成本和延迟。GPT-4.5 预览版将在三个月后,即 2025 年 7 月 14 日关闭,以供开发人员有时间进行过渡。GPT-4.5 作为研究预览版引入,旨在探索和实验大型、计算密集型模型,我们从开发人员的反馈中收获良多。我们将继续将您告诉我们的创造力、写作质量、幽默感和细腻之处带入未来的 API 模型中。
以下,我们将详细介绍 GPT-4.1 在多个基准测试中的表现,并展示来自 Windsurf、Qodo、Hex、Blue J、Thomson Reuters 和 Carlyle 等 alpha 测试者的示例,这些示例展示了它在特定领域任务中的生产性能。
编程
GPT-4.1 在多种编程任务上显著优于 GPT-4o,包括主动解决编程任务、前端编码、减少不必要的修改、可靠地遵循差异格式、确保工具使用的一致性等。
在 SWE-bench Verified(衡量实际软件工程技能的指标)上,GPT-4.1 完成了 54.6% 的任务,而 GPT-4o 仅为 33.2%(截至 2024 年 11 月 20 日)。这反映了模型在探索代码仓库、完成任务以及生成既能运行又能通过测试的代码方面的能力得到了提升。
对于 SWE-bench Verified,模型会被提供一个代码仓库和问题描述,并必须生成一个补丁来解决问题。性能高度依赖于所使用的提示和工具。为了帮助重现和解释我们的结果,这里描述了我们针对 GPT-4.1 的设置。我们的得分中省略了 500 个问题中的 23 个,这些问题的解决方案无法在我们的基础设施上运行;如果保守地将这些问题的得分记为 0,则 54.6% 的得分将变为 52.1%。
对于希望编辑大型文件的API开发人员来说,GPT-4.1在多种格式的代码差异处理方面表现出更高的可靠性。GPT-4.1在Aider的多语言差异基准测试中得分比GPT-4.0高了一倍多,并且比GPT-4.5高出8%。这一评估不仅是对多种编程语言编码能力的衡量,也是对模型生成整体和差异格式变更能力的评估。我们特别训练了GPT-4.1以更可靠地遵循差异格式,这使开发人员能够通过仅输出更改的行,而非重写整个文件,从而节省成本和减少延迟。为了获得最佳的代码差异性能,请参考我们的提示指南。对于偏好重写整个文件的开发人员,我们已将GPT-4.1的输出token限制提高到32,768个(从GPT-4.0的16,384个增加),我们还建议使用预测输出以减少整个文件重写的延迟。
在 Aider 的多语言基准测试中,模型通过编辑源文件来解决来自 Exercism 的编程练习,允许有一次重试机会。“整体”格式要求模型重写整个文件,这可能会比较慢且成本高昂。“差异”格式则要求模型编写一系列搜索/替换块。
GPT-4.1 在前端编码方面也显著优于 GPT-4o,能够创建功能更强大且外观更吸引人的网页应用。在我们进行的对比测试中,付费的人类评分者有 80% 的时间更偏好 GPT-4.1 的网站而非 GPT-4o 的网站。
除了上述基准之外,GPT-4.1在更可靠地遵循格式方面表现更佳,并且较少进行不必要的编辑。在我们的内部评估中,GPT-4.1在代码上的不必要的编辑从GPT-4.0的9%下降到了2%。
实际案例
Windsurf::GPT-4.1 在Windsurf的内部编码基准测试中的得分比 GPT-4o 高 60%,该基准与代码更改首次审查被接受的频率密切相关。用户指出,GPT-4.1 在工具调用上效率提高了 30%,重复不必要的编辑或过度狭隘、逐步阅读代码的情况减少了约 50%。这些改进使得工程团队的迭代速度更快,工作流程更加顺畅。
Quodo:Quodo 使用了受其微调基准启发的方法论,对 GPT-4.1 与其他领先模型进行了直接对比,测试了从 GitHub 拉取请求生成高质量代码审查的能力。在相同的提示和条件下,针对 200 个有意义的实际拉取请求,他们发现 GPT-4.1 在 55% 的情况下提供了更好的建议。值得注意的是,GPT-4.1 在精确度(知道何时不应提出建议)和全面性(在必要时提供详尽的分析)方面表现出色,同时能够专注于真正关键的问题。
指令遵循
GPT-4.1 在遵循指令方面更加可靠,我们已经测量出在各种指令遵循评估中的显著改进。
我们开发了一种内部评估方法来跟踪模型在多个维度和几个关键类别中的表现,这些关键类别包括:
- 格式遵循。提供规定模型响应自定义格式的指令,如 XML、YAML、Markdown 等。
- 负面指令。指定模型应避免的行为。(例如:“不要要求用户联系支持”)
- 有序指令。提供模型必须按给定顺序遵循的一系列指令。(例如:“首先询问用户的名字,然后询问他们的电子邮件”)
- 内容要求。输出包含特定信息的内容。(例如:“在编写营养计划时,始终包含蛋白质的量”)
- 排序。以特定方式对输出进行排序。(例如:“按人口数量对响应进行排序”)
- 过度自信。指示模型在请求的信息不可用或请求不属于某个类别时说“我不知道”或类似表达。(例如:“如果您不知道答案,请提供支持联系的电子邮件”)
这些类别是基于开发者的反馈,反映了他们在指令遵循方面最关心和最重要的方面。在每个类别中,我们划分了简单、中等和困难的提示。特别是在困难提示方面,GPT-4.1 相比 GPT-4.0 有着显著的提升。
这些类别是开发者对指令跟随中哪些方面最相关和重要这一问题反馈的结果。在每个类别中,我们将其分为简单、中等和困难的提示。特别是在困难提示方面,GPT-4.1 相比 GPT-4.0 有显著提升。
多轮指令跟随对许多开发人员至关重要——模型在对话深入时保持连贯性并记住用户之前提供的信息非常重要。我们训练了GPT-4.1,使其能够更好地从对话中的过往消息中提取信息,从而实现更自然的对话。Scale的MultiChallenge基准测试是衡量这一能力的有用工具,GPT-4.1在此基准上的表现比GPT-4o提高了10.5%。
GPT-4.1 在 IFEval 上的得分也达到了 87.4%,而 GPT-4o 的得分则为 81.0%。IFEval 采用带有可验证指令的提示(例如,规定内容长度或避免使用某些术语或格式)。
更好的指令遵循性使现有的应用更加可靠,并且能够实现之前因可靠性差而无法实现的新应用。早期测试者注意到,GPT-4.1 更加字面化,因此我们建议在提示语中尽量明确和具体。有关 GPT-4.1 的提示语最佳实践,请参阅提示语指南。
真实案例
Blue J:GPT-4.1 在 Blue J 最具挑战性的实际税法情景内部基准测试中,准确性比 GPT-4 提高了 53%。这一准确性的跃升——对系统性能和用户满意度至关重要——突显了 GPT-4.1 在理解复杂法规和长时间上下文中遵循细致指令方面的改进。对于 Blue J 用户而言,这意味着更快、更可靠的税法研究,以及更多时间用于高价值的咨询服务。
Hex:GPT-4.1 在 Hex 最具挑战性的 SQL 评估集中表现出了接近两倍的提升,展示了在指令遵循和语义理解方面的显著进步。该模型在从大型、模糊的模式中选择正确表时更加可靠——这是一个直接影响整体准确性的上游决策点,仅通过提示难以调优。对于 Hex 来说,这导致了手动调试的显著减少和生产级工作流程的更快实现。
长上下文
GPT-4.1、GPT-4.1 mini和GPT-4.1 nano能够处理多达100万个标记的上下文,而之前的GPT-4.0模型只能处理128,000个标记。100万个标记相当于React代码库完整内容的8倍多,因此长上下文非常适用于处理大型代码库或大量长文档。
我们训练了GPT-4.1,使其能够可靠地关注100万个上下文长度内的信息。我们还训练它在长、短上下文长度下比GPT-4.0更可靠地注意到相关文本,并忽略干扰信息。长上下文理解是法律、编程、客户服务等众多领域应用中的关键能力。
下文中,我们展示了GPT-4.1在上下文窗口中不同位置检索一个小的隐藏信息(“针”)的能力。GPT-4.1在所有位置和所有上下文长度下均能准确地检索到“针”,一直到100万个标记。无论相关信息在输入中的位置如何,它都能有效地提取出与任务相关的关键细节。
然而,很少有现实任务像检索单一、显而易见的答案那样简单。我们发现用户往往需要我们的模型检索和理解多条信息,并理解这些信息之间的关系。为了展示这一能力,我们正在开放一个新的评估工具:OpenAI-MRCR(多轮指代消解)。
OpenAI-MRCR测试模型在复杂背景下查找并区分多个“隐针”的能力。该评估包括用户与助手之间的多轮合成对话,其中用户要求撰写关于某个主题的文本,例如“写一首关于 Baird 犸狳的诗”或“写一篇关于岩石的博客文章”。我们随后会在上下文中插入两处、四处或八处相同的请求。模型必须检索出特定实例的响应(例如,“给我第三首关于 Baird 犸狳的诗”)。
挑战在于这些请求与其他上下文内容的相似性——模型很容易被微妙的差异所误导,比如一篇关于 Baird 犸狳的短篇故事而不是诗,或是一首关于青蛙的诗而不是 Baird 犸狳的诗。我们发现,GPT-4.1 在上下文长度高达 128K 令牌的情况下优于 GPT-4.0,并且即使在高达 100 万个令牌的情况下仍能保持强大的性能。
但任务仍然困难——即使是先进的推理模型也不例外。我们正在分享该评估数据集(新窗口中打开),以鼓励在现实世界长上下文检索方面的进一步研究。
我们还发布了Graphwalks,这是一个用于评估多跳长上下文推理的数据集。许多长上下文的开发用例需要在上下文内部进行多次逻辑跳跃,例如在编写代码时在多个文件之间跳转,或在回答复杂法律问题时交叉引用文件。
理论上,一个模型(甚至一个人)可以通过一次浏览或阅读提示来解决OpenAI-MRCR问题,但Graphwalks被设计为需要跨越上下文中的多个位置进行推理,无法通过顺序方式解决。
Graphwalks将上下文窗口填充为一个由十六进制哈希组成的有向图,然后要求模型从图中的一个随机节点开始执行广度优先搜索(BFS)。我们要求模型返回在特定深度的所有节点。GPT-4.1在这个基准测试中达到了61.7%的准确率,与o1的性能相当,并且明显优于GPT-4o。
基准测试未能揭示全部情况,因此我们与alpha合作伙伴合作,测试了GPT-4.1在其实际长时间上下文任务中的性能。
实际案例
路透社:路透社在其专业级法律工作AI助手CoCounsel上测试了GPT-4.1。与GPT-4.0相比,使用GPT-4.1在内部长文脉基准测试中,多文档审查准确率提高了17%——这是衡量CoCounsel处理复杂法律工作流程能力的关键指标,这些工作流程通常涉及多个长文档。特别值得一提的是,该模型在维护跨源文脉和准确识别文档间的细微关系方面表现出高度可靠性,例如冲突条款或额外补充信息——这些任务对于法律分析和决策至关重要。
凯雷集团:凯雷集团使用GPT-4.1从多个长文档中准确提取细粒度的财务数据,这些文档包括PDF、Excel文件及其他复杂格式。根据其内部评估,该模型在从极其庞大的密集数据文档中检索信息的表现比其他模型高出50%,并成为首个成功克服其他可用模型主要局限性的模型,包括“大海捞针”检索、中间丢失错误和跨文档多跳推理等难题。
除了模型性能和准确性之外,开发人员还需要能够快速响应以满足用户需求的模型。我们优化了推理堆栈以缩短首次输出延迟,通过提示缓存,还可以进一步减少延迟并节省成本。在我们的初步测试中,GPT-4.1处理128,000个文脉标记的首次输出延迟约为15秒,处理100万个文脉标记的延迟约1分钟。GPT-4.1 mini和nano版本速度更快,例如,GPT-4.1 nano在处理128,000个输入标记的查询时,大多数情况下首次输出延迟不到5秒。
视觉
GPT-4.1系列在图像理解方面表现出色,尤其是GPT-4.1 mini,它在图像基准测试中屡次超越GPT-4o,实现了显著的进展。
长上下文的处理能力对于多模态应用场景也非常重要,例如处理长视频。在 Video-MME(无字幕的长视频)中,模型需要基于时长为30-60分钟的无字幕视频回答多项选择题。GPT-4.1 在这一任务上达到了最先进的表现,得分72.0%,相比于 GPT-4o 的65.3% 有所提升。
定价
GPT-4.1、GPT-4.1 mini 和 GPT-4.1 nano 现在已向所有开发者开放。
通过对我们推理系统的效率改进,我们能够为 GPT-4.1 系列提供更低的价格。GPT-4.1 的中位查询费用比 GPT-4 降低了 26%,而 GPT-4.1 nano 是我们有史以来最便宜且最快的模型。对于重复传递相同上下文的查询,我们为这些新模型将提示缓存折扣提高到 75%(此前为 50%)。最后,我们提供长上下文请求,无需额外支付超出标准每 token 成本的费用。
结论
GPT-4.1 是人工智能实际应用中的重要进展。通过紧密关注从编码到指令遵循和长上下文理解等现实世界开发者需求,这些模型为构建智能系统和复杂的代理应用程序打开了新的可能性。我们一直受到开发者社区创造力的鼓舞,并期待看到您使用 GPT-4.1 所创造的成果。