2025 年 11 月 13 日 OpenAI 面向开发者发布 GPT-5.1 模型GPT-5.1 是一款更快速、更高效、更智能的 AI 模型,专为开发者设计。它通过动态调整思考深度来优化简单任务的速度和成本,同时在复杂任务上保持强大的性能。该模型还增强了编码能力,并引入了两个新工具,旨在帮助开发者更可靠、更高效地构建复杂的代理工作流。

关键细节

效率与推理

  • 动态推理GPT-5.1 能根据任务复杂性动态调整其“思考”时间。对于简单任务,它使用更少的 token,响应速度更快(例如,一个 npm 命令的查询从 10 秒缩短到 2 秒);对于复杂任务,它会投入更多资源以确保可靠性。
  • 无推理模式:新增了 reasoning_effort 设置为 'none' 的模式,适用于对延迟敏感的应用场景。该模式在保持高智能的同时,能实现更快的响应和更高效的并行工具调用。
  • 性能提升:与 GPT-5 及其他竞品相比,GPT-5.1 在速度和 token 效率上均有显著提升。Balyasny Asset Management 发现其速度是 GPT-5 的 2-3 倍,而 token 消耗仅为竞品的一半。
  • 扩展缓存:引入了长达 24 hour 的提示缓存(prompt caching)功能,显著降低了在多轮对话或编码会话等长交互场景中的延迟和成本。

编码能力

  • 性能增强GPT-5.1 在编码方面更具可控性,代码质量更高,并且减少了不必要的“过度思考”。在 SWE-bench Verified 基准测试中,其准确率达到了 76.3%
  • 业界好评:多家公司如 Cognition、Warp 和 JetBrains 对其给予了高度评价,认为它在理解用户意图、响应速度和自主性方面表现出色。
  • 新增工具
    • apply_patch 工具:允许模型通过生成结构化的 diff 来可靠地创建、更新或删除代码文件,使多步骤代码编辑更加流畅。
    • shell 工具:允许模型通过受控的命令行界面与本地计算机交互,执行检查系统、运行程序等任务。

定价与可用性

  • 可用性GPT-5.1gpt-5.1-chat-latest 已在 API 中向所有付费用户开放。
  • 定价:定价和速率限制与 GPT-5 保持一致。
  • 专用模型:同时发布了针对长时代理编码任务优化的 gpt-5.1-codexgpt-5.1-codex-mini 模型。

原文:面向开发者推出 GPT-5.1

今天,我们在 API 平台发布 GPT-5.1,这是 GPT-5 系列的下一款模型,它平衡了智能和速度,适用于广泛的智能代理和编码任务。GPT-5.1 会根据任务的复杂性动态调整其思考时间,使得模型在处理更简单的日常任务时速度显著加快,token 效率更高。该模型还具有“无推理”模式,可在不需要深入思考的任务上更快地响应,同时保持 GPT-5.1 的前沿智能。

为了使 GPT-5.1 更加高效,我们推出了扩展提示词缓存,缓存保留时间长达 24 小时,从而以更低的成本为后续问题提供更快的响应。我们的 Priority Processing (优先处理) 客户也将体验到 GPT-5.1 相较于 GPT-5 的显著性能提升。

在编码方面,我们与 Cursor、Cognition、Augment Code、Factory 和 Warp 等初创公司密切合作,以改善 GPT-5.1 的编码特性、可控性和代码质量。总的来说,GPT-5.1 在编码使用上感觉更直观,并且在完成任务时能更有效地与用户沟通更新进展。

最后,我们随 GPT-5.1 推出了两个新工具:一个 apply_patch (应用补丁) 工具,旨在更可靠地编辑代码;以及一个 shell (命令行) 工具,让模型能够运行 shell 命令。

GPT-5.1 是 GPT-5 系列的下一个进步,我们计划继续投资于更智能、功能更强大的模型,以帮助开发者构建可靠的智能代理工作流。

跨任务的高效推理

自适应推理

为了让 GPT-5.1 更快,我们彻底改进了训练它思考的方式。在简单的任务上,GPT-5.1 会花费更少的 token 进行思考,从而实现更敏捷的产品体验和更低的 token 账单。在需要额外思考的困难任务上,GPT-5.1 会保持持久性,探索选项并检查其工作,以最大限度地提高可靠性。

Balyasny Asset Management 表示,GPT-5.1 “在我们的全动态评估套件中表现优于 GPT-4.1 和 GPT-5,同时运行速度比 GPT-5 快 2-3 倍。”他们还表示,在他们的重工具推理任务中,GPT-5.1 “使用的 token 数量始终约为主要竞争对手的一半,而质量相似或更好。”同样,人工智能保险 BPO Pace 也测试了该模型,并表示他们的代理在 GPT-5.1 上的运行速度“快了 50%,同时在我们的评估中准确性超过了 GPT-5 和其他领先模型。”

GPT-5.1 在简单任务上花费时间更少,在困难任务上花费时间更多

xxx

GPT-5.1 比 GPT-5 更动态地改变其思考时间。在 ChatGPT 任务的代表性分布上,GPT-5.1 在较容易的任务上速度要快得多,即使是在高推理努力下也是如此。

举个例子,当被问及“显示一个 npm 命令来列出全局安装的包”时,GPT-5.1 会在 2 秒内而不是 10 秒内回答。

GPT-5 (Medium) 消耗约 250 token (约 10 秒)

show an npm command to list globally installed packages

npm list -g --depth=0

GPT-5.1 (Medium) 消耗约 50 token (约 2 秒)

show an npm command to list globally installed packages

您可以使用以下命令列出全局安装的 npm 包:

  - 仅包名:npm ls -g --depth=0
  - 包括它们的安装路径:npm ls -g

第一个通常是您想要的。

全新“无推理”模式

开发者现在可以通过将 reasoning_effort (推理努力) 设置为 ’none’ 来使用无推理的 GPT-5.1。这使得模型在对延迟敏感的用例中表现得像一个非推理模型,具有 GPT-5.1 的高智能和高性能工具调用的额外优势。与使用 ‘minimal’ (最小) 推理的 GPT-5 相比,无推理的 GPT-5.1 在并行工具调用(这本身就提高了端到端任务完成速度)、编码任务、遵循指令和使用搜索工具方面表现更好——并支持我们 API 平台中的 网页搜索Sierra 分享说,在他们的真实世界评估中,GPT-5.1 在“无推理”模式下,“与 GPT-5 的最小推理相比,低延迟工具调用性能提高了 20%”。

随着 ’none’ 作为 reasoning_effort 中的一个值被引入,开发者现在在为他们的用例平衡速度、成本和智能方面拥有了更大的灵活性和控制力。GPT-5.1 默认为 ’none’,这对于延迟敏感的工作负载是理想的。我们建议开发者为复杂度较高的任务选择 ’low’ (低) 或 ‘medium’ (中),当智能和可靠性比速度更重要时选择 ‘high’ (高)。

扩展提示词缓存

扩展缓存通过允许提示词在缓存中保持活动状态长达 24 小时(而不是目前支持的几分钟)来提高推理效率。凭借更长的保留窗口,更多的后续请求可以利用缓存的上下文——从而为多轮聊天、编码会话或知识检索工作流等长时间运行的交互带来更低的延迟、更低的成本和更流畅的性能。

提示词缓存定价保持不变,缓存的输入 token 比未缓存的 token 便宜 90%,并且不额外收取缓存写入或存储费用。要在 GPT-5.1 中使用扩展缓存,请在 Responses 或 Chat Completions API 上添加参数 “prompt_cache_retention='24h'”。更多详情请参阅 提示词缓存文档

编码

GPT-5.1 在 GPT-5 编码能力的基础上,具有更可控的编码特性、更少的过度思考、更高的代码质量、在工具调用序列期间提供更好的面向用户的更新消息 (前导信息),以及功能更强的前端设计——尤其是在低推理努力下。

在像快速代码编辑这样的更简单的编码任务上,GPT-5.1 更快的速度使其更容易来回迭代。GPT-5.1 在简单任务上的更快速度并不会降低在困难任务上的性能。在 SWE-bench Verified 上,GPT-5.1 的工作时间甚至比 GPT-5 更长,达到了 76.3%。

xx

SWE-bench Verified⁠ 中,模型会收到一个代码仓库和问题描述,并且必须生成一个补丁来解决问题。标签表示推理努力。准确率是所有 500 个问题的平均值。所有模型都使用了一个带有基于 JSON 的 apply_patch 工具的测试框架。

我们从少数几家编码公司获得了关于 GPT-5.1 的早期反馈。以下是他们的印象:

  • Augment Code 称 GPT-5.1 “更深思熟虑,浪费的动作更少,推理更高效,任务焦点更集中”,他们正看到“更准确的更改、更平滑的拉取请求 (pull requests) 以及跨多文件项目的更快迭代。”
  • Cline 分享说,在他们的评估中,“GPT-5.1 在我们的 diff 编辑基准测试中取得了 SOTA (顶尖水平),性能提升了 7%,在复杂编码任务中展现了卓越的可靠性。”
  • CodeRabbit 称 GPT-5.1 是其“PR (拉取请求) 审查的首选模型。”
  • Cognition 表示 GPT-5.1 在“理解您的要求并与您合作完成任务方面明显更出色。”
  • Factory 表示“GPT-5.1 提供了明显更快的响应,并能根据任务调整其推理深度,减少了过度思考,改善了整体开发者体验。”
  • Warp 正在将 GPT-5.1 作为新用户的默认选项,称其“在 GPT-5 系列引入的令人印象深刻的智能提升基础上,成为了一个响应速度快得多的模型。”

“GPT 5.1 不仅仅是又一个 LLM——它真正具有智能代理性,是我测试过的最自然的自主模型。它像你一样写作,像你一样编码,毫不费力地遵循复杂指令,并且在前端任务中表现出色,能巧妙地融入您现有的代码库。您可以在 Responses API 中真正释放它的全部潜力,我们很高兴能在我们的 IDE 中提供它。”

—Denis Shiryaev,JetBrains 人工智能开发工具生态系统负责人

GPT-5.1 中的新工具

我们随 GPT-5.1 推出了两个新工具,以帮助开发者在 Responses API 中充分利用该模型:一个自由格式的 apply_patch 工具,使代码编辑更加可靠,无需 JSON 转义;以及一个 shell 工具,让模型可以编写命令在您的本地机器上运行。

Apply_patch 工具

自由格式的 apply_patch 工具让 GPT-5.1 可以使用结构化差异 (diffs) 在代码库中创建、更新和删除文件。模型不仅仅是建议编辑,而是会发出补丁操作,由应用程序应用并报告结果,从而实现迭代式、多步骤的代码编辑工作流。

要在 Responses API 中使用 apply_patch 工具,请将其包含在工具数组中,使用 "tools": [{“type”: “apply_patch”}],并在您的输入中包含文件内容,或者为模型提供与您的文件系统交互的工具。模型将生成用于创建、更新或删除文件的 apply_patch_call 项,其中包含您在文件系统上应用的 diffs。有关如何集成 apply_patch 工具的更多信息,请查看我们的 开发者文档

Shell 工具

shell 工具允许模型通过受控的命令行界面与本地计算机交互。模型提出 shell 命令;开发者的集成执行它们并返回输出。这就创建了一个简单的“计划-执行”循环,让模型可以检查系统、运行实用程序并收集数据,直到它们能够完成任务。

要在 Responses API 中使用 shell 工具,开发者可以将其包含在工具数组中,使用 “tools": [{“type”: “shell”}]。API 将生成包含要执行的 shell 命令的 "shell_call" 项。开发者在本地环境中执行命令,并在下一个 API 请求中通过 "shell_call_output" 项传回执行结果。在我们的 开发者文档 中了解更多信息。

定价和可用性

GPT-5.1 和 gpt-5.1-chat-latest 已在 API 中向所有付费层级的开发者开放。定价和速率限制 与 GPT-5 相同。我们还将在 API 中发布 gpt-5.1-codexgpt-5.1-codex-mini。虽然 GPT-5.1 在大多数编码任务上表现出色,但 gpt-5.1-codex 模型专为 Codex 或类 Codex 测试框架中的长时间运行的智能代理编码任务进行了优化。

开发者可以开始使用我们的 GPT-5.1 开发者文档模型提示指南 进行构建。我们目前不计划在 API 中弃用 GPT-5,如果(以及何时)我们决定这样做,将会提前通知开发者。

下一步计划

我们致力于迭代部署功能最强大、最可靠的模型,用于真实的智能代理和编码工作——这些模型能够高效思考、快速迭代并处理复杂任务,同时保持开发者的心流状态。凭借自适应推理、更强的编码性能、更清晰的面向用户的更新以及像 apply_patchshell 这样的新工具,GPT-5.1 旨在帮助您更顺畅地进行构建。我们将继续在这一领域大力投入:您可以期待在未来几周和几个月内推出功能更强大的智能代理和编码模型。

附录:模型评估

评估GPT-5.1 (high)GPT-5 (high)
SWE-bench Verified
(全部 500 个问题)
76.3%72.8%
GPQA Diamond
(无工具)
88.1%85.7%
AIME 2025
(无工具)
94.0%94.6%
FrontierMath
(使用 Python 工具)
26.7%26.3%
MMMU85.4%84.2%
Tau2-bench Airline67.0%62.6%
Tau2-bench Telecom*95.6%96.7%
Tau2-bench Retail77.9%81.1%
BrowseComp Long Context 128k90.0%90.0%

* 对于 Tau 2 -bench Telecom,我们为 GPT-5.1 提供了一个简短、通用的有益提示以提高其性能。

作者

OpenAI