为了应对 Google 发布的 Gemini 3 Pro,OpenAI 今早发布最强编码模型 GPT-5.1-Codex-Max,该模型建立在基础推理模型的更新之上,专为处理软件工程、数学和研究等领域的代理任务而设计。GPT-5.1-Codex-Max 的核心优势在于处理长期、精细工作的能力。它是首个通过“压缩”过程原生受训以跨越多个上下文窗口运行的模型,能够在单一任务中连贯处理数百万个 Token 。

关键细节

前沿编码能力

  • 真实场景训练: 该模型针对真实的软件工程任务(如创建 PR 、代码审查、前端编码等)进行了训练,在多项前沿编码评估中表现优于前代模型。
  • 环境适应性: GPT-5.1-Codex-Max 是首个受训在 Windows 环境中运行的模型,并针对 Codex CLI (命令行界面)的协作进行了优化。

速度与成本效率

  • Token 效率提升: 得益于更有效的推理能力,模型在“中等”推理强度下的表现优于 GPT-5.1-Codex ,同时减少了 30% 的思考 Token 使用量。
  • 推理模式: 针对非延迟敏感任务,引入了新的“超高”( ‘xhigh’ )推理模式,通过更长时间的思考提供更好的答案。
  • 成本降低: 效率的提升转化为实际成本的节约,例如在生成高质量前端设计时成本大幅降低。

长期任务处理

  • 压缩技术: 模型能够自动压缩会话历史,在保留关键上下文的同时释放空间,从而突破上下文窗口的限制。
  • 持续工作能力: GPT-5.1-Codex-Max 能独立工作数小时,内部评估显示其可持续执行任务超过 24 小时,适用于项目级重构和深度调试。

安全性与信任

  • 安全沙箱: Codex 默认在受限沙箱中运行,限制文件写入和网络访问,以降低风险。
  • 网络安全: 虽然该模型是目前部署的最强网络安全模型,但尚未达到“高”能力等级。官方建议将 Codex 视为额外的审查者,开发者仍需在部署前人工审查其工作。

可用性与成效

  • 访问方式: 该模型现已面向 ChatGPT Plus 、Pro 、Enterprise 等用户开放,并将取代 GPT-5.1-Codex 成为 Codex 表面的默认模型。API 访问即将推出。
  • 生产力提升: 内部数据显示,使用 Codex 的工程师发布的拉取请求(Pull Requests)数量增加了约 70% 。

原文: 使用 GPT-5.1-Codex-Max 构建更多功能

简介

我们要介绍 GPT‑5.1-Codex-Max,这是我们新的前沿代理(agentic)编码模型,即日起在 Codex 中可用。GPT‑5.1-Codex-Max 基于我们要更新的基础推理模型构建,该模型针对软件工程、数学、研究等领域的代理任务进行了训练。GPT‑5.1-Codex-Max 在开发周期的每个阶段都更快、更智能且 Token 效率更高——这是迈向成为可靠编码合作伙伴的新一步。

GPT‑5.1-Codex-Max 专为长时间运行的详细工作而构建。它是我们第一个经过原生训练的模型,可以通过一种称为*压缩(compaction)*的过程跨多个上下文窗口进行操作,在一个任务中连贯地处理数百万个 Token。这解锁了项目规模的重构、深度调试会话和多小时的代理循环。

GPT‑5.1-Codex-Max 即日起可在 Codex 的 CLI、IDE 扩展、云端和代码审查中使用,API 访问权限即将推出。

前沿编码能力

GPT‑5.1-Codex-Max 针对现实世界的软件工程任务(如 PR 创建、代码审查、前端编码和问答)进行了训练,并在许多前沿编码评估中优于我们要之前的模型。该模型在基准测试中的收益也伴随着实际使用中的改进:GPT‑5.1-Codex-Max 是我们要训练的第一个在 Windows 环境中运行的模型,并且该模型的训练现在包括旨在使其成为 Codex CLI 中更好的协作伙伴的任务。

xxx

  • 所有评估均在启用压缩且推理力度为 Extra High(超高)的情况下运行

  • Terminal-Bench2.0 使用 Codex CLI 在 Laude Institute Harbor harness 中运行

速度与成本

由于更有效的推理,GPT‑5.1-Codex-Max 在 Token 效率方面显示出显著的提高。在 SWE-bench Verified 上,采用“medium”(中等)推理力度的 GPT‑5.1-Codex-Max 在使用减少 30% 的思考 Token(thinking tokens)的情况下,实现了比采用相同推理力度的 GPT‑5.1-Codex 更好的性能。对于非延迟敏感型任务,我们要还引入了新的 Extra High(‘xhigh’,超高)推理力度,它会思考更长的时间以获得更好的答案。我们仍然建议将 medium 作为大多数任务的日常首选。

xxx

我们预计 Token 效率的提高将转化为开发者的实际成本节约。

例如,GPT‑5.1-Codex-Max 能够生成具有相似功能和美学的高质量前端设计,但成本远低于 GPT‑5.1-Codex。

长时间运行的任务

压缩技术使 GPT‑5.1-Codex-Max 能够通过修剪历史记录同时保留长周期内最重要的上下文,来完成以前因上下文窗口限制而失败的任务,例如复杂的重构和长时间运行的代理循环。在 Codex 应用程序中,当会话接近上下文窗口限制时,GPT‑5.1-Codex-Max 会自动压缩其会话,为其提供一个新的上下文窗口。它会重复此过程,直到任务完成。

维持长周期连贯工作的能力是通往更通用、更可靠 AI 系统道路上的一项基础能力。GPT‑5.1-Codex-Max 可以独立工作数小时。在我们的内部评估中,我们观察到 GPT‑5.1-Codex-Max 在任务上工作超过 24 小时。它将持续迭代其实际实现,修复测试失败,并最终交付成功的结果。

构建安全且值得信赖的 AI 代理

GPT‑5.1-Codex-Max 在需要持续、长周期推理的评估中表现明显更好。因为它可以使用压缩技术跨多个上下文窗口连贯地工作,该模型在长周期编码和网络安全等领域的挑战中提供了改进的结果。我们在 GPT‑5.1-Codex-Max 系统卡片⁠ 中分析了该模型在第一方和第三方评估中的表现结果。

根据我们的 准备框架 (Preparedness Framework)⁠,GPT‑5.1-Codex-Max 在网络安全方面尚未达到“高(High)”能力,但它是我们要迄今为止部署的最具能力的网络安全模型,且代理网络安全能力正在迅速发展。因此,我们正在采取措施为网络安全方面的“高”能力做准备,并加强我们在网络领域的保障措施,通过 Aardvark⁠ 等计划确保防御者能够受益于这些改进的能力。

当我们推出 GPT‑5-Codex 时,我们实施了专门的网络安全特定监控,以检测和破坏恶意活动。虽然我们要尚未观察到规模化滥用的显着增加,但我们要正在为高级能力准备额外的缓解措施。我们的团队已经 破坏了网络行动⁠,这些行动试图滥用我们要的模型,可疑活动将通过我们要的策略监控系统进行路由审查。

Codex 默认设计为在安全沙箱中运行:文件写入仅限于其工作区,除非开发者开启,否则网络访问将被禁用。我们建议将 Codex 保持在这种受限访问模式下,因为启用互联网或网络搜索可能会引入来自不受信任内容的 提示注入⁠ 风险。

随着 Codex 在长时间运行任务方面变得更有能力,开发者在进行更改或部署到生产环境之前审查代理的工作变得越来越重要。为了协助这一点,Codex 会生成终端日志并引用其工具调用和测试结果。虽然其代码审查降低了将模型人类产生的 Bug 部署到生产环境的风险,但 Codex 应被视为额外的审查者,而不是人类审查的替代品。

网络安全能力既可用于防御也可用于攻击,因此我们采取迭代部署方法:从实际使用中学习,更新保障措施,并保留重要的防御工具,如自动漏洞扫描和补救协助。

可用性

GPT‑5.1-Codex-Max 现已在 Codex 中面向 ChatGPT Plus、Pro、Business、Edu 和 Enterprise 计划提供。有关您的计划的使用限制详情,请参阅我们的 文档

对于通过 API 密钥使用 Codex CLI 的开发者,我们要计划很快在 API 中提供 GPT‑5.1-Codex-Max。

即日起,GPT‑5.1-Codex-Max 将取代 GPT‑5.1-Codex 成为 Codex 界面中的默认模型。与作为通用模型的 GPT‑5.1 不同,我们建议仅在 Codex 或类 Codex 环境中将 GPT‑5.1-Codex-Max 和 Codex 系列模型用于代理编码任务。

结论

GPT‑5.1-Codex-Max 展示了模型在维持长周期编码任务、管理复杂工作流以及使用更少的 Token 生成高质量实现方面取得了多大的进步。我们已经看到,该模型结合我们对 CLI、IDE 扩展、云集成和代码审查工具的持续升级,带来了工程生产力的飞跃:在内部,95% 的 OpenAI 工程师每周使用 Codex,并且自从采用 Codex 以来,这些工程师提交的 Pull Request (PR) 增加了大约 70%。随着我们要不断推动代理能力的边界,我们要很期待看到您将用它们构建什么。

附录:模型评估

               
 GPT‑5.1-Codex (high)GPT‑5.1-Codex-Max (xhigh)
SWE-bench Verified (n=500)73.7%77.9%
SWE-Lancer IC SWE66.3%79.9%
Terminal-Bench 2.052.8%58.1%