OpenAI Codex 团队像打了鸡血一样,Codex CLI 代码更新非常频繁,两天一大版本,一天多小版本。Codex 最近增长态势非常不错,过去两周的使用量增长了约 10 倍!注意这个增长 10 倍还是是在发布 GPT-5-Codex 最新编码模型之前,我之前(9 月 8 号)在微信公众号专门写文章介绍过 Codex 的实际水平以及一些使用建议,当时的核心是使用 gpt-5-high 模型。现在 OpenAI 正式发布 GPT-5-Codex 模型,大家可以切到这个最新的编码模型上了。这个模型一经发布,火爆整个 AI 圈,Claude Code 瞬间不香了,大家全都去用 Codex CLI 了,用 OpenAI CEO 的原话说是:Codex 的氛围,感觉像是 ChatGPT 刚出来的那几个月。

快速了解一下本次 Codex 升级内容

新模型 GPT-5-Codex

  • 训练重点:模型专注于真实世界的复杂工程任务,如从零开始构建项目、添加功能、大规模重构和代码审查。
  • 动态资源分配:模型能根据任务复杂性动态调整其“思考”时间。对于简单请求,响应更迅速(在某些场景下使用的 tokens 减少 93.7%);对于复杂任务,则会投入更多时间进行推理和迭代(推理时间增加一倍)。
  • 持久的自主工作能力:在测试中,GPT-5-Codex 能够就一项复杂任务持续自主工作超过 7 小时,不断迭代和修复测试失败,直至成功交付。
  • 增强的前端能力:该模型不仅能创建美观的桌面应用,还能处理前端任务,并可以在云端环境中查看图像输入、检查其视觉进度,并向用户展示工作截图。

Codex 产品与工具更新

  • Codex CLI:围绕代理式工作流进行了重建,支持附加图像(如截图、线框图)作为上下文,并引入了待办事项列表、网络搜索等工具。终端 UI 和审批模式也得到了简化和改进。
  • IDE 扩展:将 Codex 代理直接集成到 VS CodeCursor 等编辑器中。它能利用编辑器中的上下文(如打开的文件)来提供更快速、更精准的响应,并支持在本地与云端任务间无缝切换。
  • 云与 GitHub 集成:通过容器缓存,新任务和后续任务的中位完成时间缩短了 90%。Codex 现在可以自动设置环境、安装依赖,并在 GitHub 中直接执行任务和审查 PR

核心功能:代码审查 (Code Review)

  • 工作方式:与静态分析工具不同,Codex 能够理解 PR 的意图,并结合整个代码库进行推理,甚至执行代码和测试来验证其行为。
  • 使用方法:在 GitHub 仓库中启用后,Codex 会自动审查 PR。开发者也可以通过评论 @codex review 来手动触发审查,并可添加特定指令,如审查安全漏洞。
  • 内部应用:在 OpenAI 内部,Codex 已经审查了绝大多数的 PR,每天发现数百个问题,显著提升了开发速度和信心。

安全性与使用建议

  • 沙盒环境:默认情况下,Codex 在本地和云端都运行在禁用了网络访问的沙盒环境中,以降低风险。
  • 权限控制:开发者可以根据风险承受能力自定义安全设置,例如批准特定命令的运行或限制网络访问的域名。
  • 人类监督:OpenAI 强调,Codex 应作为人类审查员的补充,而不是替代品,并鼓励开发者在使用前审查其工作成果。

定价与可用性

  • 订阅计划:Codex 已包含在 ChatGPT PlusProBusinessEduEnterprise 计划中,使用额度随计划等级提升。
  • API 访问GPT-5-Codex 模型计划很快通过 API 提供给开发者。

在 Reddit 上的 AMA(问我任何事)活动

Codex 团队于 2025 年 9 月 17 日在 Reddit 上的 AMA(问我任何事)活动,有几个需要关注的信息:

  • Codex 团队自身就是其产品的重度用户,即 “dogfooding”。
  • 未来的工程师将更多地关注系统级的设计、产品和架构,而非底层的代码实现。
  • Codex 当前聚焦于专业开发者,为专业软件工程师打造一流的工具。
  • 将改进 UI 以便用户能更清晰地了解自己的用量情况。
  • GPT-5-Codex 模型虽然更智能,但响应速度比旧版慢,正在努力改进。
  • CLI 已通过 –search 参数支持网页搜索,该功能很快将登陆 IDE 扩展。
  • 正在考虑加入“规划模式” (Plan mode)、跨平台(CLI、Web、IDE)无缝协作、以及对本地开源模型 (GPT-OSS) 的更好支持。
  • Codex 目前不使用代码库索引,而是依赖模型强大的 grep 能力,但未来可能会考虑加入索引功能以更好地处理大型项目。

以下是X 博主 Tibor 的总结 对本次活动的总结:

Codex 团队于 2025 年 9 月 17 日在 Reddit 上的 AMA(问我任何事)活动总结

内部使用与团队工作流

  • 团队成员使用 Codex 来构建 Codex 本身。设计师可以直接合并拉取请求(PR),其中一名工程师 99% 的 Codex 相关修改都是用它完成的,目标是明年不再手动编写任何一行代码。
  • 产品团队成员使用 Codex 来处理他们不擅长的语言(如 Rust),经常在会议间隙用手机启动任务,然后使用 VS Code 扩展来接续工作。
  • 工程师通过大约 5 轮提示来构建大型功能的原型,以便快速创建多个版本并了解范围。他们会混合使用命令行界面(CLI)和 VS Code 扩展来并行化工作并实时审查代码片段。
  • 团队用它来制作一次性的内部工具、可视化、监控、生成训练数据。设计师在 Codex 和设计工具之间的时间分配为 70/30,以缩短从想法到执行的差距。

平台可用性与技术限制

  • 可通过 homebrew、npm 以及从 GitHub releases 直接下载二进制文件来获取。有计划改进 Windows 支持,但暂无 PyPi 包,因为适配每个包管理器都需要大量工作。
  • 很希望支持更多集成开发环境(IDE),如 JetBrains,但核心体验方面仍有大量工作要做。
  • 团队正在发布用户界面(UI)改进,但也承认终端输出的可读性存在问题,因为不同的终端渲染输出的方式不同——未来会有更多改进。

使用限制与定价结构

  • 产品缺乏显示即将达到使用上限的 UI,团队正在努力改进。
  • 速率限制每 5 小时和每周重置一次。
  • 没有免费版本,目前也没有在 Plus 和 Pro 版本之间推出中间档位的计划,尽管许多用户有此需求。
  • 有人提出在 GPU 空闲时为 Codex web 提供批量 API 式用法的想法,团队认为这很棒但目前优先级不高。

模型能力与配置

  • GPT-5-Codex 模型专为编码任务优化,针对多样化的编码环境进行了重点训练,这使得为前端/后端创建独立的专门模型可能没有必要,因为编码任务常常跨越多个领域。
  • 能很好地处理大型代码库,它使用 grep 而不是专门的索引。可以提示它工作更长时间/更快,并生成包含不同详细程度的多页实现计划。
  • Codex web 会为任务自动选择最佳配置,不允许用户选择模型或推理方式。
  • 推荐使用 GPT-5-high 进行需要更广泛世界知识的规划,使用 GPT-5-Codex 进行技术重构。
  • 没有计划允许编辑系统提示,但用户可以修改 AGENTS[.]md 文件来处理编码相关任务(如数据分析)或非编码任务。

功能与用户体验

  • CLI 支持网页搜索,--search 标志很快会加入到 IDE 扩展中,提示缓存问题正在解决,未来可能实现完整的浏览器自动化。
  • VS Code 扩展支持按住 shift 键进行拖放,具有自动上下文功能,并允许混合本地和云端工作。
  • 有用户请求用 @ 符号标记文件夹,而不仅仅是单个文件。
  • 终端/IDE 交互的语音模式——在看到开源社区将语音和编码代理结合的激动人心的演示后,团队认为提供原生支持会非常酷。
  • 可以使用 --oss 标志通过 ollama 尝试本地模型,尽管体验尚非一流。预计未来任何 gpt-oss 版本都会比当前的 200 亿参数模型效果好得多。

规划与代理开发

  • IDE 扩展目前有聊天/计划模式,CLI 有只读模式。团队正在开发专门的计划模式,最终决定给予用户更多对执行的控制权,而不是让模型自己进行规划。
  • 对于更长、更复杂的任务,使用子代理是保留上下文的绝佳方式,但目前没有积极开发相关功能。
  • 针对较长工作的对话压缩功能即将推出。用户可以要求 Codex 在 markdown 文件中创建计划以供审查和编辑,并且能够提示模型生成多页文档,模型会为此工作更长时间。

集成与工作流改进

  • 团队非常希望构建 ChatGPT 移动应用的集成,以便从聊天中触发 Codex 代理,并实现 ChatGPT 和 Codex 之间的对话转移,但用户体验仍在设计中。此外,希望 Codex web 能尽快集成 MCP 服务器。
  • GPT-5-Codex Pro 版本可能即将推出(用 👀 表情符号回答了相关问题)。

长远愿景

  • 团队对一个非编码人员无需接触 IDE 或终端就能构建和部署应用的世界感到兴奋,但目前 Codex 的重点是专业软件工程师,而不是处理完整的部署流程。
  • 团队希望 Codex 能像编译器一样无处不在并退居幕后,随着抽象层次的提高,工程师将在系统层面而不是代码层面工作,届时简单的 CRUD 端点几乎全部由 Codex 编写。
  • 工程师将变得更加通才,具备设计和产品技能,使单个工程师能够负责大型产品领域。未来可能会出现专为大语言模型设计、更不容易出错的新编程语言,以及一种托尼·斯塔克/贾维斯式的协作模式:人类与构建各个部分的代理同事交谈,即使代理在编程方面变得更聪明,人类也始终掌握着方向控制权。

原文:Codex 升级介绍

Codex 变得更快、更可靠,并且更擅长实时协作和独立处理任务——无论您在哪里开发,都可以通过终端、IDE、网页,甚至是您的手机。

今天,我们发布 GPT-5-Codex——这是 GPT-5 的一个版本,为在 Codex 中进行代理式编程(agentic coding)而进一步优化。GPT-5-Codex 的训练重点是真实世界的软件工程工作;它既能胜任快速的交互式会话,也能独立完成漫长而复杂的任务。其代码审查能力可以在关键错误发布前捕捉到它们。GPT-5-Codex 已在您使用 Codex 的所有地方上线——它是云任务和代码审查的默认模型,开发者也可以通过 Codex CLI 和 IDE 扩展选择将其用于本地任务。

自我们于四月首次推出 Codex CLI⁠(在新窗口中打开) 和五月推出 Codex⁠(在新窗口中打开) 网页版以来,Codex 已稳步发展成为一个更高效的编程协作者。两周前,我们将 Codex 统一为一个由您的 ChatGPT 账户连接的单一产品体验,使您可以在本地环境和云端之间无缝转移工作,而不会丢失上下文。现在,Codex 可以在您开发的地方工作——在您的终端或 IDE、网页、GitHub,甚至在 ChatGPT iOS 应用中。Codex 已包含在 ChatGPT Plus、Pro、Business、Edu 和 Enterprise 计划中。

通过这些更新,Codex 更接近我们一直以来努力的目标——一个能理解您的上下文、与您并肩工作,并能为您的团队可靠地承担工作的队友。

GPT-5-Codex

GPT-5-Codex 是 GPT-5 的一个版本,为在 Codex 中进行代理式软件工程而进一步优化。它针对复杂的真实世界工程任务进行训练,例如从零开始构建完整项目、添加功能和测试、调试、执行大规模重构以及进行代码审查。它更易于引导,能更好地遵循 AGENTS.md⁠(在新窗口中打开) 的指令,并能生成更高质量的代码——您只需告诉它您需要什么,而无需编写关于风格或代码整洁度的长篇指令。

SWE-bench 验证: 历史上,包括 GPT-5 发布时,我们报告了 477 个 SWE-bench 验证任务的结果,因为部分任务无法在我们的基础设施中运行。我们此后修复了这个问题,现在报告全部 500 个任务的结果。

代码重构任务: 我们的代码重构评估包含来自大型、成熟代码库的重构式任务,并包括 Python、Go 甚至 OCaml 语言的任务。一个示例任务是 _来自 Gitea 的这个拉取请求(pull request)⁠(在新窗口中打开),它更改了 232 个文件和 3,541 行代码,以便将一个 ctx 变量贯穿应用程序逻辑。

GPT-5-Codex 会根据任务的复杂性更动态地调整其思考时间。该模型结合了编程代理所需的两项基本技能:在交互式会话中与开发者结对,以及在较长任务上进行持久、独立的执行。这意味着 Codex 在处理小型、明确的请求或在您与其聊天时会感觉更敏捷,而在处理像大型重构这样的复杂任务时会工作更长时间。在测试中,我们看到 GPT-5-Codex 在大型复杂任务上独立工作超过 7 小时,期间不断迭代实现、修复测试失败,并最终交付了成功的实现。

在 OpenAI 员工流量中,我们观察到,对于按模型生成 token 数量(包括隐藏的推理和最终输出)排序的后 10% 用户回合,GPT-5-Codex 使用的 token 比 GPT-5 少 93.7%。相反,对于前 10% 的用户回合,GPT-5-Codex 会思考更多,在推理、编辑和测试代码以及迭代上花费两倍的时间。

GPT-5-Codex 专为进行代码审查和发现关键缺陷而训练。在审查时,它会浏览您的代码库,推理依赖关系,并运行您的代码和测试以验证正确性。我们在热门开源代码库的近期提交上评估了代码审查性能。对于每次提交,经验丰富的软件工程师都会评估审查评论的正确性和重要性。我们发现 GPT-5-Codex 的评论不太可能是错误或不重要的,从而为关键问题保留更多用户的注意力。

GPT-5-Codex 是前端任务的可靠伙伴。除了创建美观的桌面应用外,GPT-5-Codex 在创建移动网站时,在人类偏好评估中也显示出显著改进。在云端工作时,它可以查看您提供的图像或屏幕截图作为输入,直观地检查其进展,并向您显示其工作的屏幕截图。

GPT-5-Codex 是为 Codex CLI、Codex IDE 扩展、Codex 云环境以及在 GitHub 中工作而专门构建的,并且还支持多功能的工具使用。与作为通用模型的 GPT-5 不同,我们建议仅在 Codex 或类似 Codex 的环境中将 GPT-5-Codex 用于代理式编程任务。

Codex 更新

我们最近还进行了一些更新,使 Codex 成为更好的结对程序员,包括经过改进的 Codex CLI 和新的 Codex IDE 扩展。

Codex CLI

Codex CLI 是开源的,过去几个月社区的反馈对于其发展至关重要。基于这些反馈,我们围绕代理式编程工作流重建了 Codex CLI,将我们的模型塑造成更强大、更可靠的伙伴。您现在可以在 CLI 中直接附加和分享图像——屏幕截图、线框图和图表——以建立关于设计决策的共同上下文,并准确获得您想要的东西。在进行更复杂的工作时,Codex 现在会用待办事项列表跟踪进度,并包含像网络搜索和用于连接外部系统的 MCP 等工具,整体工具使用更准确。

终端用户界面也已升级:工具调用和差异对比(diffs)的格式更好,更易于理解。批准模式简化为三个级别:只读并需要明确批准;自动,拥有完整工作区访问权限但在工作区外需要批准;以及完全访问,能够读取任何地方的文件并运行具有网络访问权限的命令。它还支持压缩对话状态,使更长的会话更易于管理。

要了解更多信息,请查看 Codex CLI 快速入门⁠(在新窗口中打开)

Codex IDE 扩展

Codex 能在您已有的工作环境中与您协作,包括您的 IDE。IDE 扩展将 Codex 代理带入 VS Code、Cursor 和其他 VS Code 分支,以便您可以无缝地预览本地更改并使用 Codex 编辑代码。当您在 IDE 中使用 Codex 时,您可以编写更短的提示并获得更快的结果,因为 Codex 可以使用您已打开的文件或您已选择的代码等上下文。

Codex IDE 扩展还允许您在云端和本地环境之间平滑地转移工作。您可以在不离开编辑器的情况下创建新的云任务、跟踪进行中的工作以及审查已完成的任务。为了进行最后的润色,您可以在 IDE 中打开云任务,Codex 会保持上下文。在 快速入门⁠(在新窗口中打开) 中了解如何充分利用 IDE 扩展。

Codex 云

除了 Codex CLI,新的 IDE 扩展和 GitHub 集成使 Codex 云代理更贴近开发者的工作流,因此您现在可以在不切换编辑器或 GitHub 的情况下委派任务。

在幕后,我们也在持续改进云基础设施的性能。通过缓存容器,我们将新任务和后续任务的中位完成时间缩短了 90%。Codex 现在还会通过扫描常见的设置脚本并执行它们来自动设置自己的环境,并且通过可配置的互联网访问,可以在运行时按需运行像 pip install 这样的命令来获取依赖项。

与在 CLI 和 IDE 扩展中一样,您现在可以使用图像来分享前端设计规范或解释 UI 错误。在为您构建时,Codex 可以启动自己的浏览器,查看它构建的内容,进行迭代,并将结果的屏幕截图附加到任务和 GitHub PR 中。有关更多详细信息,请查看 文档⁠(在新窗口中打开)

代码审查

Codex 现在还包括了为捕捉关键缺陷而训练的代码审查功能。与静态分析工具不同,它会将 PR 的既定意图与实际的差异进行匹配,对整个代码库和依赖关系进行推理,并执行代码和测试以验证行为。只有最彻底的人类审查者才会对他们审查的每个 PR 投入如此多的精力,因此 Codex 填补了这一空白——帮助团队更早发现问题,减轻审查者负担,并更有信心地发布产品。

一旦为某个 GitHub 仓库开启此功能,Codex 会在 PR 从草稿变为就绪状态时自动审查,并将其分析发布在 PR 上。如果它建议编辑,您可以在同一对话串中要求 Codex 来实现它们。您也可以通过在 PR 中提及“@codex review”来明确要求审查,并给予它额外的指导,例如“@codex review for security vulnerabilities”或“@codex review for outdated dependencies”。查看 快速入门⁠(在新窗口中打开) 以了解如何为您的仓库设置代码审查。

在 OpenAI,Codex 现在审查我们绝大多数的 PR,每天捕捉数百个问题——通常在人类审查开始之前。它已成为让 Codex 团队能以更大信心快速前进的关键。

开发者如何使用 Codex

“我需要为一个功能发布更新另一个团队拥有的代码库。[…] 有了 Codex,我将重构和测试生成的工作分派出去,同时专注于其他优先事项。它生成了高质量、经过全面测试的代码,我可以很快地交还——在不增加风险的情况下保持了功能的进度。”

Tres Wong-Godfrey,思科 Meraki 技术主管

构建安全可信的 AI 代理

我们构建 Codex 的重点是保护代码和数据免遭泄露,并防范滥用。默认情况下,无论是在本地还是在云端,Codex 都在一个禁用了网络访问⁠(在新窗口中打开)的沙盒环境中运行。这有助于确保 Codex 不会在您的计算机上采取有害操作,并降低来自不受信任来源的提示注入风险。

Codex 可以在执行潜在危险操作前请求许可,并经过训练以运行命令来验证其输出。开发者可以自定义安全设置以匹配他们的风险承受能力。在云端,您可以将网络访问限制在受信任的域。在 CLI 和 IDE 扩展中,开发者可以批准命令以完全访问权限运行,或允许代理使用网络搜索并连接到 MCP 服务器。这可以扩展代理的能力,同时增加风险——在此处了解更多关于如何安全操作和管理 Codex 的信息⁠(在新窗口中打开)

我们始终鼓励开发者在进行更改或部署到生产环境之前审查代理的工作。Codex 为每个任务提供引用、终端日志和测试结果以帮助进行审查。虽然 Codex 代码审查有助于降低将危险问题部署到生产环境的风险(无论是由人类还是代理创建的),我们始终建议将 Codex 用作额外的审查者——而不是替代人类审查。

与我们对 GPT-5 的方法一致,我们决定将 GPT-5-Codex 在生物和化学领域视为高能力模型,并已实施安全措施以最小化相关风险。在系统卡附录⁠(在新窗口中打开)中阅读更多关于我们的评估和稳健安全方法的信息。

定价与可用性

Codex 已包含在 ChatGPT Plus、Pro、Business、Edu 和 Enterprise 计划中。使用量随您的计划扩展:Plus、Edu 和 Business 席位可以覆盖每周几次集中的编程会话,而 Pro 则可以支持跨多个项目的整个工作周。

Business 计划可以购买积分,使开发者能够超出其包含的限制,而 Enterprise 计划提供共享的积分池,因此您只需为开发者使用的部分付费。在此处了解更多关于 ChatGPT 使用限制的信息⁠(在新窗口中打开)

对于通过 API 密钥使用 Codex CLI 的开发者,我们计划很快在 API 中提供 GPT-5-Codex。

Codex 正在成为我们一直设想的编程伙伴——一个更快、更可靠,并深度集成到您已在使用的工具中的伙伴。我们很高兴看到您将用它构建什么,并将继续改进 Codex,使其成为您最宏大项目的更好队友。

作者

OpenAI