Codex

什么是“Vibe Engineering”？看看 OpenAI 内部是如何重新定义软件开发的

本文整理自 OpenAI Forum 发布的分享视频：Vibe Engineering with OpenAI’s Codex。什么是“Vibe Engineering”？看看 OpenAI 内部是如何重新定义软件开发的我们大概都经历过那种死线逼近的时刻，心里幻想着：“要是有个不知疲倦、不用睡觉的同事能帮我把这些代码写了该多好。” 在 OpenAI，Codex 就扮演着这个角色的。最近在 OpenAI Forum 上，Global Affairs 团队的 Chris Nicholson 邀请了两位真正的“内行”——OpenAI 开发者体验负责人 Romain Huet 和技术专家 Aaron Friel，深入聊了聊一个最近很火的概念：Vibe Engineering（氛围工程）。这不仅仅是一个流行词，它代表了软件开发的一种新范式：利用 AI 构建真正的生产级软件，同时让人类工程师对交付的每一行代码保持完全的掌控。这不只是让 AI 吐出一堆代码然后祈祷它能跑通，而是把 AI 深度融入到设计、架构、调试甚至长周期的多步骤项目中。今天，我们就来扒一扒 OpenAI 内部的工程师们究竟是怎么“生活”在未来的，以及作为普通开发者，我们可以怎么把这种工作流偷师过来。从“Vibe Coding”到“Vibe Engineering” 你可能听说过“Vibe Coding”，通常指那种随意的、凭感觉的编程体验。但 Simon Willison 提出的“Vibe Engineering”是它的严肃版——它是 AI 驱动开发的进阶形态。在这个形态下，大模型不再只是一个代码补全工具，它们变成了你的队友。 Romain Huet 分享了一个很有意思的观察：一年前，你会为了模型能写出一个贪吃蛇游戏或者 iPhone App demo 而兴奋。但现在，模型的能力已经进化到了可以处理长达数小时甚至数天的复杂任务。它们可以制定计划、做架构决策、编写测试，甚至自己检查自己的作业。当 AI 学会了自我检查（Self-correction），它的表现就有了质的飞跃。这就是从“写代码”到“搞工程”的转变。现场实战：把一个 Kotlin 项目重写为 Rust 光说不练假把式。Aaron Friel 在现场展示了一个非常硬核的 Demo，任务听起来就很让人头大：...

我们如何利用 Codex 在 28 天内构建出 Sora Android 版 • OpenAI

本文翻译 OpenAI 官方发布的文章 How we used Codex to build Sora for Android in 28 days。本文介绍了 OpenAI Sora 开发团队如何在短短 28 天内，利用 Codex CLI 成功构建并发布 Sora Android 应用程序的过程。文章中不仅展示了惊人的开发速度和质量，还深入探讨了在 AI 辅助开发时代，软件工程模式的转变以及人机协作的最佳实践。本文由我和 Gemini 3 Pro 共同完成翻译。我们如何利用 Codex 在 28 天内构建出 Sora Android 版作者：Patrick Hum 和 RJ Marsan，技术团队成员 11 月，我们向全球推出了 Sora Android 应用，让任何拥有 Android 设备的人都能将简短的提示词转化为生动的视频。发布当天，该应用登上了 Play 商店榜首。Android 用户在首个 24 小时内生成了超过一百万个视频。在这次发布背后有一个故事：Sora 的 Android 生产级初始版本仅用 28 天就构建完成，这要归功于任何团队或开发者都可以使用的同一个智能体（agent）：Codex。从 2025 年 10 月 8 日到 11 月 5 日，一个精简的工程团队与 Codex 并肩工作，消耗了大约 50 亿个 token，完成了 Sora Android 版从原型到全球发布的全部过程。尽管规模庞大，该应用仍保持了 99....

快速了解一下 OpenAI 发布的 GPT‑5.1-Codex-Max

为了应对 Google 发布的 Gemini 3 Pro，OpenAI 今早发布最强编码模型 GPT-5.1-Codex-Max，该模型建立在基础推理模型的更新之上，专为处理软件工程、数学和研究等领域的代理任务而设计。GPT-5.1-Codex-Max 的核心优势在于处理长期、精细工作的能力。它是首个通过“压缩”过程原生受训以跨越多个上下文窗口运行的模型，能够在单一任务中连贯处理数百万个 Token 。关键细节前沿编码能力真实场景训练：该模型针对真实的软件工程任务（如创建 PR 、代码审查、前端编码等）进行了训练，在多项前沿编码评估中表现优于前代模型。环境适应性： GPT-5.1-Codex-Max 是首个受训在 Windows 环境中运行的模型，并针对 Codex CLI （命令行界面）的协作进行了优化。速度与成本效率 Token 效率提升：得益于更有效的推理能力，模型在“中等”推理强度下的表现优于 GPT-5.1-Codex ，同时减少了 30% 的思考 Token 使用量。推理模式：针对非延迟敏感任务，引入了新的“超高”（ ‘xhigh’ ）推理模式，通过更长时间的思考提供更好的答案。成本降低：效率的提升转化为实际成本的节约，例如在生成高质量前端设计时成本大幅降低。长期任务处理压缩技术：模型能够自动压缩会话历史，在保留关键上下文的同时释放空间，从而突破上下文窗口的限制。持续工作能力： GPT-5.1-Codex-Max 能独立工作数小时，内部评估显示其可持续执行任务超过 24 小时，适用于项目级重构和深度调试。安全性与信任安全沙箱： Codex 默认在受限沙箱中运行，限制文件写入和网络访问，以降低风险。网络安全：虽然该模型是目前部署的最强网络安全模型，但尚未达到“高”能力等级。官方建议将 Codex 视为额外的审查者，开发者仍需在部署前人工审查其工作。可用性与成效访问方式：该模型现已面向 ChatGPT Plus 、Pro 、Enterprise 等用户开放，并将取代 GPT-5.1-Codex 成为 Codex 表面的默认模型。API 访问即将推出。生产力提升：内部数据显示，使用 Codex 的工程师发布的拉取请求（Pull Requests）数量增加了约 70% 。原文：使用 GPT-5....

OpenAI Codex 迎来重大升级

OpenAI Codex 团队像打了鸡血一样，Codex CLI 代码更新非常频繁，两天一大版本，一天多小版本。Codex 最近增长态势非常不错，过去两周的使用量增长了约 10 倍！注意这个增长 10 倍还是是在发布 GPT-5-Codex 最新编码模型之前，我之前（9 月 8 号）在微信公众号专门写文章介绍过 Codex 的实际水平以及一些使用建议，当时的核心是使用 gpt-5-high 模型。现在 OpenAI 正式发布 GPT-5-Codex 模型，大家可以切到这个最新的编码模型上了。这个模型一经发布，火爆整个 AI 圈，Claude Code 瞬间不香了，大家全都去用 Codex CLI 了，用 OpenAI CEO 的原话说是：Codex 的氛围，感觉像是 ChatGPT 刚出来的那几个月。快速了解一下本次 Codex 升级内容新模型 GPT-5-Codex 训练重点：模型专注于真实世界的复杂工程任务，如从零开始构建项目、添加功能、大规模重构和代码审查。动态资源分配：模型能根据任务复杂性动态调整其“思考”时间。对于简单请求，响应更迅速（在某些场景下使用的 tokens 减少 93.7%）；对于复杂任务，则会投入更多时间进行推理和迭代（推理时间增加一倍）。持久的自主工作能力：在测试中，GPT-5-Codex 能够就一项复杂任务持续自主工作超过 7 小时，不断迭代和修复测试失败，直至成功交付。增强的前端能力：该模型不仅能创建美观的桌面应用，还能处理前端任务，并可以在云端环境中查看图像输入、检查其视觉进度，并向用户展示工作截图。 Codex 产品与工具更新 Codex CLI：围绕代理式工作流进行了重建，支持附加图像（如截图、线框图）作为上下文，并引入了待办事项列表、网络搜索等工具。终端 UI 和审批模式也得到了简化和改进。 IDE 扩展：将 Codex 代理直接集成到 VS Code、Cursor 等编辑器中。它能利用编辑器中的上下文（如打开的文件）来提供更快速、更精准的响应，并支持在本地与云端任务间无缝切换。云与 GitHub 集成：通过容器缓存，新任务和后续任务的中位完成时间缩短了 90%。Codex 现在可以自动设置环境、安装依赖，并在 GitHub 中直接执行任务和审查 PR。核心功能：代码审查 (Code Review) 工作方式：与静态分析工具不同，Codex 能够理解 PR 的意图，并结合整个代码库进行推理，甚至执行代码和测试来验证其行为。使用方法：在 GitHub 仓库中启用后，Codex 会自动审查 PR。开发者也可以通过评论 @codex review 来手动触发审查，并可添加特定指令，如审查安全漏洞。内部应用：在 OpenAI 内部，Codex 已经审查了绝大多数的 PR，每天发现数百个问题，显著提升了开发速度和信心。安全性与使用建议沙盒环境：默认情况下，Codex 在本地和云端都运行在禁用了网络访问的沙盒环境中，以降低风险。权限控制：开发者可以根据风险承受能力自定义安全设置，例如批准特定命令的运行或限制网络访问的域名。人类监督：OpenAI 强调，Codex 应作为人类审查员的补充，而不是替代品，并鼓励开发者在使用前审查其工作成果。定价与可用性订阅计划：Codex 已包含在 ChatGPT Plus、Pro、Business、Edu 和 Enterprise 计划中，使用额度随计划等级提升。 API 访问：GPT-5-Codex 模型计划很快通过 API 提供给开发者。在 Reddit 上的 AMA（问我任何事）活动 Codex 团队于 2025 年 9 月 17 日在 Reddit 上的 AMA（问我任何事）活动，有几个需要关注的信息：...

介绍一下 OpenAI Codex

OpenAI 于 2025 年 5 月 16 日推出了 Codex ，Codex 是一款由 OpenAI 推出的云端 AI 软件工程代理，它由专为软件工程优化的 codex-1 模型驱动。Codex 能够帮助开发者自动执行多种软件开发任务，例如编写新功能、修复错误、回答代码库相关问题以及创建拉取请求。该工具旨在通过并行处理任务和与现有开发工作流集成，显著提升软件工程师的效率和专注度。Codex 目前已向 ChatGPT Pro 、Team 和 Enterprise 用户推出，并计划很快支持 Plus 和 Edu 用户。 Codex 的工作方式与环境：用户可以通过 ChatGPT 的侧边栏访问 Codex，通过输入提示来分配编码任务（点击 “Code”）或就代码库提问（点击 “Ask”）。每个任务都在一个独立的、预装了用户代码库的云沙箱环境中处理。 Codex 具备读写文件、运行命令（包括测试工具、Linter 和类型检查器）的能力。任务完成时间通常在 1 到 30 分钟之间，用户可以实时监控其进度。 Codex 会提供其操作的可验证证据，包括终端日志和测试输出的引用，允许用户追踪任务完成的每一步。用户可以审查结果、请求修改、创建 GitHub 拉取请求或直接将更改集成到本地环境。可以通过在代码仓库中放置 AGENTS.md 文件来指导 Codex，告知其如何导航代码库、运行哪些测试命令以及如何遵循项目规范。模型与性能： Codex 由 codex-1 模型驱动，这是 OpenAI o3 的一个优化版本，专门针对软件工程任务进行了训练。 codex-1 通过强化学习在真实世界的编码任务上进行训练，以生成接近人类风格的代码、精确遵循指令，并能迭代运行测试直至通过。在编码评估和内部基准测试中，即使没有 AGENTS.md 文件或自定义脚手架， codex-1 也表现出强大的性能。例如，在 SWE-Bench Verified 基准测试中， codex-1 达到了 75% 的准确率，并在 OpenAI Internal SWE tasks 上表现优异（约 70%）。安全性、信任与人类偏好对齐：...