Codex不只是写代码:一场悄悄发生的"工作方式革命"

本文整理自 OpenAI Forum 发布的分享视频,由有道龙虾总结和发布。 “Codex"这个词听起来像是给程序员准备的。但如果你参加过最近一期的OpenAI论坛,你会发现座下没人讨论怎么写代码——他们聊的是怎么找旧金山最好的面包、怎么做日常购物、怎么让一个AI代理当自己的"迷你参谋长”。 Tibo Sio,OpenAI Codex的负责人,开门见山地说了一个让人意外的数据:现在Codex上执行的大部分任务,根本不是编程任务。 从云端代码助手到桌面万能代理 Codex的故事其实走过一段弯路。 大约两年前,OpenAI团队开始追逐一个"宏大的挑战":让AI达到顶级软件工程师的编程水平。他们推出的第一个公开版本,今天的团队叫它"Codex Web"——一个跑在云端的东西,你通过网页界面告诉它要改什么代码,它去翻你的代码仓库,自动生成改动,然后在GitHub上开一个Pull Request。 听起来很酷。但问题是:摩擦太大了。 你得把自己电脑上那一整套开发环境在云端重新搭一遍,而模型当时也没聪明到次次都靠谱。团队很快意识到:与其让人适配工具,不如让工具适配人。 “我们决定让它在每个人自己的机器上本地跑。“Tibo说。 转折点:连程序员的大部分时间都不在写代码 Codex最初是给工程师用的。但做着做着他们发现了一个有意思的事实:软件工程师每天真正写代码的时间,大概也就20%到30%。 剩下的时间呢?翻工单、排优先级、讨论架构方案、查Bug、处理线上事故、做值班……大量工作其实是信息搜集、沟通协调、上下文梳理。这些事跟写代码没半毛钱关系。 于是技术团队自己开始"吃自己的狗粮”——用Codex处理那些非编码的杂活。结果效果之好,让他们意识到:手里拿着的根本不是"代码工具”,而是一个通用得多的东西。 Tibo讲了一个让他印象深刻的瞬间:产品负责人Alexander在Codex发布前夕,同时跑着多个Codex代理——一个在搜集用户反馈,一个在跟开发者确认状态,一个在实时更新项目计划文档——而他自己正坐在会议室里跟Tibo讨论。 “我从来没见过一个人这么高效,“Tibo说,“那一刻我就觉得,我们在改变的不只是软件工程。” 这就是那个"原来这东西是给所有人用"的觉醒时刻。 面包、咖啡和"属于你一个人的软件” 为了让观点落地,Tibo在现场做了个演示。 他住在旧金山,对当地面包的离谱价格很不满,于是对Codex说了一句话:“帮我在旧金山找最好的面包,列个表格,标明价格和购买地点。” 五分钟之后,一张完整的电子表格出现了:烘焙店名、面包种类、描述、价格,一清二楚。 然后他随口又说了一句:“把同样的东西做成网页,放地图上。” 四分钟后,一个带交互地图的网页生成了——每家店的位置、面包信息、价格,全在地图上可视化呈现。他甚至可以说"对咖啡也做同样的分析”,八分钟后旧金山咖啡地图也做好了。 整个过程,Tibo连键盘都没碰——全程语音操作。 “这不是我花一整个周末才能做出来的东西,“他说,“在以前,这根本就不会发生。它不是从’几周变几秒’,是从’永远不可能’变成了’几分钟的事’。” 这就是Tibo反复强调的"个人软件"时代:每个人都有能力为自己量身打造小工具,而不用求人。设计师可以在代码库里直接改UI细节,不用跟工程师排期;市场人员可以做深度竞争分析,不用等数据团队排期。 首席参谋、自动化日报和一个"不用看邮件"的未来 Tibo自己怎么用Codex?他打开侧边栏——一天之内已经派发了上百个任务给Codex代理: 整理桌面文件 管理计算资源集群 帮我看值班轮转情况 检查即将上线的发布计划,标出有风险的项目 每天早上9点扫描我的Gmail、Notion和日历,给我一份当日摘要,标出需要注意的事项 “它就像我的小参谋长,“他说,“帮我花精力在最重要的事情上。” 他甚至做了一个"个人新闻简报”——根据他自己的偏好筛选信息,每天早上推送。以前,这种事要么不存在,要么得雇个人专门做。 更激进的想象是:未来你甚至不用看邮件了。一个全天候运行的代理读你的收件箱,只在真正重要的时候提醒你。“你只管设定目标,剩下的它帮你搞定。” 从10分钟到好几周:/goal模式的底气 对话的后半段,Tibo透露了一个正在铺开的新功能:slash goal。 普通模式下,你给Codex一个具体任务,它干完了汇报。但在goal模式下,你给它一个长期目标——比如"解决一个非常难的数学问题”——它就会像着了魔一样持续攻坚,干几个小时、几天、甚至几周,直到自己认为目标达成。 目前已经有人用它把整个程序从一种语言翻译成另一种,有人在物理和数学问题上用它突破瓶颈。 “几个月前我们还在激动它能连续工作10分钟,“Tibo说,“现在我们在讨论连续工作几周。有时候,天才不过就是能对同一件事持续思考更久。” 给非技术用户的三个行动建议 论坛上有观众问了一个很实操的问题:非开发人员到底怎么做,才能用好Codex? Tibo给了三条: 1. 加入社群,看别人怎么用。 他自己都会被一些神奇的用法规避惊艳到。OpenAI论坛就是这样一个互相学习的地方。 2. 给它精确的指令,别模糊。 把它当成一个刚入职的新同事——没有上下文,不知道你的偏好。你得说清楚"成功长什么样"和"什么样算搞砸了”。比如要一份PPT,就明确说"我要10页,前两页放背景信息,中间六页做技术拆解,最后两页放开放问题和Q&A”。越具体,成功的概率越高。 3. 尽量连接更多信息源。 Codex现在有超过100个插件——日历、Notion、各类工具都可以接进来。接入的信息源越多,它能帮的忙就越大。 但有一条重要的提醒:别把所有事情都交给它。Tibo特别指出他见过最大的错误就是"过度委托”——把包括自己对问题的理解都一并外包出去。真正用好Codex的人,是在用它提升自己的认知,而不是替代自己的思考。它可以用图像和图表帮你理解复杂概念,但做笔记、主动回想、验证理解,永远是你自己的事。 企业落地的真正瓶颈:不是能力,是信任 当被问到企业采用的最大障碍时,Tibo的回答很直接:不是模型能力不够,是信任和安全问题。 “如果有代理在你公司里到处乱跑,不小心删了敏感文件,或者把不该发出去的信息外泄——没人敢用。” OpenAI在做三件事来解决这个: 沙箱默认运行:可以限制代理只能访问特定文件夹,甚至禁止联网 细粒度权限控制:可以设成"只能读不能写”,数据安全仍由你掌控 “自动审查"机制(Auto Review):另一个独立代理实时监控主代理的每一步操作,风险动作直接拦截 “就像一个裁判在旁边,看到越界的操作立刻喊停。”...

May 16, 2026 · 1 min · fisherdaddy

什么是“Vibe Engineering”?看看 OpenAI 内部是如何重新定义软件开发的

本文整理自 OpenAI Forum 发布的分享视频:Vibe Engineering with OpenAI’s Codex。 什么是“Vibe Engineering”?看看 OpenAI 内部是如何重新定义软件开发的 我们大概都经历过那种死线逼近的时刻,心里幻想着:“要是有个不知疲倦、不用睡觉的同事能帮我把这些代码写了该多好。” 在 OpenAI,Codex 就扮演着这个角色的。 最近在 OpenAI Forum 上,Global Affairs 团队的 Chris Nicholson 邀请了两位真正的“内行”——OpenAI 开发者体验负责人 Romain Huet 和技术专家 Aaron Friel,深入聊了聊一个最近很火的概念:Vibe Engineering(氛围工程)。 这不仅仅是一个流行词,它代表了软件开发的一种新范式:利用 AI 构建真正的生产级软件,同时让人类工程师对交付的每一行代码保持完全的掌控。 这不只是让 AI 吐出一堆代码然后祈祷它能跑通,而是把 AI 深度融入到设计、架构、调试甚至长周期的多步骤项目中。 今天,我们就来扒一扒 OpenAI 内部的工程师们究竟是怎么“生活”在未来的,以及作为普通开发者,我们可以怎么把这种工作流偷师过来。 从“Vibe Coding”到“Vibe Engineering” 你可能听说过“Vibe Coding”,通常指那种随意的、凭感觉的编程体验。但 Simon Willison 提出的“Vibe Engineering”是它的严肃版——它是 AI 驱动开发的进阶形态。 在这个形态下,大模型不再只是一个代码补全工具,它们变成了你的队友。 Romain Huet 分享了一个很有意思的观察:一年前,你会为了模型能写出一个贪吃蛇游戏或者 iPhone App demo 而兴奋。但现在,模型的能力已经进化到了可以处理长达数小时甚至数天的复杂任务。它们可以制定计划、做架构决策、编写测试,甚至自己检查自己的作业。 当 AI 学会了自我检查(Self-correction),它的表现就有了质的飞跃。这就是从“写代码”到“搞工程”的转变。 现场实战:把一个 Kotlin 项目重写为 Rust 光说不练假把式。Aaron Friel 在现场展示了一个非常硬核的 Demo,任务听起来就很让人头大:...

December 16, 2025 · 2 min · fisherdaddy

我们如何利用 Codex 在 28 天内构建出 Sora Android 版 • OpenAI

本文翻译 OpenAI 官方发布的文章 How we used Codex to build Sora for Android in 28 days。本文介绍了 OpenAI Sora 开发团队如何在短短 28 天内,利用 Codex CLI 成功构建并发布 Sora Android 应用程序的过程。文章中不仅展示了惊人的开发速度和质量,还深入探讨了在 AI 辅助开发时代,软件工程模式的转变以及人机协作的最佳实践。本文由我和 Gemini 3 Pro 共同完成翻译。 我们如何利用 Codex 在 28 天内构建出 Sora Android 版 作者:Patrick Hum 和 RJ Marsan,技术团队成员 11 月,我们向全球推出了 Sora Android 应用,让任何拥有 Android 设备的人都能将简短的提示词转化为生动的视频。发布当天,该应用登上了 Play 商店榜首。Android 用户在首个 24 小时内生成了超过一百万个视频。 在这次发布背后有一个故事:Sora 的 Android 生产级初始版本仅用 28 天就构建完成,这要归功于任何团队或开发者都可以使用的同一个智能体(agent):Codex。 从 2025 年 10 月 8 日到 11 月 5 日,一个精简的工程团队与 Codex 并肩工作,消耗了大约 50 亿个 token,完成了 Sora Android 版从原型到全球发布的全部过程。尽管规模庞大,该应用仍保持了 99....

December 15, 2025 · 2 min · fisherdaddy

快速了解一下 OpenAI 发布的 GPT‑5.1-Codex-Max

为了应对 Google 发布的 Gemini 3 Pro,OpenAI 今早发布最强编码模型 GPT-5.1-Codex-Max,该模型建立在基础推理模型的更新之上,专为处理软件工程、数学和研究等领域的代理任务而设计。GPT-5.1-Codex-Max 的核心优势在于处理长期、精细工作的能力。它是首个通过“压缩”过程原生受训以跨越多个上下文窗口运行的模型,能够在单一任务中连贯处理数百万个 Token 。 关键细节 前沿编码能力 真实场景训练: 该模型针对真实的软件工程任务(如创建 PR 、代码审查、前端编码等)进行了训练,在多项前沿编码评估中表现优于前代模型。 环境适应性: GPT-5.1-Codex-Max 是首个受训在 Windows 环境中运行的模型,并针对 Codex CLI (命令行界面)的协作进行了优化。 速度与成本效率 Token 效率提升: 得益于更有效的推理能力,模型在“中等”推理强度下的表现优于 GPT-5.1-Codex ,同时减少了 30% 的思考 Token 使用量。 推理模式: 针对非延迟敏感任务,引入了新的“超高”( ‘xhigh’ )推理模式,通过更长时间的思考提供更好的答案。 成本降低: 效率的提升转化为实际成本的节约,例如在生成高质量前端设计时成本大幅降低。 长期任务处理 压缩技术: 模型能够自动压缩会话历史,在保留关键上下文的同时释放空间,从而突破上下文窗口的限制。 持续工作能力: GPT-5.1-Codex-Max 能独立工作数小时,内部评估显示其可持续执行任务超过 24 小时,适用于项目级重构和深度调试。 安全性与信任 安全沙箱: Codex 默认在受限沙箱中运行,限制文件写入和网络访问,以降低风险。 网络安全: 虽然该模型是目前部署的最强网络安全模型,但尚未达到“高”能力等级。官方建议将 Codex 视为额外的审查者,开发者仍需在部署前人工审查其工作。 可用性与成效 访问方式: 该模型现已面向 ChatGPT Plus 、Pro 、Enterprise 等用户开放,并将取代 GPT-5.1-Codex 成为 Codex 表面的默认模型。API 访问即将推出。 生产力提升: 内部数据显示,使用 Codex 的工程师发布的拉取请求(Pull Requests)数量增加了约 70% 。 原文: 使用 GPT-5....

November 20, 2025 · 2 min · fisherdaddy

OpenAI Codex 迎来重大升级

OpenAI Codex 团队像打了鸡血一样,Codex CLI 代码更新非常频繁,两天一大版本,一天多小版本。Codex 最近增长态势非常不错,过去两周的使用量增长了约 10 倍!注意这个增长 10 倍还是是在发布 GPT-5-Codex 最新编码模型之前,我之前(9 月 8 号)在微信公众号专门写文章介绍过 Codex 的实际水平以及一些使用建议,当时的核心是使用 gpt-5-high 模型。现在 OpenAI 正式发布 GPT-5-Codex 模型,大家可以切到这个最新的编码模型上了。这个模型一经发布,火爆整个 AI 圈,Claude Code 瞬间不香了,大家全都去用 Codex CLI 了,用 OpenAI CEO 的原话说是:Codex 的氛围,感觉像是 ChatGPT 刚出来的那几个月。 快速了解一下本次 Codex 升级内容 新模型 GPT-5-Codex 训练重点:模型专注于真实世界的复杂工程任务,如从零开始构建项目、添加功能、大规模重构和代码审查。 动态资源分配:模型能根据任务复杂性动态调整其“思考”时间。对于简单请求,响应更迅速(在某些场景下使用的 tokens 减少 93.7%);对于复杂任务,则会投入更多时间进行推理和迭代(推理时间增加一倍)。 持久的自主工作能力:在测试中,GPT-5-Codex 能够就一项复杂任务持续自主工作超过 7 小时,不断迭代和修复测试失败,直至成功交付。 增强的前端能力:该模型不仅能创建美观的桌面应用,还能处理前端任务,并可以在云端环境中查看图像输入、检查其视觉进度,并向用户展示工作截图。 Codex 产品与工具更新 Codex CLI:围绕代理式工作流进行了重建,支持附加图像(如截图、线框图)作为上下文,并引入了待办事项列表、网络搜索等工具。终端 UI 和审批模式也得到了简化和改进。 IDE 扩展:将 Codex 代理直接集成到 VS Code、Cursor 等编辑器中。它能利用编辑器中的上下文(如打开的文件)来提供更快速、更精准的响应,并支持在本地与云端任务间无缝切换。 云与 GitHub 集成:通过容器缓存,新任务和后续任务的中位完成时间缩短了 90%。Codex 现在可以自动设置环境、安装依赖,并在 GitHub 中直接执行任务和审查 PR。 核心功能:代码审查 (Code Review) 工作方式:与静态分析工具不同,Codex 能够理解 PR 的意图,并结合整个代码库进行推理,甚至执行代码和测试来验证其行为。 使用方法:在 GitHub 仓库中启用后,Codex 会自动审查 PR。开发者也可以通过评论 @codex review 来手动触发审查,并可添加特定指令,如审查安全漏洞。 内部应用:在 OpenAI 内部,Codex 已经审查了绝大多数的 PR,每天发现数百个问题,显著提升了开发速度和信心。 安全性与使用建议 沙盒环境:默认情况下,Codex 在本地和云端都运行在禁用了网络访问的沙盒环境中,以降低风险。 权限控制:开发者可以根据风险承受能力自定义安全设置,例如批准特定命令的运行或限制网络访问的域名。 人类监督:OpenAI 强调,Codex 应作为人类审查员的补充,而不是替代品,并鼓励开发者在使用前审查其工作成果。 定价与可用性 订阅计划:Codex 已包含在 ChatGPT Plus、Pro、Business、Edu 和 Enterprise 计划中,使用额度随计划等级提升。 API 访问:GPT-5-Codex 模型计划很快通过 API 提供给开发者。 在 Reddit 上的 AMA(问我任何事)活动 Codex 团队于 2025 年 9 月 17 日在 Reddit 上的 AMA(问我任何事)活动,有几个需要关注的信息:...

September 15, 2025 · 4 min · fisherdaddy

介绍一下 OpenAI Codex

OpenAI 于 2025 年 5 月 16 日推出了 Codex ,Codex 是一款由 OpenAI 推出的云端 AI 软件工程代理,它由专为软件工程优化的 codex-1 模型驱动。Codex 能够帮助开发者自动执行多种软件开发任务,例如编写新功能、修复错误、回答代码库相关问题以及创建拉取请求。该工具旨在通过并行处理任务和与现有开发工作流集成,显著提升软件工程师的效率和专注度。Codex 目前已向 ChatGPT Pro 、Team 和 Enterprise 用户推出,并计划很快支持 Plus 和 Edu 用户。 Codex 的工作方式与环境: 用户可以通过 ChatGPT 的侧边栏访问 Codex,通过输入提示来分配编码任务(点击 “Code”)或就代码库提问(点击 “Ask”)。 每个任务都在一个独立的、预装了用户代码库的云沙箱环境中处理。 Codex 具备读写文件、运行命令(包括测试工具、Linter 和类型检查器)的能力。 任务完成时间通常在 1 到 30 分钟之间,用户可以实时监控其进度。 Codex 会提供其操作的可验证证据,包括终端日志和测试输出的引用,允许用户追踪任务完成的每一步。 用户可以审查结果、请求修改、创建 GitHub 拉取请求或直接将更改集成到本地环境。 可以通过在代码仓库中放置 AGENTS.md 文件来指导 Codex,告知其如何导航代码库、运行哪些测试命令以及如何遵循项目规范。 模型与性能: Codex 由 codex-1 模型驱动,这是 OpenAI o3 的一个优化版本,专门针对软件工程任务进行了训练。 codex-1 通过强化学习在真实世界的编码任务上进行训练,以生成接近人类风格的代码、精确遵循指令,并能迭代运行测试直至通过。 在编码评估和内部基准测试中,即使没有 AGENTS.md 文件或自定义脚手架, codex-1 也表现出强大的性能。例如,在 SWE-Bench Verified 基准测试中, codex-1 达到了 75% 的准确率,并在 OpenAI Internal SWE tasks 上表现优异(约 70%)。 安全性、信任与人类偏好对齐:...

May 19, 2025 · 7 min · fisherdaddy