AI 让产品团队“反过来”工作：Codex 背后的新产品方法论

如果 AI 能瞬间搭出任何功能，那产品经理、设计师和工程师接下来该干什么？OpenAI Codex 的产品负责人 Andrew Ambrosino 在 Lenny’s Podcast 里给出了一个反直觉的答案：AI 没有消灭产品工作，它只是把流程翻了个面——过去最贵的是实现，现在最贵的是判断力。

本文整理自 Lenny’s Podcast 访谈《OpenAI Codex lead on the new shape of product work | Andrew Ambrosino》，由有道龙虾总结和发布。

OpenAI 内部有个很夸张的数字：接近 100% 的员工每周都在用 Codex。不是 100% 的工程师，而是整个公司。还有一个说法是，90% 的 OpenAI 员工都在用 Codex。

这件事很有代表性。Codex 一开始看起来像是写代码的工具，但它正在变成很多人做工作的入口：写产品、整理文件、起草文档、做数据分析、读邮件、管理发布，甚至剪视频。

从今年 1 月以来，Codex 的使用量增长了 6 倍，周活跃用户已经超过 500 万。这个数字很可能很快就会过时。

Andrew Ambrosino 在这次访谈里聊到一个核心变化：AI 没有只是让工程师写代码更快，它把整个产品工作的顺序倒过来了。

过去最贵的是实现，现在最贵的是判断。

实现不再贵，判断才贵

传统产品流程背后有一个默认假设：实现很贵。

所以团队会先做研究、写 PRD、画设计稿、做原型、开评审会，尽可能在动工程资源之前把风险降下来。哪怕后来大家都说自己不用瀑布流了，本质上还是在遵循这个逻辑：先想清楚，因为真正写代码太贵了。

但 AI 把这个前提打穿了。

现在，只要你把想法说清楚，模型就能很快搭出一个功能。OpenAI 内部甚至会出现一种情况：某个功能大家都觉得该做，于是公司里可能有 90 个不完全协调的小团队，各自做出一个版本。

以前大家围着文档讨论，现在大家围着一堆能跑的东西讨论。

这听起来很爽，但问题也随之而来：当实现变得便宜，真正困难的就变成了筛选、整合、判断和定方向。

Andrew 把这个能力称为 taste，也就是“品味”。但他强调，这里的品味不是简单地说界面好不好看，而是更大的判断力：

哪个问题值得做？
这个想法应该用文档表达，还是用原型表达？
90 个尝试里，哪些部分值得留下？
这个功能应该独立存在，还是合进另一个功能？
一个交互应该怎么组织，才能符合产品整体系统？
它现在能不能发布，还是只是一个探索？

当实现几乎无限供应，稀缺的东西就变成了“知道什么是好东西”。

PRD 没死，原型也不是万能药

现在很多产品团队喜欢说：“PRD 死了，原型才是未来。”

Andrew 不同意这个说法。

他的观点更细：不是文档死了，也不是原型赢了，而是你必须为不同问题选择不同媒介。

如果你要解决的是一个模糊方向的产品清晰度问题，文档可能仍然是最好的方式。因为文档能迫使人把逻辑、边界、假设和目标说清楚。

如果你要验证一个交互模式，让人真实上手试试，那原型就更合适。

麻烦在于，AI 让原型太容易做得像真东西了。

过去，一个东西看起来像生产环境，通常意味着它已经经过了研究、设计、商业目标验证和工程评估。现在不一样。一个下午 vibe coding 出来的原型，也可能看起来非常完整，甚至像马上就能上线。

这会制造一种错觉：大家看到一个 polished prototype，就以为它已经 ready for production。

但它可能只是早期探索。

Andrew 提到一个很有意思的概念：第一笔痕迹。画家在画布上落下第一笔之后，后面的所有判断都会围绕这第一笔展开。产品也是一样。如果你太早做出一个漂亮原型，团队就会被它锚定，开始围绕它修修补补，而不是继续追问更大的问题。

所以在 AI 时代，产品团队更要清楚地标注：这个东西到底是什么阶段的产物？

它是探索，还是验证？是方向稿，还是交付稿？是用来讨论问题，还是用来准备上线？

“品味”到底是什么？

“品味”这个词现在很热，也很容易被误解。

很多人一听到品味，就会想到视觉审美、排版、动画、颜色、质感。Andrew 说这当然是一部分，但远远不够。

他举了一个例子：有人说 Paul Graham 很有品味，但他穿 cargo shorts。意思是，品味不等于穿得精致，也不等于界面做得漂亮。

在产品里，品味更像是一种综合判断力。

它包括审美，但也包括系统思维。一个动画是不是太快了？一个组件和整体语义是否一致？一个功能该放在哪里？它属于哪个主题？它是否符合公司和用户真正要去的方向？

更大的问题是：如果现在什么都能做，我们到底应该做什么？

这才是 AI 时代最难的问题。

当模型可以生成代码、生成界面、生成文档、生成方案，人类的价值会越来越集中在判断目标、识别信号、过滤噪音、决定方向上。

为什么 AI 现在还不擅长设计？

访谈里有个很直白的问题：为什么顶尖模型现在仍然不太会做设计？

Andrew 给了几个原因。

第一，设计比代码更难评分。

代码至少可以问：能不能编译？测试过不过？功能有没有完成？但设计没有这么直接的评分函数。什么是好设计，里面包含大量人的反馈、文化语境、审美变化和使用感受。

第二，过去 AI 实验室更优先投入那些能加速 AI 研究的能力。代码能力明显能推动研究进展，所以写代码很早进入了强化飞轮。设计当然重要，但它不像代码那样直接推动研究效率。

第三，设计需要新鲜感，而软件工程很多时候需要稳定模式。

如果一个模型每次都生成 Linear 风格的网站，第一次你会觉得惊艳，第二十次就变成套路了。设计里有文化、有时机、有新意。它不能只是复制当下最流行的模式。

第四，真正好的设计不只是表面。

比如公司明天换品牌，如果系统设计做得浅，就要手动改 263 个组件。更深的设计能力，是理解不同组件之间的语义关系、交互关系和代码抽象关系。哪些东西看起来不同，但在系统里其实承担同一种意义？哪些样式背后代表同一种交互模式？

这种设计和代码之间的抽象层，目前仍然是模型比较难真正理解的部分。

设计流程死了吗？死了一部分，但不是全部

访谈中提到另一个观点：设计流程已经死了。

Andrew 的回答很微妙：如果你说的是过去那种僵硬的“设计流程模板”，那它确实死了。但如果你说的是判断当前处在什么阶段、用什么方式探索、如何让团队形成共识，那它比以前更重要。

他批评过一种旧设计文化：大家过度崇拜流程本身。只要做了用户研究、发散、收敛、原型、case study，好像结果就天然是好的。甚至哪怕没人用，只要流程完整，也能显得很正确。

AI 暴露了这个流程的脆弱性。

因为现在实现太快了，团队不需要等到最后才看到一个能跑的东西。你可以在设计早期就把完整实现拉进来。于是“工具”和“阶段”被解耦了。

过去 Figma 原型代表一个阶段，生产代码代表另一个阶段。现在不一定。生产级外观也可能只是草稿。

所以真正重要的不是某个固定流程，而是团队对阶段的共同理解。

OpenAI 内部甚至会做 “baby Codex” 这样的简化版产品代码库。它不像生产环境那么复杂，但能模拟主要交互，让团队快速试各种想法，比如侧边栏怎么工作、某个面板怎么出现、能不能加入群聊式交互。

这不是传统意义上的设计稿，也不是完整产品，而是 AI 时代新的设计工具。

角色会消失吗？不会，但边界会变模糊

AI 让产品、设计、工程之间的边界变得更模糊。

Codex 团队里，设计师会写代码，产品经理懂技术，工程师也会提出产品判断。Andrew 说，一个人的角色越来越像是他日常工作的平均值。

如果你大部分时间在做产品判断，你就是偏 PM。大部分时间在写代码和处理系统，你就是偏工程。重点不再是边界，而是你实际在推动什么。

但他也反对一种极端说法：取消所有角色，大家都叫 builder。

他觉得这很危险。

因为每个学科都有积累下来的专业能力、最佳实践和失败经验。产品不是“会写点代码”就能做，设计也不是“会用工具”就能做，财务也不是“会用 Excel”就能进财务团队。

真正该消失的是那种“这不是你的领域，所以你不能碰”的边界感。

不该消失的是专业本身。

新团队需要什么样的人？

在 Codex 这样的团队里，Andrew 最看重两类能力：agency 和 taste。

agency 是主动性。不是等别人安排，而是看到问题之后能自己推进。

taste 是判断力。不是能生成很多东西，而是在无限 token、无限尝试、无限原型里知道什么有信号，什么只是噪音。

他提到，现在最有价值的人，往往是能把一个想法从模糊状态一路带到完成的人。这个人不一定必须精通所有细节，但他要能判断方向，能协调资源，能亲自下场，能知道什么时候该继续，什么时候该停。

这也改变了 IC 和管理者的关系。

工程师不再只是一个字符一个字符地敲代码，他也在管理 agent、管理任务、管理输出。经理也不是完全不同的物种，只是在更大的粒度上管理工作流、方向和协作。

大家都在某种意义上变成了“管理者”，只是管理的对象不同。

路线图怎么做？越远越模糊，越近越具体

AI 产品规划最难的地方之一，是模型能力本身一直在变。

Andrew 说，短期计划需要具体，长期计划必须保持模糊。因为你给 9 个月后的计划加太多细节，本质上只是制造“虚假的精确”。

尤其在应用层产品里，很多功能能不能成立，不只取决于产品形态，也取决于模型是不是已经够聪明。

他举了 Codex 的例子：如果 2 月发布的 Codex app 在 11 月就准备好了，它很可能会失败。产品形态可能一样，但模型能力差几个月，结果完全不同。

这给产品团队带来一种新工作方式：

先列出未来一两年可能想做的方向。
尽快做出原型。
判断哪些现在已经可用。
对还不成熟的方向先放着。
每次模型能力跃迁，再拿出来试一次。

以前一个功能失败，可能说明方向错了。现在也可能只是模型还没准备好。

不要太 AGI-pilled：太超前也会失败

有意思的是，Andrew 也提醒团队不要过度迷信“最终形态”。

Codex 早期有一个云端版本，想法很宏大：你给模型一个任务，它自己去做，回来交付结果。听起来很接近未来，但当时模型能力还没到位，体验并不好。

后来 Claude Code 这类更本地、更交互、更愿意不断问问题的形态，反而更适合当时的模型能力。

这说明产品不能只盯着“终局”。你要看当前模型能力、用户心智、交互方式和市场准备度之间是否匹配。

有些东西方向没错，但发布早了就会失败。

Codex 不只是写代码，而是工作的入口

Andrew 自己使用 Codex 的方式也很能说明产品方向。

一开始，他希望 Codex 好到足以让自己用它来开发 Codex。后来角色变了，他需要做更多产品发现、团队协调、发布管理，于是他也开始用 Codex 做这些事。

比如他会让 Codex 从 Slack、PR、内部文档里收集更新，整理发布状态，生成每日简报，提醒哪些事情需要关注。

这个流程现在还需要人去配置和调教，但方向很清楚：Codex 正在从“写代码工具”变成“工作中枢”。

如果它没有 Slack 连接器，它会问你要不要加。如果没有现成接口，它也可以通过浏览器或电脑操作去完成任务。用户不用知道怎么配置，只要说出自己想要的结果。

这也是 OpenAI 在思考的问题：哪些个人工作流应该变成产品的一等功能？哪些应该继续保留为用户自己的工作方式？

比如很多人会让 AI 帮自己建立类似 Notion、Obsidian 的知识系统。Andrew 认为，这类需求足够通用，应该变成更自然的 memory 功能，而不是让每个人都自己搭一遍。

浏览器、连接器和电脑操作，会合在一起

Codex 里有 in-app browser，也有 Chrome extension，还能做 computer use。不同能力之间的边界并不总是清楚。

有时候，最好的方式是通过连接器调 API。有时候，是在内置浏览器里让 agent 操作。有时候，它干脆直接接管电脑，像人一样点击界面。

这背后有很多产品判断：什么时候用连接器？什么时候打开浏览器？什么时候操作用户的 Chrome？什么时候应该进入 Excel、Premiere Pro 这样的专业软件？

Andrew 提到一个很有代表性的故事：OpenAI 内部视频团队用 Codex 剪视频。Codex 本身不是视频编辑器，但它发现对方用 Premiere Pro，于是通过修改 Premiere 背后的文件做了一些编辑。做不到的地方，它又给自己写了一个 Premiere Pro extension，用来和 Premiere 对话、改 marker。

这听起来有点疯狂，但它展示了未来工作软件的一种形态：

Codex 不一定要重新发明所有专业工具。它可以理解你的目标，然后调用、操作、扩展你已经在用的工具。

未来的工作入口，可能不是“所有事情都在一个窗口里完成”，而是一个能理解任务、协调工具、跟踪进度的 home base。

失败也很多，只是外面看不到

访谈最后聊到失败。

Andrew 说，外界看到 Codex 增长很快，可能会觉得一切都很顺。但他自己的职业经历里，有很长时间都在失败。

他做过创业公司，最后公司基本是按资产出售。他也在受监管行业做过 AI 工具，试了很多次都不成。

即使在 OpenAI 内部，产品方案也会经历大量微失败。一个想法丢进 Slack，可能会引发 2000 条消息，大家直接告诉你哪里很蠢。正因为内部经历了这么多轮“这不行”，外部看到的产品才会相对成熟。

这点很重要：AI 时代看起来节奏更快，但不是说失败少了。只是失败的颗粒度变小了、循环变快了。

给产品人的真正提醒

这场访谈里最有价值的一句话，其实出现在录制结束后的闲聊里：

不要嫁给你现在的流程。要嫁给你真正能交付的结果。

如果你把自己的价值绑定在“我最会用 Figma auto layout”“我最会写某种语法”“我最会跑某个固定流程”上，那会很危险。因为这些工具层面的能力，AI 会越来越快追上来。

更值得押注的是你能带来的独特结果：

你能不能识别重要问题？
你能不能找到正确媒介表达想法？
你能不能判断一个东西是不是好？
你能不能不断调整自己的流程？
你能不能在变化里继续交付？

AI 时代对人的要求不是更低，而是更高。

它要求人有更强的自我意识，更愿意重学，更不执着于旧工具，也更清楚自己真正的价值在哪里。

Codex 的故事不是“AI 替代产品团队”，而是产品工作被重新洗牌了。

实现变便宜了，尝试变便宜了，原型变便宜了。于是判断、品味、方向感、协作和取舍，反而更贵了。

实现不再贵，判断才贵#

PRD 没死，原型也不是万能药#

“品味”到底是什么？#

为什么 AI 现在还不擅长设计？#

设计流程死了吗？死了一部分，但不是全部#

角色会消失吗？不会，但边界会变模糊#

新团队需要什么样的人？#

路线图怎么做？越远越模糊，越近越具体#

不要太 AGI-pilled：太超前也会失败#

Codex 不只是写代码，而是工作的入口#

浏览器、连接器和电脑操作，会合在一起#

失败也很多，只是外面看不到#

给产品人的真正提醒#