这篇文章是一位前员工在 OpenAI
工作一年后(2024年5月至2025年)的个人反思。作者分享了对公司文化、技术实践以及参与 Codex
项目发布的亲身经历,旨在提供一个内部视角,揭示这家快速发展的人工智能公司的真实面貌。
主要观点
- 独特的公司文化:
OpenAI
拥有一个由研究驱动、自下而上、精英领导的文化。公司发展速度极快,鼓励主动性和快速迭代,但也因此面临着巨大的内部流程和沟通挑战。 - 高风险与高回报的环境: 公司在巨大的公众审视、激烈的行业竞争和构建通用人工智能 (
AGI
) 的宏大目标下运作,氛围严肃且充满紧迫感。尽管如此,员工普遍怀有“做正确的事”的使命感,致力于普惠人工智能技术。 - 雄心勃勃的战略布局:
OpenAI
的目标远不止于ChatGPT
,它在 API、基础研究、硬件、图像生成等多个领域展开竞争,展现出惊人的雄心。 Codex
项目的成功冲刺: 作者将Codex
编码助手的发布视为职业生涯的亮点。这个项目由一个精干的团队在 7 周内完成,体现了OpenAI
仍然具备初创公司般的敏捷性和执行力。- 对个人成长的巨大价值: 作者认为,在
OpenAI
的一年是其职业生涯中收获最丰富的时期之一,并建议处境不佳的创业者可以考虑加入大型 AI 实验室,以洞察技术前沿。
关键细节
公司文化与运营
- 高速增长: 在作者任职的一年里,公司规模从约 1,000 人增长到超过 3,000 人,导致许多原有流程失效,领导层角色也随之剧变。
- 沟通方式: 公司内部沟通完全依赖
Slack
,几乎不使用电子邮件。 - 决策模式: 奉行“自下而上”的原则,好的想法可以来自任何地方,而非依赖宏大的“总体规划”。有能力提出并执行好想法的人会得到提拔。
- 行动至上: 鼓励员工“无需许可”便可启动项目。例如,在
Codex
正式立项前,内部已存在 3-4 个类似的原型。 - 高度保密: 由于受到外界密切关注,
OpenAI
是一个非常神秘的地方,员工不能对外透露工作细节,收入等关键数据也受到严格保护。 - 安全焦点: 安全团队重点关注实际风险(如仇恨言论、滥用、生物武器制造等),而非理论风险(如智能爆炸)。
- 成本结构:
GPU
的成本是公司最主要的支出,远超其他所有开销。 - 外部影响:
Twitter
上的舆论对公司有显著影响,被戏称为“靠Twitter
氛围运营”。 - 团队灵活性: 团队和人员可以被迅速调动以支持高优先级项目,无需等待季度规划等传统流程。
技术与代码
- 技术栈: 主要使用一个巨大的
Python
monorepo(单一代码库),并辅以Rust
和Go
服务。所有服务都运行在Azure
上,但主要依赖其少数几项核心服务。 - 人才来源: 大量工程人才来自
Meta
,使得OpenAI
的基础设施文化与早期的Meta
有相似之处。 - 代码文化: “代码为王”,决策通常由执行工作的团队做出,这促进了行动力,但也导致了部分代码库的重复。
- 技术债: 快速扩张导致了一些技术问题,例如 CI(持续集成)频繁中断,测试运行时间过长等。
Codex
项目发布
- 开发周期: 从第一行代码到产品正式发布,仅用了 7 周时间。
- 工作强度: 团队为此进行了高强度冲刺,作者称之为近十年来工作最努力的一段时期。
- 产品理念:
Codex
被设计为一个异步编程助手,用户可以像与同事协作一样,分配任务给它,然后等待它返回一个拉取请求 (PR)。 - 巨大影响力: 发布后的 53 天内,
Codex
已生成了 630,000 个公开的 PR,展现了其强大的生产力。
行业竞争
- 三强争霸: 作者认为,通往
AGI
的道路目前是OpenAI
、Anthropic
和Google
之间的三方竞赛,每家公司因其不同的基因(消费级 vs. 企业级 vs. 基础设施+数据)而走上不同的发展路径。
原文:关于 OpenAI 的思考
三周前,我离开了OpenAI。我是在 2024 年 5 月加入这家公司的。
我希望分享我的反思,因为外界对 OpenAI 的所作所为有很多迷雾和噪音,但很少有关于在这里工作的文化究竟感觉如何的第一手描述。
Nabeel Quereshi 有一篇很棒的文章,名为《对 Palantir 的反思》,他在文中深思了是什么让 Palantir 与众不同。我想趁着记忆犹新,为 OpenAI 做同样的事情。你在这里不会看到任何商业机密,更多的是关于这个史上最迷人的组织之一,在某个极其有趣的时刻,其当前迭代版本的一些反思。
开门见山地说:我离开的决定没有任何个人恩怨——事实上,我对此深感矛盾。从自己创业当老板转变为一个 3000 人组织的员工是很难的。现在,我渴望一个新的开始。
工作的质量完全有可能吸引我回来。很难想象有什么能比构建 AGI 更具影响力,而大语言模型(LLM)无疑是这十年来最重要的技术创新。我很幸运能亲眼见证一些进展,并参与了Codex 的发布。
显然,这些并非公司的观点——作为观察,它们只是我个人的看法。OpenAI 是一个很大的地方,这只是我窥视它的一个小窗口。
文化
关于 OpenAI,首先要知道的是它发展速度惊人。我加入时,公司只有 1000 多人。一年后,已经超过 3000 人,而我的在职时间已经排进了前 30%。几乎所有领导层现在的工作都与大约 2-3 年前截然不同。
当然,当你以如此快的速度扩张时,所有环节都会出问题:公司如何沟通、汇报结构、如何交付产品、如何管理和组织人员、招聘流程等等。不同团队的文化差异很大:有些团队总是在全力冲刺,有些则在照看大型模型的训练运行,还有些则以更稳健的步伐前进。没有单一的 OpenAI 体验,研究(research)、**应用(applied)和市场推广(GTM)**部门在不同的时间维度上运作。
OpenAI 的一个不同寻常之处在于,所有事情,我是说所有事情,都通过 Slack 运行。没有电子邮件。我在那里的全部时间里,可能只收到过大约 10 封邮件。如果你不善于组织,你会觉得这极其分散注意力。但如果你精心管理你的频道和通知,也可以让它变得相当高效。
OpenAI 非常自下而上,尤其是在研究领域。我刚来的时候,曾询问下一季度的路线图。我得到的答案是:“这东西不存在”(虽然现在有了)。好的想法可以来自任何地方,而且通常很难提前判断哪些想法会最有成效。与其说有一个宏大的“总体规划”,不如说进展是迭代式的,随着新的研究成果不断涌现而被揭示。
得益于这种自下而上的文化,OpenAI 也非常任人唯贤。从历史上看,公司领导者的晋升主要基于他们提出好点子并执行的能力。许多能力极强的领导者并不擅长在全体会议上演讲或玩弄政治手段。在 OpenAI,这些事情没有在其他公司那么重要。最好的想法往往会胜出。
这里有强烈的行动偏好(你可以直接动手去做)。相似但无关的团队最终汇集到各种相似的想法上,这并不罕见。我最初参与了一个与ChatGPT Connectors 类似(但内部)的并行项目。在我们决定推动Codex 发布之前,内部大概有 3-4 个不同的原型在流传。这些项目通常由一小撮人未经许可便开始着手。一旦它们显示出前景,团队就会迅速围绕它们形成。
Andrey(Codex 的负责人)曾告诉我,你应该把研究员看作他们自己的“迷你高管”。这里有一种强烈的倾向,即着手做自己的事情,看看结果如何。这里有一个推论——大多数研究是通过用一个特定的问题来“钓”到研究员的兴趣而完成的。如果某件事被认为是无聊或“已解决”的,那它可能就不会有人去做了。
优秀的研究经理影响力巨大,同时也极为稀缺。最优秀的那些能够将许多不同的研究项目联系起来,并促成一个更大的模型训练。对于优秀的 PM(产品经理)也是如此(向 ae 致敬)。
我合作过的 ChatGPT 工程经理们(Akshay、Rizzo、Sulman)是我见过最沉着冷静的客户之一。感觉他们到这个地步已经见多识广了。他们大多是放手型的,但会招聘优秀的人才,并努力确保他们为成功做好准备。
OpenAI 方向调整非常迅速。这在 Segment 是我们非常看重的一点——当你获得新信息时,做正确的事远比仅仅因为已有计划而坚持到底要好。一个像 OpenAI 这样规模的公司仍然保持这种精神是了不起的——谷歌显然没有。公司决策迅速,一旦决定了方向,就会全力以赴。
公司受到了大量的审视。来自 B2B 企业背景的我,对此感到有些震惊。我经常在媒体上看到尚未在内部宣布的新闻。我告诉别人我在 OpenAI 工作时,对方通常已经对公司有了先入为主的看法。一些 Twitter 用户还运行着自动机器人,检查是否有新功能即将发布。
因此,OpenAI 是一个非常神秘的地方。我不能详细告诉任何人我正在做什么。有少数几个不同权限的 Slack 工作区。收入和烧钱的数据更是被严密保守。
OpenAI 也是一个比你想象中更严肃的地方,部分原因是赌注感觉非常高。一方面,目标是构建 AGI——这意味着有很多事情需要做对。另一方面,你在努力打造一个亿万用户用来获取从医疗建议到心理咨询等各种信息的产品。再者,公司正在全球最大的舞台上竞争。我们会密切关注 Meta、谷歌和 Anthropic 的动态——我相信他们也同样如此。所有主要的世界政府都在密切关注这个领域。
尽管 OpenAI 经常在媒体上被恶意中伤,但我遇到的每个人都确实在努力做正确的事情。鉴于其消费者导向,它是大型实验室中最引人注目的一个,因此也招致了很多诽谤。
话虽如此,你可能不应该将 OpenAI 视为一个单一的整体。我认为 OpenAI 是一个像洛斯阿拉莫斯国家实验室那样起家的组织。它最初是一群科学家和工匠在探索科学前沿。这个团体碰巧偶然催生了历史上最具病毒式传播性的消费级应用。然后发展到有向政府和企业销售的雄心。因此,不同在职时间的员工和不同部门的人有着非常不同的目标和观点。你在那里待得越久,就越可能从“研究实验室”或“为善的非营利组织”的视角看待事物。
我最欣赏的一点是,公司在**“普及人工智能的好处”方面真正做到了“言行一致”**。最前沿的模型并不会被保留给某个需要年度协议的企业级客户。世界上的任何人都可以登录 ChatGPT 获得答案,即使没有登录也行。还有一个你可以注册使用的 API——而且大多数模型(即使是 SOTA 或专有模型)往往会很快进入 API,供创业公司使用。你可以想象一个与我们今天所处的模式截然不同的体制。OpenAI 在这方面值得极大的赞誉,这仍然是公司 DNA 的核心。
如果你经常阅读 Zvi 或 Lesswrong 的文章,那么你可能会惊讶于安全实际上比你想象的要重要得多。有大量的人在致力于开发安全系统。鉴于 OpenAI 的性质,我看到更多关注的是实际风险(仇恨言论、滥用、操纵政治偏见、制造生物武器、自残、提示注入),而不是理论风险(智能爆炸、权力寻求)。这并不是说没有人在研究后者,肯定有人在关注理论风险。但从我的角度来看,那不是重点。大部分已完成的工作并未发表,OpenAI 确实应该多做一些工作来公布它们。
与其他公司在每个招聘会上都大方派发周边商品不同,OpenAI 基本不怎么送周边(即使是对新员工)。取而代之的是,会有“上新”(drops),你可以在那里订购库存商品。第一次上新就因为需求太大而导致 Shopify 商店崩溃。内部还流传过一个帖子,教大家如何通过 POST 正确的 JSON 负载来绕过这个问题。
几乎所有东西的成本与 GPU 成本相比都是九牛一毛。给你一个概念:作为 Codex 产品一部分构建的一个小众功能,其 GPU 成本足迹与我们整个Segment 的基础设施相当(虽然规模不及 ChatGPT,但也承载了相当一部分的互联网流量)。
OpenAI 或许是我见过最雄心勃勃到可怕的组织。你可能会认为,拥有全球顶级的消费级应用之一就足够了,但它渴望在数十个领域竞争:API 产品、深度研究、硬件、编程智能体、图像生成,以及一些尚未公布的领域。这里是孕育想法并付诸实践的沃土。
公司非常关注 Twitter。如果你在 Twitter 上发布了与 OpenAI 相关且病毒式传播的内容,很有可能有人会读到并予以考虑。我的一个朋友开玩笑说:“这家公司靠 Twitter 上的氛围运作”。作为一家消费品公司,这或许不无道理。当然,仍然有大量关于使用情况、用户增长和留存率的分析——但“氛围”也同样重要。
OpenAI 的团队比其他地方要灵活得多。在发布 Codex 时,我们需要一些经验丰富的 ChatGPT 工程师的帮助才能按时发布。我们与一些 ChatGPT 的工程经理会面提出了请求。第二天,我们就迎来了两位准备好投入并提供帮助的牛人。没有“等待季度规划”或“重新调配人力”的过程。一切进展得非常迅速。
领导层非常显眼且深度参与。在像 OpenAI 这样的公司,这可能显而易见,但每位高管似乎都非常投入。你会看到 gdb、sama、kw、mark、dane 等人经常在 Slack 上发言。没有缺席的领导者。
代码
OpenAI 使用一个巨大的单一代码库(monorepo),其中绝大部分是 Python(尽管有越来越多的 Rust 服务和一些用于网络代理等的 Golang 服务)。这导致了很多看起来很奇怪的代码,因为 Python 的写法太多样了。你会遇到有 10 年谷歌经验的资深工程师为规模化设计的库,也会遇到刚毕业的博士写的即用即弃的 Jupyter notebook。几乎所有东西都围绕 FastAPI 创建 API,并使用 Pydantic进行验证。但并没有强制执行统一的风格指南。
OpenAI 所有东西都运行在 Azure 上。有趣的是,其中只有三个服务我认为是值得信赖的:Azure Kubernetes Service、CosmosDB(Azure 的文档存储)和 BlobStore。没有真正等同于 Dynamo、Spanner、Bigtable、Bigquery Kinesis 或 Aurora 的服务。很少会去考虑自动伸缩单元。IAM 的实现往往比你在 AWS 上获得的要受限得多。而且有一种强烈的内部自研倾向。
在人员方面(至少在工程领域),存在一条非常显著的 Meta → OpenAI 人才管道。在许多方面,OpenAI 都像早期的 Meta:一款轰动性的消费级应用,初期的基础设施,以及渴望快速行动的愿望。我所见过的从 Meta + Instagram 引进的基础设施人才都非常强。
把这些因素放在一起,你会看到很多基础设施的核心部分让人联想到 Meta。有一个内部重新实现的TAO。一个旨在边缘整合身份验证的努力。我相信还有许多我不知道的其他项目。
“聊天”的理念根深蒂固。自从 ChatGPT 一炮而红后,大量的代码库都是围绕聊天消息和对话的概念构建的。这些基本单元已经根深蒂固,你最好不要轻易忽视它们。我们在 Codex 中稍微偏离了这些(更多地借鉴了responses API 的经验),但我们还是利用了很多现有成果。
代码为王。 决策通常由计划执行工作的团队做出,而不是由某个中央架构或规划委员会决定。结果是,这里有强烈的行动偏好,但也常常出现代码库中很多重复的部分。我至少见过六七个用于队列管理或智能体循环等功能的库。
在某些领域,工程团队的快速扩张和工具的匮乏造成了问题。sa-server(后端的单一服务)有点像一个垃圾场。在 master 分支上,CI(持续集成)的失败频率比你想象的要高得多。即使是并行运行并只考虑部分依赖的测试用例,在 GPU 上也可能需要约 30 分钟才能跑完。这些并非无法解决的问题,但它很好地提醒我们,这类问题无处不在,而且当你扩张得非常快时,它们可能会变得更糟。值得称赞的是,内部团队正在投入大量精力来改善这一状况。
我学到的其他东西
一个大型消费品牌是什么样的。 在我们开始做 Codex 之前,我并未真正理解这一点。所有事情都以“专业版订阅数”来衡量。即使对于像 Codex 这样的产品,我们主要考虑的也是个人用户的使用入门,而不是团队。这对我这个主要来自 B2B/企业背景的人来说,有点颠覆认知。你只要一按开关,从第一天起流量就来了。
大型模型是如何训练的(从宏观层面)。这有一个从“实验”到“工程”的光谱。大多数想法最初都是小规模实验。如果结果看起来有希望,它们就会被整合到一次更大的训练运行中。实验既包括调整核心算法,也包括调整数据混合并仔细研究结果。而在大规模端,进行一次大型训练运行几乎就像一个巨大的分布式系统工程。你会遇到各种奇怪的边缘情况和意想不到的事情。你的任务就是去调试它们。
如何进行 GPU 算力成本计算。 作为 Codex 发布的一部分,我们必须预测负载容量需求,这是我第一次真正花时间对 GPU 进行基准测试。要点是,你应该从你需要的延迟要求(总延迟、token 数量、首个 token 生成时间)出发,而不是自下而上地分析一个 GPU 能支持什么。每个新的模型迭代都可能彻底改变负载模式。
如何在一个大型 Python 代码库中工作。Segment 是微服务和宏服务的结合体,主要使用 Golang 和 Typescript。我们没有 OpenAI 那么宽泛的代码。我学到了很多关于如何根据贡献的开发者数量来扩展代码库的知识。你必须为“默认可用”、“保持 master 分支干净”和“难以误用”等事情设置更多的护栏。
发布 Codex
我在 OpenAI 最后三个月的一个重要部分是发布Codex。这无疑是我职业生涯的亮点之一。
背景是,早在 2024 年 11 月,OpenAI 就设定了在 2025 年推出一个编程智能体的目标。到了 2025 年 2 月,我们内部已经有了一些利用模型取得很好效果的工具。我们感受到了发布一个专门针对编程的智能体的压力。很明显,模型已经发展到了在编程方面非常实用的地步(看看市场上涌现的大量“氛围编程”工具就知道了)。
我提前结束了陪产假,回来参与 Codex 的发布。我回来一周后,两个团队进行了一次(略显混乱的)合并,然后开始了一场疯狂的冲刺。从开始(写下第一行代码)到完成,整个产品只用了7周时间就构建出来了。
Codex 的冲刺可能是我近十年来工作最努力的一次。大多数晚上都工作到 11 点或午夜。每天早上 5:30 被新生儿吵醒。早上 7 点又去办公室。大多数周末都在工作。我们整个团队都拼尽全力,因为每一周都很关键。这让我想起了在 YC 的日子。
很难夸大这种节奏有多么不可思议。我从未见过任何组织,无论大小,能在如此短的时间内从一个想法变成一个完全发布并免费提供的产品。范围也不小;我们构建了一个容器运行时,对仓库下载进行了优化,微调了一个自定义模型来处理代码编辑,处理了各种 git 操作,引入了一个全新的界面,启用了互联网访问,最终做出了一个用起来非常令人愉悦的产品。
不管你怎么说,OpenAI 仍然拥有那种发布精神。
好消息是,对的人可以创造奇迹。我们是一个由约 8 名工程师、约 4 名研究员、2 名设计师、2 名市场推广和 1 名产品经理组成的资深团队。如果没有这个团队,我想我们早就失败了。没有人需要太多指导,但我们确实需要大量的协调。如果你有机会与 Codex 团队的任何人合作,请记住,他们每一个都非常出色。
发布前一晚,我们五个人熬到凌晨 4 点,试图部署那个主要的单一服务(一个需要数小时的过程)。然后又回到办公室,为早上 8 点的发布公告和直播做准备。我们打开了功能开关,开始看到流量涌入。我从未见过一个产品仅仅因为出现在左侧边栏就获得如此迅速的增长,但这就是 ChatGPT 的力量。
在产品形态方面,我们最终确定了一种完全异步的形式。与当时的 Cursor(它现在支持一种类似的模式)或 Claude Code 等工具不同,我们的目标是允许用户启动任务,让智能体在自己的环境中运行。我们的赌注是,在最终阶段,用户应该像对待同事一样对待编程智能体:他们向智能体发送消息,它花一些时间完成工作,然后带着一个 PR 回来。
这有点像一场赌博:我们今天处于一个有点尴尬的状态,模型不错,但还不是很棒。它们可以连续工作几分钟,但还不能连续工作几小时。用户对模型能力的信任程度差异很大。我们甚至不清楚模型的真正能力是什么。
从长远来看,我确实相信大多数编程会变得更像 Codex。在此期间,看到所有产品如何演变将会非常有趣。
Codex(也许不令人意外)非常擅长在一个大型代码库中工作,理解如何导航。我看到的与其他工具最大的区别在于,能够一次性启动多个任务并比较它们的输出。
我最近看到有公开数据比较了不同 LLM 智能体生成的 PR。仅从公开数据看,Codex 已经生成了 630,000 个 PR。自发布以来的 53 天里,这相当于每个工程师大约 78,000 个公开 PR(你可以自己猜测私有 PR 的倍数)。我不确定我这辈子是否做过如此有影响力的事情。
临别赠言
说实话,我最初对加入 OpenAI 心存疑虑。我不确定牺牲自由、有老板、成为一个更大机器中的一个小得多的齿轮会是什么样子。我一直对加入这件事保持低调,以防它不合适。
我确实想从这次经历中得到三样东西……
- 培养对模型如何训练以及其能力发展方向的直觉
- 与优秀的人共事并向他们学习
- 发布一款出色的产品
在回顾这一年时,我认为这是我做过的最好的决定之一。很难想象在其他任何地方能学到更多。
如果你是一个创业者,感觉你的初创公司真的没有什么进展,你应该要么 1) 深入重新评估你如何能有更多尝试的机会,要么 2) 去加入一个大型实验室。现在是构建的绝佳时机。但它也是一个窥视未来走向的绝佳时机。
在我看来,通往 AGI 的道路目前是三强争霸:OpenAI、Anthropic 和谷歌。这些组织中的每一个都会根据其 DNA(消费者 vs 企业 vs 坚如磐石的基础设施+数据)采取不同的路径。在其中任何一个地方工作都将是一次大开眼界的经历。
感谢 Leah 在我熬夜工作期间给予的无与伦比的支持并承担了大部分育儿工作。感谢 PW、GDB 和 Rizzo 给了我一个机会。感谢 SA 团队的同事们教我入门:Andrew, Anup, Bill, Kwaz, Ming, Simon, Tony, and Val。感谢 Codex 核心团队给了我一生难忘的经历:Albin, AE, Andrey, Bryan, Channing, DavidK, Gabe, Gladstone, Hanson, Joey, Josh, Katy, KevinT, Max, Sabrina, SQ, Tibo, TZ and Will。我永远不会忘记这次冲刺。
砰。