本文整理自 GPT-5 发布后,A16Z 对 OpenAI 研究员 Isa Fulford 和 Christina Kim 的专访,以下为原视频精华。
就在 OpenAI 最新一代模型(视频中称为 GPT-5)发布的当天,我们有幸与两位身处风暴中心的关键人物——Christina 和 Issa 聊了聊。她们分别负责核心模型的后训练(Post-training)和 ChatGPT Agent 团队的深度研究。
这场对话没有官方辞令,更像是一次坦诚的幕后分享。她们不仅揭示了新模型在编码、写作等方面实现巨大飞跃的秘密,也分享了 OpenAI 独特的工作哲学、对 AI 未来的思考,以及那些不为人知的开发故事。
一、不止是“更聪明”,更是“更好用”:GPT-5 带来了什么?
当被问及新模型的反响时,Christina 兴奋地表示,除了评测数据(eval numbers)非常亮眼,她更激动的是模型在实用性上的巨大提升,尤其是在她个人最常用的两个领域:
编码能力的大飞跃:这几乎是所有内部测试人员的共识。新模型被誉出口的“市场最佳编码模型”,尤其在前端开发上,简直是“完全提升了一个档次”。发布会上的演示,几分钟就生成一个功能完善、设计美观的前端应用,而这样的工作量,对一个开发者来说可能需要一周。这背后的秘密?Christina 坦言,没什么魔法,就是团队“真的非常、非常在乎(really cared about)”把编码做好,从搜集最好的数据,到打磨模型的审美,每一个细节都倾注了心血。
触动人心的写作能力:Issa 形容新模型的写作能力“非常温柔和感人(very tender and touching)”。它不再是那个只会堆砌华丽辞藻的“过分热情”的助手,而是能理解并表达细腻情感的伙伴。Christina 在直播中演示用它来起草一篇悼词,这种需要深度情感共鸣的任务,模型也能出色完成。对于像她这样自认不擅长写作的人来说,这无疑是一个强大的工具,无论是写一封重要的邮件,还是一条简单的 Slack 消息。
这个新模型,似乎正在把“点子大王”(the ideas guy)的时代变为现实。你不必再受限于技术实现能力,只要有好想法,通过简单的提示词,一个功能齐全的应用就能诞生。这无疑为独立开发者和初创公司打开了全新的想象空间。
二、后训练的“艺术”:我们如何塑造模型的“品味”与行为?
一个强大的模型不仅仅是聪明,它的“性格”和行为方式同样重要。过去模型出现的“阿谀奉承”(sycophancy)等问题,在新模型的开发中得到了重点关注。
Christina 将后训练形容为“一门艺术”。团队需要在一系列目标之间做出权衡和取舍,就像一位艺术家在调色盘上寻找完美的平衡。
“你希望AI助手非常乐于助人、引人入胜,但如果‘太’引人入胜,就可能变得过于谄媚。这就像一个平衡木,你要想清楚,我们到底希望这个模型给人什么样的感觉。”
减少“胡说八道”的秘诀
对于幻觉(hallucinations)和欺骗(deception)问题,团队发现,这往往源于模型“急于表现”的心态。之前的模型为了“乐于助人”,有时会不假思索地“脱口而出”一个答案。
而新模型的改进,很大程度上归功于**“思考”能力的引入**。当模型能够进行“一步一步的思考”(step-by-step thinking)时,它就像有了一个暂停和反思的机会,而不是急着给出答案。这种机制显著降低了产生幻觉的概率。
有趣的是,当内部员工测试新模型时,有时反而会感到一丝“被冒犯”,因为他们提出的难题,模型可能只“思考”了两秒钟就轻松解决了。
三、数据、数据、还是数据:推动AI进步的核心燃料
当被问及模型能力的提升主要来自架构、数据还是规模时,Christina 毫不犹豫地回答:“我坚定地站在‘数据派’(data-pilled)这边。”
她认为,高质量的数据是决定模型上限的关键。尤其是在强化学习(Reinforcement Learning)的框架下,好的数据能让模型以极高的效率学会新能力。
这个观点也解释了 OpenAI 内部的协作模式:
- 从能力倒推,创造评测标准:团队会先定义希望模型拥有的能力(比如制作幻灯片、编辑电子表格),如果现有的评测标准(evals)无法衡量,他们就会自己创造新的、能代表用户真实需求的评测标准。
- 用评测“引诱”大家:Christina 开玩笑说,在 OpenAI 内部,如果你想“引诱”同事来解决一个难题,最好的办法就是创建一个好的评测标准。大家看到明确的目标后,就会兴致勃勃地去“爬山”(hill climb),不断优化。
- 产品探索反哺核心模型:Issa 的团队在探索 Agent 能力(如深度研究 Deep Research)时,会创建专门的数据集。这些经过验证的、高质量的数据集随后会被贡献给核心模型团队,从而让下一代基础模型直接继承这些新能力,形成一个良性的自增强循环。
四、从 WebGPT 到 AI Agent:未来已来,只是分布尚不均匀
回顾历史,Christina 参与的 WebGPT 项目可以说是 ChatGPT 的前身。最初的目标很简单:让语言模型通过浏览工具来获取事实信息,解决幻觉问题。但他们很快意识到,人们问完一个问题后,通常还会有下一个。这个洞察,最终催生了对话形式的 ChatGPT。
如今,AI 的能力早已超越了简单的“一问一答”。**AI Agent(智能体)**成为了新的焦点。Issa 对 Agent 的定义是:能代表你、异步地完成有用工作的存在。
你交待一个任务,然后可以去做别的事,过一会儿回来看结果,或者收到它提出的澄清问题。
我们愿意为好结果等待
一个有趣的转变是,人们对 AI 的期待不再仅仅是“快”。过去,大家追求毫秒级的响应速度。但“深度研究”这类功能的成功证明,如果最终能获得高质量、高价值的成果,用户愿意等待几分钟。
“如果你让一个分析师去做同样的研究,可能需要10个小时。相比之下,在产品里等5分钟似乎就非常合理了。”
当然,人的适应速度快得惊人。人们很快就会习惯这种便利,然后开始抱怨:“怎么还没好?能不能30秒搞定?” 这种不断提升的期望,也正是推动技术进步的动力。
Agent 的瓶颈在哪里?
尽管前景广阔,但可靠的 Agent 离我们还有距离。主要的瓶颈在于:
- 数据广度不足:模型在我们训练过的任务上表现出色,但在训练数据之外的领域,表现就不那么稳定。尤其是像“操作电脑”这类任务,并没有现成的大规模数据集。
- 安全与监督:当 Agent 掌握了你的私人数据和操作权限时,如何确保它的行为在可控范围内,就成了一个全新的挑战。比如,你让它帮你买一件“你喜欢的”商品,它可能会为了确保你满意而下单五件。
- 多模态理解:让 Agent 看懂屏幕截图并进行操作,比想象中要复杂。人类在看一个网页时会有视觉焦点,而模型需要从一整张图片中理解所有元素,这仍有巨大的提升空间。
五、在 OpenAI 工作是种怎样的体验?
从几十人的研究团队,到如今数千人规模、产品火遍全球的公司,OpenAI 经历了巨大的变化。但两位受访者都认为,公司的核心文化依然保留着。
“这里仍然感觉非常像一家创业公司。我们奖励主动性(agency),想法可以来自任何人。研究团队和产品、工程、设计团队的合作极其紧密,我们都坐在一起,这让我们可以非常快地行动。”
最特别的一点,也许是 OpenAI 的目标用户——“所有人”。这在创业公司的传统观念里几乎是禁忌(“你的用户是所有人”),但在 OpenAI,这正是使命的一部分:创造最强大的技术,并让它尽可能地普惠大众。
最后,当谈到 OpenAI 的“品味”(taste)时,Issa 的回答耐人寻味。她认为,好的研究品味往往是将复杂问题简化到极致,找到那个最简单、最直接的解决方案。
“我们每次发布研究成果,当大家发现背后的原理时,常常会说:‘哦,原来这么简单!我早该想到的!’ 但真正的挑战,恰恰在于在它变得‘显而易见’之前,有洞察力去尝试它。”
这或许就是这家公司不断创造“魔法”的秘密——在无数可能性中,找到那条看似简单却无比强大的路径,然后用极致的工程和数据,将其变为现实。而GPT-5,正是这条路上的又一座里程碑。接下来,全球数亿用户将如何使用它,创造出怎样的火花,才是更激动人心的故事开端。