在全世界的目光都聚焦于 GPT-5 之际,Matthew Berman 与 OpenAI 的研究主管 Mark Chen 进行了一次深度对话。在GPT-5发布前的紧张氛围中,他向我们揭示了这款万众期待的模型的诞生过程、核心技术突破,以及 OpenAI 对 AI 未来的宏大构想。
这不仅仅是一次技术发布,更像是一场风暴的序幕。那么,风暴中心的 OpenAI 内部究竟是怎样的景象?
发布前的“情绪过山车”与不变的初心
每次重大发布前,OpenAI 内部都像坐上了一趟“情绪过山车”。Mark 坦言,项目初期总是充满兴奋,中途则会陷入一种“内部不确定性”——“这个模型会足够好吗?能达到预期吗?”而当接近终点线,看到所有努力汇聚成型时,那种能量又会重新燃起。此刻,整个团队都迫不及待地想把 GPT-5 展示给世界。
尽管 OpenAI 已经成长为一家拥有成功产品的公司,但其总裁 Greg Brockman 仍然强调,OpenAI 的本质是一个研究实验室。作为研究主管,Mark 如何平衡研究与产品的关系?
他的回答简单而深刻:“研究就是产品。” 每一次重大的研究突破,最终都会转化为对用户有巨大价值和实用性的东西。而产品的成功,又反过来为更大胆的研究提供了资源。这是一种精妙的共生关系,缺一不可。他们希望研究能与世界产生连接,让人们真实地体验到他们正在构建的智能。
GPT-5的诞生:两大秘诀破解“数据荒”与“推理难题”
从 GPT-4 到 GPT-5,外界普遍认为,高质量的公开数据已经接近枯竭。这个假设基本正确,但并不完全。那么,OpenAI 是如何解决这个“数据稀缺”问题的呢?
1. 合成数据的崛起
除了持续寻找新的公开数据源和授权数据,GPT-5 的一大关键突破在于大量使用了合成数据——也就是由模型自己生成,而非人类编写的数据。
很多人质疑,用上一代模型的数据来训练新模型,性能提升会不会非常有限?Mark 认为,合成数据的潜力远不止于此。他们发现,合成数据可以比人类数据质量更高,并能在关键领域显著提升模型性能,而不仅仅是加深表面知识。
尤其是在代码生成这个 OpenAI 极其重视的领域,合成数据发挥了巨大作用。尽管 Mark 没有透露具体比例,但他承认,在 GPT-5 的训练数据中,合成数据的占比正“越来越多”。他相信,合成数据的技术是通用的,未来可以应用到几乎所有领域。
2. 预训练与推理的完美联姻
如果说 GPT-4 是将“预训练范式”(Pre-training Paradigm)规模化到极致的产物,那么 GPT-5 则是第一个将“预训练”和“推理范式”(Reasoning Paradigm)真正融合在一起的模型。
这听起来可能有点抽象,我们不妨这样理解:
- 预训练:像一个博闻强识的学者,能快速从海量知识库中提取信息,给出直接答案。
- 推理:像一个深思熟虑的侦探,面对复杂问题时,会花更多时间一步步思考、分析、推导,最终得出结论。
过去,这两个模式相对独立。而 GPT-5 的目标是让用户无需自己判断“这个问题需要快还是慢”,模型会智能地在需要时调用深度推理,在其他时候则提供闪电般的快速响应。将这两个模式无缝集成,背后是 OpenAI 后训练(Post-training)团队的大量工作,他们让推理模型变得更快、更稳健、更可靠。
如何“感觉”一个模型的好坏?顶尖研究员的“Vibe Check”清单
当一个模型训练到什么程度才算“准备好了”?Mark 说这有点像一门艺术,需要在追求完美和把握时机之间找到平衡。除了各种硬核指标,一个关键环节是“Vibe Check”(感觉测试)。
Mark 分享了他的私人“Vibe Check”清单:
- 高难度数学题:他有一个钟爱的、鲜为人知的数学问题——“如何用一组小于42的质数随机数生成器,来创建一个模42的均匀随机数生成器?”通过观察模型解决这个问题的创造力和方案的优化程度,他能判断其推理能力的进展。
- 代码与物理模拟:让他生成一些用户界面,尤其是需要物理模拟的(比如流体模拟、小球在六边形里弹跳)。这能直观地测试模型生成代码的鲁棒性、美观度,以及对物理规律的理解。
- 创意写作:作为一名经常写作的人,Mark 会把模型当成“思想伙伴”,让它评论、修改自己的文稿。他会看模型的文风是否自然、有说服力、引人入胜。他明确表示,GPT-5 在创意写作上的提升是用户能明显感觉到的。
- 幽默感(终极挑战):Mark 笑着说,幽默感是他测试模型的“黄金基准”,因为模型总是在这方面挣扎。他认为,真正理解幽默需要深度推理,这或许是未来衡量模型智能的一个好标准。推理能力更强的模型,在讲笑话时也表现得更好。
面对竞争,坚持自己的“AGI路线图”
近年来,全球尤其是中国的开源模型发展迅猛,在效率和架构上有很多创新。OpenAI 是否从中借鉴了技术?
Mark 的回答令人意外:“我们的研究路线图在过去几年几乎没有改变。” OpenAI 有一个非常明确、长期的 AGI(通用人工智能)发展规划,它指引着团队在短期、中期和长期的研究方向。他们对自己的路径有坚定的信念,不会因为外界的发布而轻易动摇。
当然,他盛赞了 DeepSeek 等中国实验室在架构研究和高效内核编写上的出色工作,但 OpenAI 的核心战略始终是执行自己早已制定的计划。
GPT-5 到底强在哪?开发者将首先感受到巨变
聊到 GPT-5 的具体提升,Mark 强调,许多“涌现能力”需要时间来发掘,但有些提升是立竿见影的:
- 代码能力:这是最显著的飞跃。在内部测试中,超过70%的开发者更喜欢 GPT-5 生成的代码,而不是 GPT-4o 或 o1 mini。它生成的代码更长、更完整(单次生成轻松超过1000行)、更美观,也更可靠,幻觉现象大幅减少。
- 智能体与工具调用:在知识工作领域,GPT-5 在执行需要调用外部工具的复杂任务时表现得更好。
- 多模态感知:虽然模态种类(图像、音频输入)没变,但效率大幅提升。在处理复杂的视觉感知任务时,GPT-5 提取信息所需的“思考时间”缩短了好几倍。
关于未来的几个关键思考
在对话的最后,我们探讨了几个关于 AI 未来的宏大问题。
一个“万能模型”还是多个“专用模型”? Mark 倾向于前者,即一个能够处理所有任务的“全能模型”(Omnimodel)。他认为一个强大的“大脑”能够更好地学习和分配内部的“子模块”。但同时,他也对“AI组织”——即多个AI智能体协同工作——这个概念充满兴趣。这两种路径孰优孰劣,仍是活跃的研究领域。
AI 会让程序员失业吗? Mark 的建议是:“拥抱这些工具,用它们来加速自己。” AI 不会取代你的想法和对技术的深度理解。如果你能学会与 AI 协作,让自己效率提升2倍、3倍,你的价值只会更大。对于所有知识工作者,道理亦是如此。AI 会改变一些工作,但也会创造出新的工作平面,人类的适应能力非常强。
未来6到24个月,最期待什么?
- 6个月内:继续扩展“推理缩放范式”(Reasoning Scaling Paradigm)。这意味着探索如何让模型在解决问题时投入更多的计算时间(Test-time Compute),以换取更高质量的答案,并持续革新强化学习(RL)技术。
- 24个月内:让 AI 具备与人类研究员同等水平的 AI 研究能力。他梦想创造一个AI系统,由AI自己来驱动未来AI系统的创新,实现“自进化”,这才是真正激动人心的未来。
从这次对话中,我们看到的不仅是一个更强大的 GPT-5,更是一个对通往 AGI 路径有着清晰思考和坚定信念的 OpenAI。他们相信,这项技术最终将通过推动科学进步和经济发展,极大地提升大多数人的生活质量。这条路充满挑战,但也充满希望。