本文整理自 Latent Space 对 OpenAI 总裁的访谈,Greg Brockman 谈 OpenAI 通往通用人工智能(AGI)之路,以下为本视频精华。
就在最近,OpenAI像一阵旋风,接连发布了GPT-5和其开源模型GPT-OSS,整个科技圈为之震动。在这场风暴的中心,OpenAI的联合创始人兼总裁Greg Brockman坐下来,与我们进行了一场深度对话。他不仅分享了这些重磅产品背后的故事,更深入地探讨了关于推理、计算、以及人工智能未来的思考。这不仅仅是一次产品发布的复盘,更像是一次对智能本质的哲学探索。
第一章:从“为什么还不是AGI?”到GPT-5的诞生
故事要从GPT-4的诞生说起。当GPT-4训练完成,并经过指令微调后,团队惊讶地发现,它竟然能进行流畅的多轮对话——尽管它从未被专门训练过“聊天”。
“我们当时开了一个研究会议,Ilya、Jakub、Wojciech这些人都在,” Greg回忆道,“我们问了一个核心问题:为什么这个模型还不是AGI(通用人工智能)?”
它能回答你提出的几乎所有问题,但它不够可靠,会犯错,会“跑偏”。这个差距到底在哪?答案指向了一个OpenAI并不陌生的领域:强化学习(Reinforcement Learning, RL)。
模型需要一个能“在现实世界中检验自己想法”的机制。它需要尝试,需要获得反馈,然后变得可靠。这让人想起了2017年的Dota项目,那个项目完全通过强化学习,从一个随机初始化的神经网络,学会了极其复杂和精准的行为。大家意识到,语言模型也需要这种可靠性。
“从GPT-4训练完成的那一刻起,我们就知道,推理(Reasoning)是下一站。” Greg说。团队提出了十几个想法和假设,大部分都失败了。但这就是AI研究的常态:你得对一个方向有坚定的信念,然后不断尝试,即使前十次都失败了,只要有一次成功,就能看到微弱的希望之光,然后不断放大它。
正是这种坚持,经历了无数人的努力和数年的探索,最终孕育出了GPT-5的推理范式。
第二章:计算,智能的“终极燃料”
在整个对话中,Greg反复强调一个核心观点:“瓶颈永远是计算(Compute)。”
他把这个过程描绘成一幅美丽的图景:能量转化为计算,计算最终结晶为智能。
这个过程有点像炼金术。我们投入大量的计算,就像投入燃料,去“塑造”一个神经网络。这个过程的产物——模型,就像一块储存了巨大“势能”的晶体。而最美妙的地方在于,这块晶体可以被反复使用,它的价值会被无数次的调用所摊销。
那么,学习到底发生在哪里?我们正从一个“一次性训练,海量推理”的时代,走向一个“推理-再训练”的循环。Ilya Sutskever曾有一个精辟的观点:当模型能力弱时,它生成的每个token价值很低;当模型能力极强时,它生成的每个token则蕴含着巨大的价值。
强化学习正是利用了这一点。模型通过与现实(或模拟环境)的接触,产生大量的数据,然后从这些数据中学习。与需要海量数据进行预训练不同,RL可以让模型从少数高质量的人类策划任务中,通过成千上万次的尝试,学到非常复杂的行为。
“如果你给我们10倍的计算力,我们会用在哪?”Greg笑着说,“我们总能找到用掉它的地方。” 这就像当年的Dota项目,团队每周都将核心数量加倍,然后眼看着AI的水平一路飙升,直到最后也没撞到真正的“墙”。大多数所谓的“墙”,其实只是工程上的bug或可以优化的细节。
第三章:当AI学会解决“不可能”的任务
如果说计算是燃料,那么“泛化能力”就是引擎的效率。GPT-5的推理能力,已经开始在一些曾经被认为是人类智力巅峰的领域展现出惊人的泛化性。
最典型的例子就是国际数学奥林匹克(IMO)竞赛。OpenAI的模型达到了金牌水平。更让人吃惊的是,同一个核心模型,在几乎没有进行额外针对性训练的情况下,也达到了国际信息学奥林匹克(IOI)竞赛的金牌水平。
“这对我来说简直太疯狂了,” Greg感叹道,“解决IOI曾经是一个宏大的挑战,需要一个大团队。但我们的IMO核心团队其实只有三个人,IOI项目更像是一个几个人的‘副业’。”
这证明了一个深刻的道理:学习如何解决难题,本身就是一种可以迁移的元技能。 学会如何解决复杂的数学问题和编写证明,竟然能直接迁移到解决编程竞赛问题上。
当然,泛化并非没有边界。一个模型如果从未接触过物理实验,它不可能凭空成为物理学家。但即便如此,现有模型的潜力也已远超想象。Greg提到,一些湿实验室的科学家用GPT-3来提出实验假设,五个想法里可能只有一个可行,但那个可行的成果,已经足以发表在“中等水平的学术期刊”上,相当于一个三、四年级博士生的水平。
“这就是GPT-3的水平,而我们清楚地知道在所有维度上改进它的路径。” Greg说,“我们只需要计算、高质量的任务,以及团队倾注心血的爱与劳动。”
第四章:GPT-5时代:智能的飞跃与人机协作新范式
如果说GPT-3是文本时代的开启,GPT-4是多模态和商业化的普及,那么GPT-5的旗舰标签是什么?
Greg的回答很简单:“聪明(Smart)”。
GPT-5的智能已经达到了一个新高度,它能够执行“伟大的智力壮举”。它不再只是一个有用的工具,而是一个真正的智力伙伴。
“我曾经尝试教GPT-3排序一个7个数字的列表,无论我怎么用few-shot prompting教它,它都学不会。但现在,我敢肯定GPT-5能轻松完美地完成这个任务,甚至都不用借助它的Python工具。”
专业数学家和物理学家在使用GPT-5后反馈,它能在短时间内重新推导出他们花费数月研究才得到的见解。这正是GPT-5带来的变革:它将成为顶尖科研人员和创造者的“伙伴”,一个可以深入理解你的想法、并在此基础上提出新洞见的不知疲倦的合作者,极大地加速创新的步伐。
如何释放GPT-5的潜力? Greg给出的建议是:
- 给它难题:不要用简单的聊天来测试它,它在复杂问题上更能展现与旧模型的差距。
- 成为“智能体管理者”:将大任务分解成多个自包含的小任务,让多个模型实例并行工作,你则扮演管理者的角色。
- 了解它的“脾性”:像了解一个同事一样,熟悉它的长处和短板,在思考核心难题时,可以把一些非关键路径的、低风险的任务交给它并行处理,不断获得反馈。
第五章:揭开面纱:混合模型、开源与AI的未来
GPT-5的混合模型之谜
GPT-5的一大特点是它是一个“混合模型”,背后有一个路由器(router)根据用户请求的复杂性、意图等因素,自动选择调用“推理模型”或“非推理模型”。
- 推理模型:更强大,思考更深入,但延迟更高,成本也更高。
- 非推理模型:速度快,成本低,适合快速、简单的任务。
这种设计,本质上是一种**自适应计算(Adaptive Compute)**的实现。与其强迫用户在几十个令人困惑的模型名称(比如4o, 4-turbo, 0301…)中选择,不如将复杂性内部化,给用户一个简单、统一的入口。这是从“模型切换器是未来”到“集成化体验是未来”的转变。
GPT-OSS:构建美国技术生态
OpenAI为什么要推出开源模型?Greg坦言,这背后有战略考量。当开发者基于你的开源模型构建应用时,他们实际上是在融入你的技术栈。未来当他们需要更强大的能力时,他们会自然而然地转向你的闭源API。
更深层次地,这是为了构建一个以美国技术为核心的生态系统,确保AI的发展与美国的价值观和领导地位保持一致。
连生物学也是一种语言
Greg在Arc Institute的休假期间,研究用神经网络处理DNA。他最震惊的发现是:“它们(DNA和人类语言)完全是一回事!”
DNA就像一门外星语言,但对于神经网络来说,人类语言何尝不也是一门需要从零学习的语言?它的词汇表甚至更简单,只有4个字母。团队用字符级(character-level)的方法处理DNA序列,发现其学习规律与语言模型惊人地相似。
“我们训练出的一个400亿参数的生物模型,感觉就像GPT-1到GPT-2的水平,” Greg分享道,“它已经可以应用于多种下游生物学任务了。” 这也让他对攻克妻子的遗传性疾病“埃勒斯-当洛斯综合征”等难题,充满了希望。
第六章:展望未来:一个问题比答案更多的时代
谈到未来,Greg的视角宏大而乐观。他认为,我们正在进行的AI事业,其规模和影响力将远超历史上的任何工程,包括新政或阿波罗计划。
关于通用基本收入(UBI):在AGI时代,物质需求可能会被极大满足,但“计算资源”将成为新的稀缺品。人们可能不再为生存工作,但会为了获得更多计算资源来实现更宏大的创意(比如制作一部细节特效极其丰富的电影)而努力。如何分配计算资源,将是未来社会架构的核心问题。
给18岁的自己一句忠告:Greg坦言,年轻时他总感觉自己错过了互联网的黄金时代,觉得“所有酷的问题都被解决了”。而他现在想告诉过去的自己和所有年轻人:“真正值得解决的问题,并不会随着时间消失,反而会在时代的更迭中不断涌现。”
技术的发展总是在不断打开新的、更令人兴奋的可能性。现在,拥有了AI这个前所未有的强大工具,我们正处在一个最激动人心的时代,一个充满无限机遇,等待我们去探索和创造的时代。这趟旅程,才刚刚开始。