本文来自于 OpenAI 核心科学家、Transformer 论文作者 Łukasz Kaiser 的一篇访谈。内容涵盖了从 Transformer 模型到新一代推理模型的范式转变,探讨了 AI 发展的瓶颈、AGI 的概念以及 AI 对科学和社会可能产生的深远影响。
主要观点
- AI 发展的范式转变:当前 AI 领域正在经历一次重大的范式转变,从仅仅通过扩大模型规模和数据量来提升性能(
Transformer范式),转向了更为先进的“推理模型”(Reasoning Models)范式。这种新范式正处于高速发展初期,预示着 AI 能力将迎来新一轮的飞跃。 - 推理模型是未来的关键:与传统的大语言模型(LLM)不同,推理模型通过内部“思考”过程、调用外部工具(如网络搜索、代码执行)来解决复杂问题。它们不仅更加强大,而且数据效率极高,能够从更少的数据中学习,并大幅减少“幻觉”现象。
- AI 的发展瓶颈与未来趋势:AI 的发展速度并未放缓,未来一到两年内甚至可能出现“非常急剧的进步”。当前最主要的瓶颈是
GPU计算资源和能源的短缺。未来,AI 将能够执行越来越多在计算机上完成的复杂任务,尤其是在编程领域,这将深刻影响就业市场。 - 对 AGI 和社会影响的思考:与其纠结于
AGI(通用人工智能)的定义,不如关注 AI 在现实世界中的实际影响和能力。AI 的发展为科学研究带来了巨大机遇,有望加速人类的科学发现进程。然而,这也带来了社会挑战,需要整个社会共同努力,确保技术被负责任地使用,避免重蹈社交媒体的覆辙。
关键细节
- Transformer 的诞生:
2017年的论文《Attention Is All You Need》引入了Transformer架构,这是一个历史性的突破,为后来的生成式 AI 奠定了基础。Łukasz Kaiser 是该论文的八位作者之一。 - 推理模型的运作方式:
- 推理模型在生成最终答案前,会进行一系列不向用户展示的内部思考步骤(
Chain of Thought)。 - 它们可以通过调用工具来获取实时信息或执行任务,例如使用网络搜索验证事实,或运行
Python代码进行计算。 - 这种模型通过强化学习(
Reinforcement Learning)进行训练,使其能够从错误中学习并优化解决问题的策略。
- 推理模型在生成最终答案前,会进行一系列不向用户展示的内部思考步骤(
- AI 发展的限制因素:
- 所有顶尖 AI 实验室都面临
GPU资源不足的问题,这限制了更强大模型的训练和向公众提供服务的能力。 OpenAI的 CEO Sam Altman 正在努力获取尽可能多的计算资源,因为研究人员确信能够有效利用这些资源来推动 AI 的进步。
- 所有顶尖 AI 实验室都面临
- AI 在任务自动化上的进展:
- AI 在编程领域的进步尤为惊人。像
OpenAI的Codex和Anthropic的Claude这样的模型已经可以编写大型程序、进行代码审查、发现漏洞,极大地提升了开发效率。 - 预计在不久的将来,AI 将能胜任大部分在计算机上进行的任务。
- AI 在编程领域的进步尤为惊人。像
- AI 的社会责任与商业模式:
- Łukasz Kaiser 强调,
OpenAI致力于通过订阅模式而非广告模式来盈利,旨在避免优化“用户参与度”而带来的负面社会影响。 - 他认为,如何正确使用 AI 是整个社会的责任,需要政府、企业和公众共同参与,以确保其发展最终造福人类。
- Łukasz Kaiser 强调,
原文
如果你关注人工智能,2017年绝对是一个无法绕开的年份。那一年,一篇名为《Attention Is All You Need》的论文横空出世,介绍了后来引爆生成式AI革命的Transformer架构。这篇论文注定会载入史册,而Łukasz Kaiser,就是这篇论文的八位作者之一。
如今,作为OpenAI的一名核心研究科学家,Łukasz Kaiser不仅是GPT-4长文本能力的负责人,更是最新ChatGPT中推理模型(Reasoning Models)研究的领导者。他曾是Google Brain的明星科学家,在ChatGPT发布前夕加入了OpenAI,亲身参与并推动了AI领域两次最重要的范式革命。
最近,在一次深度访谈中,Łukasz分享了他对AI发展、技术瓶颈以及未来走向的第一手观察。他的观点坦诚、接地气,又充满了内行人才有的深刻洞见。让我们跟着他的思路,一探究竟。
第一次革命:Attention Is All You Need 的诞生故事
很多人觉得Transformer的诞生像是一次“尤里卡时刻”,但Łukasz笑着说,当时的感觉更像是“上班干活”。要理解Transformer为何如此重要,得先回到那个被循环神经网络(RNN)统治的时代。
“当时RNN是主流,它在机器翻译等任务上表现惊人,让很多人第一次相信神经网络能处理复杂的语言问题。但RNN有个致命弱点:它必须一个词一个词地顺序处理,不仅慢,而且处理长句子时容易‘忘记’前面的内容。”
为了解决这个问题,研究者们尝试了各种方法,比如给RNN加上“注意力机制”(Attention),让模型能回头关注输入句子的关键部分。同时,也有人尝试用卷积网络(CNN)来并行处理文本,比如WaveNet和ByteNet。
在这样的背景下,“只用注意力机制” 这个想法,起初只是众多“可以试试”的方案之一。
Łukasz回忆道:
“这个想法本身不算石破天惊。关键在于,让一个好想法奏效,比提出想法本身要难得多。我们团队里不同的人带来了各自的‘独门秘籍’,比如多头注意力(Multi-Head Attention)、特别设计的学习率预热(Learning rate warm-up)、前馈网络里的参数调整等等。正是这些看似琐碎的调整(tweaks)组合在一起,才最终让Transformer的效果远超预期。”
这是一个经典的“集思广益”的故事。一个由背景各异、甚至不属于同一团队的顶尖科学家组成的“八人组”,每个人都带着自己的坚持和发现,最终“发明”或者说“发现”了Transformer这个强大的架构。它不仅在翻译任务上取得了突破,更因为它卓越的数据效率和并行处理能力,为后来的大规模语言模型铺平了道路。
第二次革命:我们正处在“推理模型”的陡峭爬坡期
当人们觉得AI的发展遇到了瓶颈,“AI寒冬”的论调再次出现时,Łukasz却给出了截然相反的看法:
“我完全不认为‘冬天’要来了。如果说有什么的话,未来一两年AI可能会有一次非常剧烈的飞跃,甚至会让人有点害怕。因为我们正处在一个全新范式的陡峭爬坡期——推理模型(Reasoning Models)。”
那么,什么是推理模型?它和我们熟悉的“旧式”大语言模型(LLM)有什么根本不同?
简单来说:
- 旧式LLM:像一个超级“接龙”大师。它的任务是根据前面的内容,预测下一个最有可能出现的词。它所有的“思考”都在内部的神经网络层中一次性完成,然后吐出答案。
- 推理模型:它不一样。它在给出最终答案前,会为自己生成一个“思考过程”(Chain of Thought),这个过程我们是看不到的。在这个过程中,它会自言自语,甚至可以调用外部工具,比如进行网络搜索、运行一段Python代码来计算,或者查询数据库。完成这些“思考”和“调研”后,它才整合信息,生成最终答案。
这个变化是革命性的。著名AI学者Richard Sutton曾批评旧式LLM无法通往通用人工智能(AGI),因为它们仅仅在模仿人类行为的“输出”,而不是模仿“过程”。但Łukasz认为,推理模型恰恰解决了这个问题。
“推理模型学习的方式完全不同。它不是被训练去模仿每一个‘思考’步骤,而是被告知‘这是正确答案’,然后通过强化学习(Reinforcement Learning)自己去探索达到正确答案的路径。这让它学会了试错、验证和自我纠正。你会看到它尝试一种方法,发现错了,然后说‘不对,我再试试别的’。”
更重要的是,这种学习方式效率极高。推理模型需要的训练数据量比旧式LLM少几个数量级。这意味着,AI开始摆脱对海量数据的绝对依赖,向着更高效、更智能的方向进化。
AI发展的瓶颈:算力、算力,还是算力
尽管AI进步神速,但它并非没有天花板。当被问到AI发展的最大瓶颈时,Łukasz的回答简单而直接:“GPU和能源。”
“这是最根本的瓶颈。在我们实验室,我们总觉得GPU不够用。我们有很多很酷的实验想并行开展,但就是没那么多卡。Sam(Altman)正在尽最大努力去争取更多的算力,有些人还担心我们有了这么多GPU用不完,我可一点都不担心。”
算力短缺不仅限制了研究的广度和速度,也直接影响了用户体验。
- 研究层面:许多革命性的想法,比如从头训练一个全新的、架构更优的模型,可能需要耗时数月甚至一年,成本极其高昂。研究人员只能将新发现分批塞入现有的模型迭代中。
- 产品层面:我们用的免费版ChatGPT,其实是OpenAI在算力和模型性能之间做出妥协(compromises)的结果。它会根据问题的难度,在调用强大的推理模型和成本较低的小模型之间切换。如果我们有无限的GPU,每个人都能立刻用上最强的模型。
Łukasz风趣地提到,Sam Altman曾开玩笑说,应该用飞机载着研究员们去数据中心上空看看,让他们亲眼感受一下按下“运行”按钮后,一个“小城市”规模的物理设施是如何运转起来的,以及这背后巨大的能源消耗和成本。
AI帮助AI自身发展(AI for AI)的循环正在加速,比如AI可以编写代码、生成更高质量的训练数据(合成数据)。但这并没有创造一个无限的“智能爆炸”,因为最终,所有的实验和训练都需要在真实的GPU上运行。物理世界的限制,始终是数字世界发展的终极天花板。
关于 AGI、幻觉和多模态的迷思
在访谈中,Łukasz也澄清了一些关于AI的流行观念。
别再纠结AGI了,关注能力吧
Łukasz对“AGI”(通用人工智能)这个词并不感冒。他甚至开玩笑说,自己16岁时第一份带薪工作就是为创造这个词的人Ben Goertzel写代码。他指出,AGI最初的含义是“比人类更通用、更广阔的智能”,而现在却被窄化为“能做所有人类能做的事”。
“根本就没有所谓的‘普通人类’。AI的能力发展也是不均衡的。它在下棋、数学上远超大多数人,但在物理世界里却依然笨拙。与其纠结于一个定义模糊的词,不如关注它实实在在能做什么,以及它对我们的工作和生活带来的具体影响。”
幻觉问题正在被解决
模型“一本正经地胡说八道”,即幻觉(Hallucinations),一直是AI应用的最大障碍之一。Łukasz解释说,旧式LLM出现幻觉,是因为它们被训练得“必须给出一个答案”,而不是说“我不知道”。
推理模型的出现,极大地缓解了这个问题。因为它们可以先去查证。如果它搜索了几个信息源,发现相互矛盾,或者根本找不到信息,它就更有底气说“我找不到确切信息”或者“关于这点有争议”。这是一种更接近人类思考和求证的模式。
多模态:填补物理世界的认知空白
目前的大模型已经在进行原生的多模态训练,包括文本、图像、音频,很快还有视频。但这是否意味着AI的能力会迎来又一次指数级飞跃?
Łukasz的看法很辩证:
“视频数据量虽大,但信息密度不一定高。大量的视频信息,比如桌子的纹理、墙壁的颜色,对于教会一个机器人理解物理世界至关重要,但对于解决一个数学难题可能就没那么大帮助。”
他认为,多模态训练的主要作用,是填补AI对物理世界理解的空白。语言模型已经很好地掌握了人类的“抽象世界”(文学、历史、数学等),但在我们的“物理世界”中,它们是缺失的。这正是机器人技术迟迟无法突破的原因之一。随着视频数据的加入,我们有望看到更聪明的机器人诞生。
科技的承诺与社会的责任
身处AI浪潮的中心,Łukasz对未来依然保持着一种务实的乐观。他并不幻想一个“星际迷航”式的乌托邦,而是希望AI能帮助我们解决更现实的问题:加速科学发现、应对环境危机、攻克医疗难题。
他也坦诚,这项技术带来的挑战是巨大的,从对教育系统的冲击到更令人担忧的军事应用。就像社交媒体一样,一个强大的工具可以被善用,也可以被滥用。
“我们从社交媒体那里学到的一个教训是,商业模式至关重要。OpenAI坚持订阅模式,而不是广告驱动的‘参与度’模式,这本身就是一种选择。我们不希望创造一个让你沉迷于和数字设备对话的产品。”
AI的未来,并不完全掌握在像OpenAI这样的科技公司手中。它是一个需要整个社会去适应、去规范、去引导的过程。技术会不断前进,但如何利用它让我们的生活变得更好,而不是更糟,这份责任在我们每一个人肩上。
正如Łukasz所言,对于AI的潜力,我们有理由保持兴奋;但对于如何驾驭这股力量,我们则需要保持十二分的清醒和审慎。这场变革才刚刚开始。