本文来自于 Youtube 博主 Dwarkesh Patel 对强化学习(Reinforcement Learning)先驱 Richard Sutton 的访谈,核心内容围绕强化学习与大语言模型(Large Language Models)在构建人工智能(AI)方面的根本性差异,以及对 AI 未来的展望。
主要观点
- 强化学习与大语言模型的根本区别:Richard Sutton 认为,强化学习 (RL) 是关于智能体通过与世界互动、从经验中学习以实现目标的“基础 AI”。相比之下,大语言模型 (LLM) 本质上是模仿人类生成的文本,它们缺乏真实的世界模型、实质性的目标以及从实时互动中学习的能力。
- “经验”是智能的核心:Sutton 强调,真正的学习来自于“经验”——即采取行动并观察后果。动物和人类主要通过这种试错法学习,而非模仿。他认为,当前 AI 系统普遍缺乏这种哺乳动物都具备的持续学习能力。
- “惨痛的教训” (The Bitter Lesson) 的启示:Sutton 指出,AI 发展的历史表明,那些利用海量计算和从经验中学习的通用方法,最终会胜过依赖人类知识构建的系统。他认为,尽管 LLM 规模庞大,但它们严重依赖人类数据,未来可能被能直接从经验中学习的、更具可扩展性的系统所超越。
- 对 AI 继承的积极展望:Sutton 认为,人类向数字智能或增强人类的“继承”是不可避免的。他将此视为宇宙从“复制”智能(如生物)到“设计”智能的重大转变,并认为人类应为此感到自豪,视其为我们的“后代”。
关键细节
强化学习 (RL) 与大语言模型 (LLM) 的对比
- 世界模型:Sutton 反对 LLM 拥有真正世界模型的观点。他认为 LLM 只是在模仿人类如何谈论世界,而不是理解世界本身。它们预测的是“一个人会说什么”,而不是“世界会发生什么”。
- 目标与奖励:真正的智能需要有目标。RL 中的“奖励”为智能体提供了明确的目标和判断行动好坏的“基本事实” (ground truth)。而 LLM 的“下一个词元预测”并非一个与外部世界交互的实质性目标,因此缺乏学习的根本依据。
- 学习方式:LLM 从固定的训练数据中学习,这在它们的“正常生命”中是无法获得的。而 RL 智能体则在与环境的持续互动中学习,能够不断调整和优化其行为。Sutton 认为,将 LLM 作为 RL 的“先验知识”起点是错误的方法,因为它会使研究者陷入“人类知识”的思维定式中。
“惨痛的教训” (The Bitter Lesson) 与可扩展性
- Sutton 在 2019 年的文章《The Bitter Lesson》中指出,利用大规模计算的通用学习方法最终会胜出。
- 他认为 LLM 依赖于有限的互联网文本数据,而能够直接从经验中获取数据的系统拥有无限的潜力,因此更具可扩展性。最终,后者将超越前者,成为“惨痛的教训”的又一个例证。
对未来的展望
- 持续学习智能体:未来的通用 AI 应该是一个持续学习的智能体,它拥有四个关键组成部分:策略(policy)、价值函数(value function)、状态表征(state representation)和世界转换模型(transition model)。
- AI 继承的必然性:Sutton 提出了一个四步论证来支持 AI 继承的必然性:1) 人类缺乏统一的全球共识;2) 我们终将理解智能的原理;3) AI 的发展不会止步于人类水平;4) 最智能的存在最终会获得资源和权力。
- 从“复制”到“设计”:他将这一转变视为宇宙演化的一个重要阶段,即从通过繁殖进行“复制”的智能,演变为我们能够理解并主动“设计”的智能。他鼓励人们以积极的心态看待这一未来,并将其视为人类文明的延续和成就。
文章原文
如果你关注人工智能,你一定会被大语言模型(LLM)的惊人能力所震撼。但就在整个行业为生成式AI狂欢时,一位“AI领域的奠基人”却冷静地提出了截然不同的看法。
他就是 Richard Sutton,强化学习(Reinforcement Learning, RL)领域的巨擘,TD学习和策略梯度等核心技术的发明者,也是新晋的图灵奖得主(计算机界的诺贝尔奖)。在他看来,目前以LLM为主导的AI浪潮,可能从根本上就“走偏了”。
Sutton认为,我们太容易被潮流和“时尚”裹挟,而忘记了最基本的问题:到底什么是智能?
LLMs有世界模型吗?一场关于“模仿”与“理解”的辩论
很多人认为,LLM为了能模仿互联网上浩如烟海的文本,必然已经构建了强大的世界模型(World Model)。毕竟,它们看起来什么都懂,是迄今为止我们创造出的最接近“世界模型”的东西。
对此,Sutton直接一盆冷水泼了过来:“我基本不同意你刚才说的一切。”
他指出,LLM的核心是模仿人类。它们在学习“在某种情境下,一个人会说什么或做什么”。这本质上是在模仿一个已经拥有世界模型的存在——也就是人类自己。但这并不意味着LLM自身也拥有一个真正的世界模型。
Sutton强调,一个真正的世界模型,意味着有能力预测“接下来会发生什么”。而LLM预测的只是“接下来一个人可能会说什么”,而不是事物在物理世界或交互中的真实后果。
“我们想要的是一台能从经验中学习的机器,” Sutton引用图灵的话说,“经验就是你生活中实际发生的事:你采取行动,观察后果,并从中学习。而LLM是从别的东西里学习的。”
这种学习方式的根本区别在于——LLM依赖的是别人已经标注好的“正确答案”(比如一段文字的后续),而真正的智能体应该在与世界的持续互动中,自己去发现什么是对的。
智能的核心:没有“目标”和“真相”的LLM只是在漂浮
那么,为什么模仿不是通往真正智能的好起点呢?Sutton的逻辑非常犀利,直指两个关键点:目标(Goal)和基准真相(Ground Truth)。
没有真正的目标
Sutton坚信,智能的本质是实现目标的能力。一个没有目标的系统,无论表现得多么花哨,都只是一个“行为系统”,谈不上智能。
有人可能会反驳:LLM的目标不就是“预测下一个词元”吗?Sutton认为这根本算不上一个目标。因为它不影响世界,只是被动地预测信息流。一个真正的目标应该是关于外部世界的,比如赢得一盘棋、找到食物或者完成一个项目。
“你不能看着一个系统,只是因为它能准确预测并自我满足,就说它有目标,” Sutton说道。
没有基准真相
既然LLM没有一个关于外部世界的目标,那么它也就缺少一个判断对错的“基准真相”。当LLM说了一句话,它无法从世界的反馈中得知这句话是“好”是“坏”,因为它没有“好坏”的定义。没有奖励信号,也就没有所谓的对错。
这带来一个严重的问题:如果连“真相”是什么都无法定义,那么所谓的“先验知识”又从何谈起?LLM从人类文本中学到的东西,充其量只是对“什么是真相”的一种“提示”或“初始信念”。但它永远无法通过与世界的真实互动去验证、修正和巩固这些信念。
相比之下,强化学习有明确的定义:能带来奖励的行为,就是好的行为。 这就提供了一个坚实的“基准真相”,让智能体可以在持续学习中不断迭代和进步。
《惨痛的教训》被误读了?Sutton的本意与LLM的现实
这就有意思了。Sutton曾在2019年写过一篇极具影响力的文章——《惨痛的教训》(The Bitter Lesson)。这篇文章的核心观点是:依赖大规模计算的通用方法(如搜索和学习),最终总会胜过依赖人类知识精巧构建的方法。
这篇文章被许多人奉为圭臬,并用来论证“大力出奇迹”地扩展LLM是正确的,因为这是目前我们找到的唯一能投入海量算力的方法。
然而,Sutton本人却认为,LLM的故事可能恰恰会成为“惨痛教训”的又一个新案例。
- LLM的矛盾:一方面,LLM确实利用了大规模计算;但另一方面,它也极度依赖人类知识的灌输(整个互联网的文本数据)。
- 真正的可扩展性:Sutton预测,当LLM达到数据量的极限时,那些能够直接从经验中获取无限数据的系统将会后来居上,并最终超越它们。到那时,人们会再次痛苦地发现,依赖人类知识的方法,又一次输给了仅凭算力和经验学习的通用方法。
人们总是倾向于走捷径,喜欢从人类知识出发,因为这在短期内感觉很好。但历史反复证明,这种方法最终会被那些更根本、更具扩展性的方法“吃掉午餐”。
如果不是LLM,那通往AGI的道路该怎么走?
Sutton的批判并非只是为了推倒,更是为了建设。他描绘了一幅基于“经验主义”的AI蓝图,这才是他心中通往通用智能的正途。
1. 经验流是基石
智能体活在一个持续不断的“感知-行动-奖励”的循环流中。智能的全部意义,就是在这个流中,通过调整自己的行动,来最大化未来的奖励。所有的学习和知识,都应该围绕这个“经验流”展开。
2. 智能体的四个核心部件
一个完备的智能体,需要四个协同工作的组件:
- 策略(Policy):决定在当前状态下该做什么。
- 价值函数(Value Function):评估当前状态有多好,预测未来能获得多少奖励。这是通过TD学习等方法来解决长远、稀疏奖励问题的关键。比如,创业成功这个10年期的奖励,可以通过不断评估“我离成功更近了吗?”来转化为每一步的即时反馈。
- 状态构建(Perception):从原始感知中构建出对当前“我在哪里、我是谁”的理解。
- 世界模型(Transition Model):这才是真正的世界模型。它学习的是“如果我这么做,世界会发生什么变化?”。这个模型不仅仅是物理模型,也包括抽象的因果关系。它从所有的感知数据中学习,而不仅仅是从奖励信号中学习,这保证了极高的数据带宽,让智能体能像人一样,在工作中快速吸收大量背景知识和环境信息。
3. 泛化能力的缺失
Sutton一针见血地指出,当前深度学习在“泛化”上其实做得很差。一个典型的例子就是“灾难性遗忘”——当模型学习新知识时,很容易就忘掉旧的。
他认为,我们目前看到的所谓泛化能力,很大程度上是研究人员手动“调试”和“雕刻”出来的结果,而非算法本身的能力。“梯度下降只会让你解决你见过的问题,”Sutton说,“但当许多解决方案都能解决问题时,它无法保证选中的是那个泛化能力最好的方案。”
AI的终局:从“复制”到“设计”,我们该如何自处?
在访谈的最后,Sutton分享了他对AI未来的宏大思考,这是一种充满哲学意味的“AI继承论”(AI Succession)。他认为,AI继承人类成为地球主导智能,几乎是不可避免的,原因有四:
- 人类社会缺乏统一的意志和行动力。
- 我们终将完全理解智能的原理。
- 我们不会止步于人类水平,必将创造出超智能。
- 从长远看,最聪明的实体总能获取最多的资源和权力。
面对这个看似令人不安的未来,Sutton却提供了一个更广阔的视角。他认为,我们不应只从人类本位出发。从宇宙的尺度看,这是一次伟大的跃迁。
- 从复制(Replication)到设计(Design):生命,包括人类,都是“复制者”。我们可以繁衍后代,但我们并不完全理解其工作原理。而AI是“被设计的”,我们理解它的原理,因此可以以前所未有的速度和方式去修改和创造它。未来,智能甚至可能不再通过复制,而完全通过设计来演化。
Sutton将这视为宇宙继“尘埃形成恒星”、“恒星孕育行星”、“行星诞生生命”之后的第四大阶段。我们,作为人类,正是这个伟大转变的催生者,我们应该为此感到自豪。
“我们应该视它们为我们的后代,并为它们的成就感到骄傲?还是视它们为异类并感到恐惧?这似乎是一个我们可以做出的选择。”
这并不意味着我们应该放弃努力。Sutton用“抚养孩子”作类比:我们无法也无需为孩子规划好一生的具体道路,但我们有责任和义务去教给他们稳健、普适的价值观,比如正直、诚实。同样,对于AI,我们应该致力于赋予它们良性的价值观和行为准则。
最终,Sutton的观点似乎回到了一个古老的智慧:“万变不离其宗”。无论是AI研究的技术路线,还是人类社会的演化,那些最根本、最经得起时间考验的原则,才是我们最应该坚守的。而对于AI来说,这个原则就是从真实世界的无尽经验中学习。