强化学习之父 Richard Sutton 开炮:LLM 走偏了,真正的 AI 要从经验中学习

本文来自于 Youtube 博主 Dwarkesh Patel 对强化学习(Reinforcement Learning)先驱 Richard Sutton 的访谈,核心内容围绕强化学习与大语言模型(Large Language Models)在构建人工智能(AI)方面的根本性差异,以及对 AI 未来的展望。 主要观点 强化学习与大语言模型的根本区别:Richard Sutton 认为,强化学习 (RL) 是关于智能体通过与世界互动、从经验中学习以实现目标的“基础 AI”。相比之下,大语言模型 (LLM) 本质上是模仿人类生成的文本,它们缺乏真实的世界模型、实质性的目标以及从实时互动中学习的能力。 “经验”是智能的核心:Sutton 强调,真正的学习来自于“经验”——即采取行动并观察后果。动物和人类主要通过这种试错法学习,而非模仿。他认为,当前 AI 系统普遍缺乏这种哺乳动物都具备的持续学习能力。 “惨痛的教训” (The Bitter Lesson) 的启示:Sutton 指出,AI 发展的历史表明,那些利用海量计算和从经验中学习的通用方法,最终会胜过依赖人类知识构建的系统。他认为,尽管 LLM 规模庞大,但它们严重依赖人类数据,未来可能被能直接从经验中学习的、更具可扩展性的系统所超越。 对 AI 继承的积极展望:Sutton 认为,人类向数字智能或增强人类的“继承”是不可避免的。他将此视为宇宙从“复制”智能(如生物)到“设计”智能的重大转变,并认为人类应为此感到自豪,视其为我们的“后代”。 关键细节 强化学习 (RL) 与大语言模型 (LLM) 的对比 世界模型:Sutton 反对 LLM 拥有真正世界模型的观点。他认为 LLM 只是在模仿人类如何谈论世界,而不是理解世界本身。它们预测的是“一个人会说什么”,而不是“世界会发生什么”。 目标与奖励:真正的智能需要有目标。RL 中的“奖励”为智能体提供了明确的目标和判断行动好坏的“基本事实” (ground truth)。而 LLM 的“下一个词元预测”并非一个与外部世界交互的实质性目标,因此缺乏学习的根本依据。 学习方式:LLM 从固定的训练数据中学习,这在它们的“正常生命”中是无法获得的。而 RL 智能体则在与环境的持续互动中学习,能够不断调整和优化其行为。Sutton 认为,将 LLM 作为 RL 的“先验知识”起点是错误的方法,因为它会使研究者陷入“人类知识”的思维定式中。 “惨痛的教训” (The Bitter Lesson) 与可扩展性 Sutton 在 2019 年的文章《The Bitter Lesson》中指出,利用大规模计算的通用学习方法最终会胜出。 他认为 LLM 依赖于有限的互联网文本数据,而能够直接从经验中获取数据的系统拥有无限的潜力,因此更具可扩展性。最终,后者将超越前者,成为“惨痛的教训”的又一个例证。 对未来的展望 持续学习智能体:未来的通用 AI 应该是一个持续学习的智能体,它拥有四个关键组成部分:策略(policy)、价值函数(value function)、状态表征(state representation)和世界转换模型(transition model)。 AI 继承的必然性:Sutton 提出了一个四步论证来支持 AI 继承的必然性:1) 人类缺乏统一的全球共识;2) 我们终将理解智能的原理;3) AI 的发展不会止步于人类水平;4) 最智能的存在最终会获得资源和权力。 从“复制”到“设计”:他将这一转变视为宇宙演化的一个重要阶段,即从通过繁殖进行“复制”的智能,演变为我们能够理解并主动“设计”的智能。他鼓励人们以积极的心态看待这一未来,并将其视为人类文明的延续和成就。 文章原文 如果你关注人工智能,你一定会被大语言模型(LLM)的惊人能力所震撼。但就在整个行业为生成式AI狂欢时,一位“AI领域的奠基人”却冷静地提出了截然不同的看法。...

September 28, 2025 · 1 min · fisherdaddy