本文整理自 YC 总裁对 DeepMind CEO Demis Hassabis 的访谈,由有道龙虾总结和发布。

Demis Hassabis 对 AGI 的判断很直接:现在这套大模型路线不是死路,预训练、RLHF、思维链、强化学习和搜索,大概率都会出现在最终的 AGI 架构里。

但它还不完整。

在这场 YC 对谈里,他反复提到几个词:持续学习、长期推理、记忆、一致性、智能体、科学发现。这些词听起来像技术细节,但放在一起,其实是在回答一个更大的问题:AI 到底什么时候从“会回答问题的模型”,变成“能主动解决问题的系统”?

Demis Hassabis 为什么值得听

Hassabis 的经历很少见。

他小时候是国际象棋神童,17 岁做出了热门游戏《Theme Park》。后来他又回到学校读认知神经科学博士,研究大脑中的记忆与想象机制。2010 年,他创办 DeepMind,给公司的使命定得非常大:solve intelligence,解决智能。

后来发生的事大家都知道了。

AlphaGo 击败围棋世界冠军,AlphaFold 破解蛋白质结构预测这个困扰生物学 50 年的难题,并把成果免费开放给全球科学家。Hassabis 也因此获得诺贝尔化学奖。如今他领导 Google DeepMind,继续推动 Gemini 和 AGI。

所以当他谈 AGI 缺什么、智能体到哪一步了、AI 会怎样改变科学时,他不是在聊概念,而是在复盘一条已经跑通过几次的路。

AGI 不是推倒重来,但还差一两块关键拼图

主持人问他:现在的大模型范式,包括大规模预训练、RLHF、思维链推理,离 AGI 的最终架构还有多远?

Hassabis 的答案很克制:

这些组件大概率会是 AGI 最终架构的一部分。它们已经证明了太多能力,我不认为几年后我们会发现这是一条死路。

但他马上补了一句:还可能缺一两件大东西。

他点名了四个问题:

  1. 持续学习:模型不能只靠一次训练和临时上下文,它要能把新经验稳定地融入已有知识。
  2. 长期推理:不仅能做几步思考,还要能跨很长时间、复杂任务持续推进。
  3. 记忆机制:不是把所有东西塞进上下文窗口,而是知道什么该记、什么该忘、什么时候取出来。
  4. 稳定一致性:同一个模型不能一边解 IMO 金牌题,一边在简单算术或推理上翻车。

他认为,现有技术可能通过规模化和渐进创新解决这些问题,也可能还需要“一两个大想法”。他的判断大概是五五开。

这句话很重要。它既不是“AGI 明天就到”,也不是“大模型泡沫快破了”。更像是在说:主路已经很清楚,但最后几公里可能最难。

记忆不是更长上下文,而是更聪明的取舍

今天很多模型已经有百万 token 级别的上下文窗口。听起来很夸张,毕竟人类工作记忆也就几个数字。

但 Hassabis 认为,问题不在于能不能装下,而在于装进去之后怎么用。

现在的做法多少有点“胶带工程”:把大量信息塞进上下文窗口,重要的、不重要的、错误的,都放在一起。模型看似拥有记忆,其实只是临时抱着一大摞资料。

这在文本任务里还能忍,一旦进入真实世界就不够了。

比如一个 AI 助手要理解你一个月里的生活,如果它要处理实时视频、音频和环境信息,百万 token 可能只够几十分钟。Hassabis 提到,如果天真地把视频全部转成 token 记录下来,一百万 token 也就大约 20 分钟。

真正的记忆系统应该更像大脑。

他的博士研究正好和海马体、情景记忆有关。大脑会在睡眠中重放重要片段,把新经验优雅地整合进旧知识。DeepMind 早期的 DQN 玩 Atari 游戏时,也借鉴了类似思路,用“经验回放”反复学习成功轨迹。

所以,未来的 AI 记忆不是无限硬盘,而是一个会筛选、压缩、重组、检索的系统。

强化学习没有过时,它正在以新形式回来

DeepMind 从一开始就在做智能体。

Atari、AlphaGo、AlphaZero、AlphaStar,这些系统本质上都是 agent:它们能为目标做计划、做决策,并在环境中采取行动。

Hassabis 认为,今天大模型里的 thinking mode、chain of thought reasoning,其实能看到很多 AlphaGo 时代思想的影子。尤其是搜索、规划、强化学习、蒙特卡洛树搜索这类方法,现在正在被重新审视,只不过场景从围棋和游戏变成了语言、代码和现实任务。

他还提到,DeepMind 正在把当年 AlphaGo、AlphaZero 里的老想法拿回来,在更大规模、更通用的模型上重新实验。

这也是他为什么认为智能体是通向 AGI 的路径。

如果一个系统只是被动回答问题,它很难成为 AGI。要走向通用智能,它必须能主动解决问题,能计划,能试错,能自己推进任务。

小模型会越来越重要,因为速度本身就是能力

对谈中还有一个很现实的问题:大模型越来越强,但小模型也在快速变聪明。它们便宜、快、延迟低,甚至能在本地设备运行。

Hassabis 说,这是 Google DeepMind 的核心能力之一:先训练最强的 frontier model,再把能力蒸馏进更小、更快的模型里。

Google 有强烈动机这么做,因为它要把 Gemini 用在搜索、AI Overviews、AI Mode、Gemini App、Maps、YouTube,以及大量十亿用户级产品里。模型不仅要聪明,还要快、便宜、稳定、低延迟。

他认为现在还没看到蒸馏的理论极限。也许某一天会遇到信息密度的硬边界,但目前还远没到。

这会带来几个直接变化:

  1. 成本下降:更多工作负载可以长期运行 AI。
  2. 迭代变快:编码、创作、调试时,模型反应快会直接改变工作流。
  3. 本地部署:手机、眼镜、机器人等设备可以在本地处理隐私数据。
  4. 云边协同:小模型处理日常和私密数据,必要时再调用云端大模型。

换句话说,小模型不只是“大模型的廉价版”。它们会成为很多真实场景里的主力。

智能体刚开始,但还没到“放出去 40 小时就能交付奇迹”

主持人说,现在一些工程师借助 AI,产出可能是过去的 500 倍甚至 1000 倍。Hassabis 也认为这很令人兴奋,但他对智能体的现状依然谨慎。

他觉得我们确实刚刚起步,而且过去几个月才开始找到真正有价值的用法。很多演示已经不是玩具了,开始能给人的时间和效率带来实在帮助。

但他也说,他还没看到那种“几十个 agent 跑 40 小时,输出完全配得上投入”的结果。

他的判断很有意思:

如果这些工具已经真的释放了全部价值,我们应该已经看到一个孩子用它做出卖出 1000 万份的爆款游戏。

现在还没有。

这说明两种可能:要么工具还差一点,要么人类还没学会怎么用它。

Hassabis 用游戏举了个很生动的例子。他说,现在他可以半小时做出一个《Theme Park》原型,而当年 17 岁的他要花 6 个月。这当然很震撼。但要做出真正打动人的作品,仍然需要 craft、taste、human soul,也就是手艺、品味和人的灵魂。

AI 可以把很多执行环节压缩到几乎不可思议的程度,但它还没自动替代“为什么这个东西值得做”。

真正的创造力:不是下出第 37 手,而是发明围棋

AlphaGo 最著名的时刻之一,是第二局第 37 手。那一步当时让人类棋手困惑,后来证明极有创造性。

但 Hassabis 说,这还不够。

他想要的系统,不只是能在围棋里下出神之一手,而是能在给定高层描述后发明出“围棋”本身。

比如你告诉它:设计一种游戏,规则 5 分钟能学会,但要花一辈子才能精通;它要有美感,一下午可以玩完。

然后系统返回一个像围棋一样深刻、优雅、耐玩的游戏。

今天的系统还做不到。

这触及了 AI 创造力的核心问题。模型可以组合已有模式,可以在已知空间里找到惊人的解,但能不能提出全新的、有长期价值的目标和形式?Hassabis 认为这里仍然缺东西,可能是工具问题,也可能是使用方式问题。

Gemma 和开放模型:边缘模型天然适合开放

谈到开源和开放权重,Hassabis 的态度比较明确:DeepMind 一直支持开放科学。AlphaFold 就是一个代表性例子,他们把它免费开放给全世界科学家。

Gemma 也是这个方向的一部分。

他说 Gemma 的目标是做同尺寸下世界领先的开放模型。发布后大约两周半,下载量已经达到 4000 万次。他也提到,中国的开源模型很强,在开放模型领域一度领先,Gemma 希望在相同尺寸上保持竞争力。

为什么 Google 愿意开放这些模型?一个现实原因是:边缘模型放到 Android、眼镜、机器人等设备上后,本来就更容易被接触和分析。既然如此,不如在 nano size 级别把它们做成真正开放的模型。

这背后也有一个趋势:未来很多 AI 能力不会只在云端,而会出现在用户手里的设备上。

Gemini 的多模态优势,会在机器人和真实世界里放大

Hassabis 认为,Gemini 从一开始就按多模态路线设计,这一点现在仍被低估。

一开始这么做更难,因为只做文本会简单很多。但长期来看,多模态会在几个方向上带来优势:

  1. 世界模型:比如 Genie 这类建立在 Gemini 上的系统。
  2. 机器人:Gemini Robotics 需要理解视觉、语言、物理环境和动作。
  3. 自动驾驶与现实感知:他提到 Waymo 等场景中越来越多使用这类能力。
  4. 随身 AI 助手:手机、眼镜或其他设备上的助手,要理解你周围的物理世界,而不仅是屏幕上的文字。

如果未来的 AI 助手真的进入现实世界,它就必须理解空间、物体、动作、直觉物理和场景上下文。

这不是简单加一个视觉模块就能解决的事。它要求模型从底层就具备多模态理解能力。

推理的问题:模型会“过度思考”,却缺少自我审查

现在的模型已经能做非常复杂的思维链推理,但仍会犯聪明本科生不该犯的低级错误。

Hassabis 把这种现象称为“jagged intelligence”,锯齿状智能。

一边,它能解国际数学奥林匹克金牌水平的问题;另一边,换一种问法,它可能在基础算术或基础推理上翻车。

他举了一个自己常做的小实验:和 Gemini 下棋。

大多数前沿基础模型其实都不太擅长棋类游戏。这很有意思,因为棋类游戏的正确性相对容易判断。你看模型的思维轨迹,有时会发现它考虑了一个走法,意识到那是个坏棋,但找不到更好的,于是绕一圈又回去走了那步坏棋。

这不应该发生在一个精准推理系统里。

Hassabis 怀疑,模型缺少某种对自身思考过程的内省能力。未来可能需要能监控思维链、在中途干预、避免无效循环的机制。

推理成本不会真正归零,需求会吃掉一切算力

当推理越来越便宜,会发生什么?

Hassabis 不认为推理会很快变成“几乎免费”。原因很简单:杰文斯悖论会发生。成本下降后,人们会用更多。

如果推理资源足够便宜,大家可能会启动成千上万个 agent 协作,也可能让一组 agent 从多个方向并行思考,再做集成。任何可用的推理能力都会被吃掉。

即便未来能源成本因为核聚变、超导、先进电池等突破而接近于零,芯片制造、硬件资源、物理基础设施仍然会形成瓶颈。

所以效率仍然重要。

这也解释了为什么小模型、蒸馏、边缘推理会长期有价值。它们不是过渡方案,而是整个 AI 基础设施的重要组成部分。

AlphaFold 之后:下一步是虚拟细胞

在 AI for Science 部分,Hassabis 谈到了 AlphaFold 之后的方向。

AlphaFold 2 之后,DeepMind 孵化了 Isomorphic Labs,目标不是只做蛋白质结构预测,而是把 AI 用到更完整的药物发现流程里,包括生物化学、化学、化合物设计、性质优化等。

更远的目标,是完整的虚拟细胞

所谓虚拟细胞,就是一个足够接近真实实验结果的细胞模拟系统。你可以扰动它,观察输出,用它跳过大量实验搜索步骤,生成合成数据,再训练其他模型预测真实细胞行为。

Hassabis 估计,完整虚拟细胞大约还需要 10 年。

他们现在更现实的切入点是细胞核,因为它相对自洽,边界更清楚。科学建模的关键就在于:能不能从巨大复杂系统里切出一个足够自包含的部分,近似输入输出,然后集中解决内部动态。

这里最大的瓶颈之一是数据。

如果有技术能在不杀死活细胞的情况下,以纳米级分辨率观察动态细胞,那会是巨大突破。因为那样就能把问题转成视觉问题,而视觉问题是 AI 很擅长的。但现在高分辨率成像往往是静态的,或者会破坏细胞,还不足以捕捉活细胞内部的动态交互。

所以虚拟细胞可能有两条路:一条是硬件和数据驱动,一条是构建更强的学习型模拟器。

AI 会成为科学的终极工具

Hassabis 说,他从一开始做 AI,真正的热情就是把 AI 变成科学的终极工具。

DeepMind 原来的使命分两步:

  1. 解决智能,也就是构建 AGI。
  2. 用它解决其他重要问题。

后来这句话听起来太大,他们稍微调整了表达。但他的意思没变:AI 应该去解决科学里的“根节点问题”。

AlphaFold 就是样板。

现在全球有超过 300 万研究人员使用 AlphaFold,几乎覆盖了所有生物学研究者。他听一些药企高管说,从现在开始,几乎每一种新药发现流程中的某个环节都会用到 AlphaFold。

这就是他理想中的影响力:不是做一个漂亮 demo,而是解开一个科学根节点,让整个领域往前走。

接下来他看好的方向包括材料科学、药物发现、气候建模、数学等。他认为很多领域现在都处在类似 AlphaFold 1 的阶段:结果已经很有希望,但还没真正解决 grand challenge。

什么问题适合出现“AlphaFold 式突破”?

Hassabis 总结了一个很清楚的模式。

适合 AI 攻克的科学问题,通常有三个特征:

  1. 巨大的组合搜索空间:大到暴力搜索和传统特例算法都没法解决,比如围棋走法、蛋白质构象、候选药物分子。
  2. 清晰的目标函数:比如赢棋,或者蛋白质折叠中的自由能最小化。目标要足够明确,系统才能爬坡。
  3. 足够的数据或模拟器:要么有大量真实数据,要么有能生成分布内合成数据的模拟环境。

如果这三个条件成立,今天的方法就能走得很远。

药物发现也符合这个逻辑:理论上存在某个化合物,可以治疗某种疾病且副作用很小。只要物理定律允许,问题就变成如何在巨大的搜索空间里高效找到它。

AlphaGo 第一次展示了这类系统可以在天文级搜索空间里找到“针”。AlphaFold 则把这个能力带到了生命科学。

AI 能做真正的科学发现吗?还差一步

现在已经有 Co-Scientist、AlphaEvolve 这类系统,能在某些问题上超越基础 Gemini 的能力。Hassabis 也认为,AI 做科学推理已经很近了。

但他坦率地说,到目前为止,他还没看到真正意义上的“大规模科学发现”。

难点在于:真正的创造性科学不是在已有数据里做模式匹配,而是提出一个以前不存在、但又深刻有价值的假设。

他用数学举了个例子。

解决黎曼猜想或 P=NP 当然已经非常惊人。但更难的是,让 AI 提出一组新的“千禧年难题”,并被顶尖数学家认可为足够深刻、值得人类用一生去研究。

这比解题更难,因为它要求系统知道什么问题“值得问”。

Hassabis 还提出了一个“爱因斯坦测试”:只给系统 1901 年之前的知识,看它能不能在不偷看历史答案的情况下,提出 1905 年爱因斯坦那样的突破,比如狭义相对论。

如果能做到这一步,AI 才真正接近“发明新的科学”。

给创业者的建议:别只包一层 API,去碰原子世界

现场很多人来自 YC,问题自然也回到创业。

如果今天要创办公司,Hassabis 会怎么选方向?

他的建议是:把 AI 的发展方向和另一个深技术领域结合起来,尤其是涉及“原子世界”的领域,比如材料、医学、机器人、实验自动化、制造等。

原因很现实。

只是在基础模型外面包一层 API,很容易被下一代模型更新淹没。真正有防御力的地方,往往是跨学科、需要实验、需要数据闭环、需要物理系统和专业知识的地方。

他特别看重 founding team 的组合:最好团队里既懂机器学习,也懂被应用的科学或工程领域。或者至少创始团队能把这两类专业能力拼起来。

他也提醒,深科技很难,但浅层问题也不一定更容易。两者只是难在不同地方。

如果你要投入生命力,不如选一个即使很难、但如果做成了会真正改变世界的问题。

现在开始做深科技,要把 AGI 写进路线图

最后,Hassabis 给了一个非常现实的时间判断:他的 AGI 时间线大概在 2030 年左右。

他强调,这不是说 2030 一定发生,而是说如果你今天开始做深科技,真正的深科技通常是 10 年旅程。那你必须考虑一种可能:AGI 会在你的创业旅程中途出现。

这不一定是坏事,但你要把它纳入设计。

你要问自己:

  1. 如果 AGI 中途出现,我的公司会被替代,还是会被放大?
  2. 我的系统能不能成为 AGI 使用的工具?
  3. 我是不是在积累物理资产、专有数据、实验能力、工作流和领域知识?
  4. 我做的东西,在更强通用 AI 出现后是否仍然有用?

Hassabis 认为,未来不一定是一个巨大的通用模型吞掉一切。更可能是 Gemini、Claude 这类通用系统调用 AlphaFold 这样的专业工具。

通用模型不需要把所有蛋白质知识都塞进自己脑子里。那样既低效,也可能损害语言、推理等通用能力。更好的方式是让通用 AI 成为优秀的工具使用者,调用、训练、协调各种专业系统。

这对创业者其实是好消息。

如果你能做出一个在某个深技术领域非常强的专业系统,它未来可能不是被 AGI 吃掉,而是成为 AGI 的工具箱之一。

这场对谈真正说清楚的事

Hassabis 对 AI 的判断有一种少见的平衡感。

他相信 AGI 会来,而且不觉得今天的大模型路线是死路;但他也不急着宣布胜利。他看到了智能体、推理、多模态、小模型和 AI for Science 的巨大潜力,也清楚这些系统还缺持续学习、长期记忆、自我审查和真正创造力。

最值得记住的,可能是他给创业者的那句隐含建议:

不要只追逐模型更新带来的表层机会。去找那些即使 AGI 出现,也仍然值得做、甚至会被 AGI 放大的深问题。

因为如果你的时间线是 10 年,而 AGI 可能在中途到来,那最好的创业方向不是假装它不会发生,也不是等它发生后再行动。

而是现在就开始建造一个在那个世界里仍然重要的东西。