本文记录了 Google 首席科学家 Jeff Dean 与红杉资本合伙人 Bill Korn(前 Google 工程负责人)之间关于人工智能(AI)发展、现状与未来的深度对话。Jeff Dean 分享了 Google 在 AI 领域,特别是大规模神经网络、硬件(如 TPU)、以及像 Gemini 这样的先进模型方面的见解。

主要内容

  • AI 的演进与规模化效应:AI 的发展经历了漫长的过程,大约从 2012 年开始,通过不断扩大神经网络的规模、增加数据量和提升计算能力(遵循“更大模型、更多数据、更好结果”的原则),取得了显著进展。
  • 当前 AI 的能力与未来方向:目前的 AI 模型已具备解决复杂问题的能力,并且每年都在进步。多模态(处理文本、图像、音频、视频、代码等多种信息)和 AI 代理(Agents)是未来重要的发展方向,尽管后者目前部分仍处于早期阶段。
  • 硬件与模型生态:专门为机器学习设计的硬件(如 Google 的 TPU)至关重要。未来顶尖的大型基础模型可能由少数几家投入巨资的公司主导,但通过蒸馏等技术可以创造出大量轻量级、专用模型。
  • AI 对科学及各行业的影响:AI 正在深刻影响科学研究,例如通过加速模拟过程(如天气预报、分子筛选)来促进科学发现。AI 也有潜力在不久的将来(可能一年内)达到初级工程师的工作水平。
  • 未来模型的形态与计算范式:未来的 AI 模型可能会更加稀疏化、模块化(类似“专家混合”模型),并具备持续学习和动态调整的能力。计算范式也需重新思考,更加关注数据移动效率和低功耗高性能。

关键细节

  • AI 发展的起点
    • Jeff Dean 提到,AI 的显著发展始于大约 2012 年和 2013 年,当时开始能够使用大型神经网络解决视觉、语音和语言问题。
    • Google 在 2012 年训练了一个比当时其他模型大 60 倍的神经网络,使用了 16,000 个 CPU 核心。
  • AI 代理 (Agents)
    • Jeff Dean 认为 AI 代理有巨大潜力,通过正确的训练过程,最终能在虚拟计算机环境中完成许多人类目前能做的事情。
    • 物理机器人代理也接近于从无法在复杂环境中工作到能在未来一两年内完成约 20 项有用任务的转变,并随着经验积累和成本优化,能力将大幅提升。
  • 大型语言模型 (LLMs) 格局
    • 构建最前沿的模型需要巨大投资,因此顶尖模型玩家可能只有“少数几家”。
    • Google 拥有如 Gemini 2.5 Pro 这样的模型。
    • 可以使用蒸馏 (distillation) 等技术(Jeff Dean 是相关论文的共同作者)将大型模型的能力迁移到更轻量级的模型中。
  • AI 硬件
    • Google 从 2013 年开始研发 TPU (Tensor Processing Unit),最初用于推理,TPUv2 则同时支持推理和训练。最新的 TPU 型号是 Ironwood
    • 专用硬件需要专注于低精度线性代数运算,并具备大规模、高速互联能力。
    • 除了 Google,AmazonMeta (传闻)、OpenAI (传闻) 也在开发自己的硬件,但行业目前主要关注 Nvidia
  • AI 在科学中的应用
    • AI 可以将复杂的科学模拟器(如天气预报、流体动力学、量子化学模拟)的速度提升数十万倍(例如 300,000 倍),从而改变科学研究的方式。
    • Jeff Dean 的同事 Demis HassabisJohn JumperAlphaFold 获得了诺贝尔奖。
  • 开发者体验与工具
    • Google 的 Pathways 系统(始于 2018 年)允许开发者通过单一 Python 进程(支持 PyTorchJax)管理数万个计算设备(如 10,000 个芯片),现已向云客户开放。
    • Google 正在努力简化 Gemini API 的使用体验。
  • 未来计算与模型架构
    • 计算需求已转向运行大规模、高性能、低功耗的神经网络。训练和推理是不同的工作负载,可能需要不同的解决方案。
    • 目标是使推理硬件效率提升 1050 千倍,模拟计算是可能性之一。
    • 传统算法分析需重新考虑,要关注网络带宽、内存带宽等实际计算瓶颈。
    • Jeff Dean 看好稀疏模型和“专家混合” (mixture of experts) 模型,例如 Google 早期工作中包含 2048 个专家的模型,效率提升了 10100 倍。未来的模型应更具动态性和持续学习能力。
  • AI 与工程能力
    • Jeff Dean 认为,AI 在“未来一年左右” (next yearish) 有可能达到初级工程师 24/7 工作的水平。这不仅需要代码生成能力,还需要测试、调试、工具使用和学习文档的能力。
  • AI 与搜索/浏览器集成
    • Gemini 等模型集成到 Chrome 浏览器或桌面环境中,通过观察用户行为(如 OCR 标签页内容)提供帮助,是潜在的应用方向。