本篇文章主要记录一下 Dwarkesh Patel 在 2025 年 2 月 13 日 对 Jeff Dean 和 Noam Shazeer 的访谈。在开始详细记录本次访谈的核心内容之前,我想先给大家介绍一下两位嘉宾。

Jeff Dean

Jeff Dean 是 Google 的首席科学家,在 Google 公司的 25 年里,他基本上参与了现代计算领域最具变革性的系统:从 MapReduce、BigTable、Tensorflow、AlphaChip 到 Gemini。他于1968年出生,早在加入 Google 之前,他曾在 DEC(数字设备公司)的西部研究实验室从事性能分析工具、微处理器架构和信息检索等方面的研究。1999年,Jeff Dean 加入 Google,当时他是公司的早期员工之一(据说他是第20号员工),并很快在 Google 的广告系统、网页爬虫、索引和查询服务系统等关键基础设施的设计与实现中发挥了举足轻重的作用。

在 Google 工作期间,Dean 与同事 Sanjay Ghemawat 合作,推出了许多标志性技术: • MapReduce:一种大规模数据处理的编程模型,奠定了 Google 后续分布式系统的基础。 • Bigtable:一种面向海量结构化数据的分布式存储系统。 • DistBelief/TensorFlow:Dean 领导的分布式深度学习系统,后被重构为如今广泛应用的开源机器学习框架 TensorFlow。

此外,Jeff Dean 在 2011 年参与创立了 Google Brain,致力于深度神经网络的研究,并在 2012 年成为其领导者。2018 年,他被任命为 Google AI 的负责人,而在 2023 年,随着 Google DeepMind 与 Google Brain 的整合,他又晋升为公司的首席科学家,直接负责公司整体的 AI 战略。

Jeff Dean 不仅在技术上取得了巨大成就,其领导的项目和系统为全球数十亿用户提供了支持,也在学术界和工程师群体中树立了崇高的威望。他被视为分布式计算和人工智能领域的开拓者,其工作影响深远,常被调侃为“Google 魔法师”。

Noam Shazeer

Noam Shazeer 是人工智能领域的重要人物,他发明或共同发明了用于现代 大语言模型 的所有主要架构和技术:从 Transformer 本身,到 混合专家模型 (Mixture of Experts),到 Mesh Tensorflow,到 Gemini,同时他也是 Character.AI 的联合创始人。他于2000年加入 Google,早期在 Google 负责改进搜索引擎的拼写纠错功能,并参与了多个关键项目。在 2017 年,他作为论文《Attention Is All You Need》的联合作者,首次提出了 Transformer 架构——这一架构通过引入自注意力机制(self-attention),极大改善了传统循环神经网络在处理长距离依赖时的不足,从而彻底改变了自然语言处理技术的发展方向。

在这篇论文之后,Transformer 模型迅速成为 AI 领域的热点技术,并催生了包括 BERT、GPT 在内的众多变体。Shazeer 的研究成果不仅推动了语言模型的发展,还为整个生成式 AI 的崛起奠定了基础。

由于对 Google 在产品发布上过于谨慎的不满,Shazeer 于2021年选择离开 Google,并与 Daniel De Freitas 共同创立了 Character.AI,一家专注于开发聊天机器人的初创公司。在 Character.AI 中,他试图打造出能模仿各种人物对话风格的智能聊天机器人,使得 AI 技术更贴近用户的日常交流体验。然而,随着 AI 技术竞争的加剧以及市场环境的变化,他的核心技术及创新思路受到了广泛认可。

2024年,Google 与 Character.AI 达成了一项技术许可协议(斥资 27亿美金,聘请了 20% 的 Character.ai 员工加入其人工智能部门 DeepMind),重新聘请 Shazeer 加入其 AI 部门 DeepMind,并赋予他技术负责人的职务,参与 Google 下一代 AI 模型 Gemini 的研发工作,与 Jeff Dean 和 Oriol Vinyals 搭档,共同推动 Google 在 AI 领域的进一步突破。目前,Character.AI 的大部分团队仍保持独立运营,由临时 CEO Dominic Perella 负责管理,而 Shazeer 则主要专注于 Google 内部的技术发展。

本次访谈核心内容

本次访谈邀请了 Google 的首席科学家 Jeff Dean 和 Noam Shazeer,他们是 Gemini 项目的三位联合负责人之二。访谈深入探讨了他们在 Google 25 年职业生涯中的经历,涵盖了从公司早期快速发展到如今引领 AI 革命的历程。他们分享了对 AI 技术演进、硬件发展趋势、以及 Google 未来在 AI 领域发展方向的深刻见解。访谈强调了 AI 技术的巨大潜力,以及 Google 在推动 AI 技术进步和应用方面所扮演的关键角色。

AI 技术发展与硬件的相互促进

访谈指出,算法和硬件发展是相互促进的。 摩尔定律的放缓推动了专用硬件(如 TPU 和 GPU)的兴起,而这些硬件反过来又加速了深度学习算法的发展。 算术运算的成本降低,而数据移动的成本相对增加,这塑造了现代 AI 算法的特点。 未来,硬件和算法的协同设计将变得更加重要,特别是在降低精度和提高计算效率方面。

AI 的未来展望:超越信息检索,走向通用智能

访谈讨论了 AI 的未来发展方向,认为 AI 的潜力远不止于信息检索。 Google 的使命也从“组织世界信息”扩展到“组织和创造新信息”。 AI 模型将能够执行更复杂任务,例如代码生成、内容创作、多模态理解等。 AGI(通用人工智能)的愿景被提出,虽然 Google 仍然是一家信息组织公司,但 AI 将使其能力扩展到更广泛的领域。 未来的 AI 系统将更加强大、通用,并将在各行各业创造巨大价值。

持续学习和模块化 AI 模型的潜力

访谈深入探讨了持续学习和模块化 AI 模型的概念。 Jeff Dean 设想了一种更“有机”的 AI 模型架构,类似于人脑,具有专门化的模块,可以独立开发和升级。 这种模块化方法可以提高 AI 模型的灵活性、可扩展性和效率,并允许更精细的数据控制和定制化。 Distillation(知识蒸馏)技术被认为是将大型复杂模型压缩为更小、更高效模型的重要工具。

AI 发展中的安全与责任

访谈强调了 AI 技术快速发展带来的机遇和挑战,特别是安全和伦理问题。 随着 AI 系统变得越来越强大,确保其安全可靠、符合人类价值观至关重要。 Google 的“负责任的 AI 原则”被提及,作为指导 AI 开发和部署的框架。 访谈嘉宾认为,通过技术手段和政策引导,可以塑造 AI 的发展方向,使其最大程度地造福社会,同时降低潜在风险。

关键细节

Google 的早期经历与文化

  • Jeff Dean 和 Noam Shazeer 都在 2000 年左右加入 Google,当时公司规模很小,只有 25 人左右。
  • 早期 Google 的特点是每个人都互相认识,并且对公司业务有全面的了解。
  • 随着公司快速扩张,逐渐出现“不知道 Project Platypus 是什么”的情况,但保持对公司整体方向的了解仍然很重要。
  • Noam Shazeer 最初认为 Google 在 1999 年已经是一家“巨大的公司”,但后来发现并非如此,并在 2000 年加入。
  • Google 吸引 Noam Shazeer 的原因是“一群聪明人在做有意义的事情”,以及墙上展示的“指数增长”的搜索查询图表。

摩尔定律与硬件演进

  • 过去 20 年,摩尔定律对计算领域产生了巨大影响,早期每 18 个月硬件性能就提升一倍。
  • 近年来,通用 CPU 的性能提升放缓,但专用硬件(如 TPU、GPU)的出现为 AI 计算提供了新的动力。
  • 深度学习算法的发展趋势是“算法追随硬件”,即算法设计要适应硬件的特点,例如矩阵乘法在 GPU/TPU 上的高效运算。
  • Google 开发 TPU 的初衷是为了构建“reduced-precision linear algebra machines”(降低精度的线性代数机器),以加速深度学习计算。
  • Larry Page 曾说过,Google 最大的成本是“机会成本”,即错失的潜在机会。 硬件设计需要抓住机会,充分利用芯片面积,提高计算效率。

AI 算法与模型发展

  • Noam Shazeer 认为,如果内存成本下降快于算术运算成本,AI 可能会朝着“大量查表”的方向发展,类似于 20 年前的 AI 形态。
  • Jeff Dean 在 1990 年的本科毕业论文中就研究了反向传播算法的并行化。
  • Google 在 2007 年训练了一个 2 万亿 token 的 N-gram 模型用于语言建模,但当时主要用于机器翻译,并没有预见到其在生成式 AI 方面的潜力。
  • 2012 年,Jeff Dean 领导的 Google Brain 团队使用 2000 台计算机(16000 核)训练了一个大型神经网络,在 1000 万张 YouTube 视频帧上进行无监督学习,实现了“猫脸神经元”的突破。
  • 该神经网络在 ImageNet 挑战赛中取得了当时最佳的成绩,验证了“扩大神经网络规模”的有效性。
  • Google 的 AI 模型正在从“信息检索”走向“信息创造”,例如 Gemini 模型可以撰写邮件、总结视频内容等。
  • Google 正在探索使用更低精度的数据类型(如 INT4、FP4,甚至 1-bit)进行模型训练和推理,以提高计算效率。

未来 TPU 的设计方向

  • 未来 TPU 的设计将更加注重“co-design”(协同设计),即算法设计者和芯片设计者需要紧密合作,共同优化硬件和算法。
  • TPU 将继续朝着更高通量、更低精度、更高效的方向发展。
  • Jeff Dean 认为,未来 TPU 可能会集成更多内存,以支持更大的模型和更长的上下文。

AI 的加速发展与潜在风险

  • Jeff Dean 认为,AI 模型的能力提升速度正在加快,未来几代模型可能会实现“质的飞跃”。
  • Noam Shazeer 认为,AI 领域可能会出现“breakthrough a day”(每天都有突破)的局面,因为 AI 研究人员的数量和计算资源都在快速增长。
  • Jeff Dean 和 Noam Shazeer 都意识到,随着 AI 系统变得越来越强大,潜在风险也随之增加,例如信息误导、恶意使用等。
  • 他们强调,需要采取措施来确保 AI 的安全和负责任地发展,例如 Google 的“Responsible AI principles”。
  • Jeff Dean 认为,分析文本(例如检测 AI 生成内容的潜在问题)可能比生成文本更容易,这为 AI 安全控制提供了一种可能的解决方案。

对未来计算需求的展望

  • Jeff Dean 预测,未来 AI 推理计算的需求将大幅增长,因为 AI 模型将变得更加智能,需要更多的计算资源来进行推理。
  • 他设想,未来的 AI 助手可能会集成到眼镜等可穿戴设备中,实时为用户提供各种服务和信息。
  • Noam Shazeer 认为,未来人们可能会愿意花费 GDP 的很大一部分用于 AI 服务,因为 AI 可以显著提高生产力和生活质量。
  • Jeff Dean 强调,降低 AI 硬件成本,提高计算效率至关重要,以便让更多人能够享受到 AI 带来的好处。

持续学习与模块化模型

  • Jeff Dean 认为,当前的 AI 模型训练方式仍然是“monolithic”(单体式)的,未来应该朝着更模块化、更“organic”(有机)的方向发展。
  • 模块化 AI 模型可以实现“continual learning”(持续学习),即模型可以不断学习和进化,而无需从头开始训练。
  • 模块化模型可以提高模型的可维护性、可扩展性和灵活性,并允许更细粒度的数据控制和权限管理。
  • Jeff Dean 设想,未来可能会出现一个“giant blob”(巨型 Blob)式的 AI 模型,由许多不同的模块组成,可以根据不同的任务和需求动态激活不同的模块。
  • Distillation(知识蒸馏)技术可以用于将大型模块化模型压缩为更小、更高效的模型,以便在资源受限的设备上部署。

职业生涯的经验与建议

  • Jeff Dean 和 Noam Shazeer 都认为,保持职业生涯的活力和广度的关键在于“持续学习”,不断探索新的领域,与不同领域的专家合作。
  • Noam Shazeer 强调“humility”(谦逊)的重要性,即要勇于承认自己的不足,并乐于接受更好的想法。
  • Jeff Dean 建议,要积极提出“wacky ideas”(疯狂的想法),并与他人分享,以激发创新和合作。