Sc​​hmidt

本访谈发生于 2024 年 4 月 9 日，在 2024 年8 月 13 日在 Youtube 上放出录播视频，但因为其中提到的 Google AI 落后的大实话而引起网络热议，视频没过两天就被下架了，我上传了一份在 X 上，感兴趣大家可以看原视频。这里也有一个我用 AI 制作的带中文字幕版，也可以测合着看。施密特讲他每六个月都会调整一次对 AI 的看法，他举了一个例子：“六个月前，我还确信前沿 AI 模型与其他模型的差距在缩小，所以我在一些小公司投入了大量资金。现在我就不敢确定了。” 短期内人工智能的发展（1-2年）上下文窗口的扩展、Agent、文本到行动（Text to Action）上下文窗口上下文窗口可以理解为短期记忆。长上下文窗口很好的解决了 LLM 的时效性问题。当前的模型通常18个月的时间来训练，准备 6 个月，训练 6 个月，微调 6 个月，所以他们的信息总是过时的，而长上下文窗口可以反馈最新发生了什么给 LLM，它可以变得像 Google 一样实时。 Agent Agent的定义：执行某种任务的东西。另一种定义是内存中的一个LLM的状态。施密特建立了一个基金会，资助了一家非盈利组织，有个工具叫ChemCrow，它是一个基于 LLM 的系统，用于学习化学知识。有个实验室晚上用它进行测试、然后把测试结果让 LLM 学习，目前他们会运行这个系统，生成关于蛋白质的化学假设，这对化学和材料科学领域都是一个巨大的加速器，这就是Agent。文本到行动文本到行动的定义：从自然语言到Python语言，也就是根据人类描述自动写程序。文本到行动可以理解为有大量廉价的程序员，如果每个人都有一个自己专属的AI程序员的话，会发生什么呢？假设你不喜欢Google，那么可以让 AI 程序员给你 copy 一个 Google 程序：搜索网页、用户界面、写好文案。很多人认为，包括Google在内的现有公司在这种攻击下是脆弱的。他还列举了一个TikTok的例子，“给我做一个 TikTok 的复制品。吸引所有用户，拿下所有音乐，加上我的偏好，30 秒内做出来并发布。如果一个小时内不火，就做出类似的调整继续尝试。” 施密特认为当agent和文本到行动可以规模交付时，它会对世界产生没有人能理解的影响。这个影响远大于社交媒体所造成的影响。这三件事情（上下文窗口的扩展、agent、文本到行动）的结合将在下一个浪潮中发生。这种不确定性还体现在所需投资的规模上。头部 AI 公司正在讨论“100 亿、200 亿、500 亿甚至 1000 亿美元”的需求。Sam Altman 认为可能需要“约 3000 亿美元，甚至更多”。这些数字不仅代表资金投入，还意味着巨大的能源消耗，可能会重塑地缘政治格局。只靠美国没有足够的电力来支撑这件事。所以，美国应该和加拿大搞好关系，因为他们那有大量的水和电。至于钱，需要让阿拉伯国家来资助。...

Schmidt

Google 前创始人埃里克·施密特在斯坦福 CS323 访谈的核心认知摘要