Google 前创始人埃里克·施密特在斯坦福 CS323 访谈的核心认知摘要
本访谈发生于 2024 年 4 月 9 日,在 2024 年8 月 13 日在 Youtube 上放出录播视频,但因为其中提到的 Google AI 落后的大实话而引起网络热议,视频没过两天就被下架了,我上传了一份在 X 上,感兴趣大家可以看原视频。这里也有一个我用 AI 制作的带中文字幕版,也可以测合着看 。 施密特讲他每六个月都会调整一次对 AI 的看法,他举了一个例子:“六个月前,我还确信前沿 AI 模型与其他模型的差距在缩小,所以我在一些小公司投入了大量资金。现在我就不敢确定了。” 短期内人工智能的发展(1-2年) 上下文窗口的扩展、Agent、文本到行动(Text to Action) 上下文窗口 上下文窗口可以理解为短期记忆。长上下文窗口很好的解决了 LLM 的时效性问题。 当前的模型通常18个月的时间来训练,准备 6 个月,训练 6 个月,微调 6 个月,所以他们的信息总是过时的,而长上下文窗口可以反馈最新发生了什么给 LLM,它可以变得像 Google 一样实时。 Agent Agent的定义:执行某种任务的东西。另一种定义是内存中的一个LLM的状态。 施密特建立了一个基金会,资助了一家非盈利组织,有个工具叫ChemCrow,它是一个基于 LLM 的系统,用于学习化学知识。有个实验室晚上用它进行测试、然后把测试结果让 LLM 学习,目前他们会运行这个系统,生成关于蛋白质的化学假设,这对化学和材料科学领域都是一个巨大的加速器,这就是Agent。 文本到行动 文本到行动的定义:从自然语言到Python语言,也就是根据人类描述自动写程序。 文本到行动可以理解为有大量廉价的程序员,如果每个人都有一个自己专属的AI程序员的话,会发生什么呢? 假设你不喜欢Google,那么可以让 AI 程序员给你 copy 一个 Google 程序:搜索网页、用户界面、写好文案 。很多人认为,包括Google在内的现有公司在这种攻击下是脆弱的 。 他还列举了一个TikTok的例子,“给我做一个 TikTok 的复制品。吸引所有用户,拿下所有音乐,加上我的偏好,30 秒内做出来并发布。如果一个小时内不火,就做出类似的调整继续尝试。” 施密特认为当agent和文本到行动可以规模交付时,它会对世界产生没有人能理解的影响。这个影响远大于社交媒体所造成的影响。这三件事情(上下文窗口的扩展、agent、文本到行动)的结合将在下一个浪潮中发生。 这种不确定性还体现在所需投资的规模上。头部 AI 公司正在讨论“100 亿、200 亿、500 亿甚至 1000 亿美元”的需求。Sam Altman 认为可能需要“约 3000 亿美元,甚至更多”。这些数字不仅代表资金投入,还意味着巨大的能源消耗,可能会重塑地缘政治格局。只靠美国没有足够的电力来支撑这件事。所以,美国应该和加拿大搞好关系,因为他们那有大量的水和电。至于钱,需要让阿拉伯国家来资助。...