本访谈发生于 2024 年 4 月 9 日,在 2024 年8 月 13 日在 Youtube 上放出录播视频,但因为其中提到的 Google AI 落后的大实话而引起网络热议,视频没过两天就被下架了,我上传了一份在 X 上,感兴趣大家可以看原视频。这里也有一个我用 AI 制作的带中文字幕版,也可以测合着看 。
施密特讲他每六个月都会调整一次对 AI 的看法,他举了一个例子:“六个月前,我还确信前沿 AI 模型与其他模型的差距在缩小,所以我在一些小公司投入了大量资金。现在我就不敢确定了。”
短期内人工智能的发展(1-2年)
上下文窗口的扩展、Agent、文本到行动(Text to Action)
上下文窗口 上下文窗口可以理解为短期记忆。长上下文窗口很好的解决了 LLM 的时效性问题。
当前的模型通常18个月的时间来训练,准备 6 个月,训练 6 个月,微调 6 个月,所以他们的信息总是过时的,而长上下文窗口可以反馈最新发生了什么给 LLM,它可以变得像 Google 一样实时。
Agent
Agent的定义:执行某种任务的东西。另一种定义是内存中的一个LLM的状态。
施密特建立了一个基金会,资助了一家非盈利组织,有个工具叫ChemCrow,它是一个基于 LLM 的系统,用于学习化学知识。有个实验室晚上用它进行测试、然后把测试结果让 LLM 学习,目前他们会运行这个系统,生成关于蛋白质的化学假设,这对化学和材料科学领域都是一个巨大的加速器,这就是Agent。
文本到行动
文本到行动的定义:从自然语言到Python语言,也就是根据人类描述自动写程序。
文本到行动可以理解为有大量廉价的程序员,如果每个人都有一个自己专属的AI程序员的话,会发生什么呢?
假设你不喜欢Google,那么可以让 AI 程序员给你 copy 一个 Google 程序:搜索网页、用户界面、写好文案 。很多人认为,包括Google在内的现有公司在这种攻击下是脆弱的 。
他还列举了一个TikTok的例子,“给我做一个 TikTok 的复制品。吸引所有用户,拿下所有音乐,加上我的偏好,30 秒内做出来并发布。如果一个小时内不火,就做出类似的调整继续尝试。”
施密特认为当agent和文本到行动可以规模交付时,它会对世界产生没有人能理解的影响。这个影响远大于社交媒体所造成的影响。这三件事情(上下文窗口的扩展、agent、文本到行动)的结合将在下一个浪潮中发生。
这种不确定性还体现在所需投资的规模上。头部 AI 公司正在讨论“100 亿、200 亿、500 亿甚至 1000 亿美元”的需求。Sam Altman 认为可能需要“约 3000 亿美元,甚至更多”。这些数字不仅代表资金投入,还意味着巨大的能源消耗,可能会重塑地缘政治格局。只靠美国没有足够的电力来支撑这件事。所以,美国应该和加拿大搞好关系,因为他们那有大量的水和电。至于钱,需要让阿拉伯国家来资助。
关于 NVIDIA 和芯片
-
为什么 NVIDIA 市值 2 万亿美金,而其他公司还在挣扎?可以把 CUDA 比作成GPU的C语言, 如果你是竞争对手,很难复制高度优化的CUDA。
-
AMD 在做一个新的东西可以把 NVIDA 的 CUDA 架构转为自己的,称为Rackham,但还效果还不太行,他们在努力改进。
-
芯片上美国比中国领先十年,尤其是在小于 5 纳米的芯片上。
关于 LLM 的问题
-
LLM 是一个富有国家的游戏:巨额资金、很多技术强人、强大的政府支持,全世界看LLM 的玩家主要是中国和美国。而美国已经失去中国的支持了,不会再回来了,但印度是个好的选择。日本和韩国也是站在美国这边的。台湾很好,但它的软件很烂 。欧洲因为布鲁塞尔而陷入困境,在欧洲做研究限制很大 ,法国可能有机会,但德国没有机会,其他国家规模不够大 。
-
施密特投资了法国的 AI 公司 Mistral,他们已经发布了第二个版本的模型,但第三个版本的模型可能因为成本太高而关闭。他们需要收入,无法把模型无偿提供出去。所以,在这个行业里开源和闭源的讨论非常重要。
-
LLM的影响:那些危险的工作和需要极少人类判断的工作将会被取代。
-
关于用有版权的内容做了LLM训练的问题,施密特认为应该会像 音乐软件一样的逻辑,用户播了哪个版权的音乐就像版权方付一定费用
-
关于现在的大模型的头部几家公司基本是头部大公司所控制,不会触发国家的拆分想法,举个例子微软、Google都没有拆分,只要不变成洛克菲勒就没问题。你看到大公司主导的原因在于谁有资本来建立这么庞大的数据中心。
关于自己的经历和建议
-
施密特 在国防部工作超过 7年,现在还是个持证的武器商,并且参与了俄乌战争,把自己团队发明的无人机送到了战场。
-
快速原型设计的能力是创业者面临的一个问题,使用工具快速demo你的想法非常重要