AI 规模扩展能否持续到 2030 年?
本文探讨了人工智能(AI)训练规模的快速扩展是否能够持续到2030年。研究表明,AI模型的性能提升与计算资源的增加密切相关,当前AI训练的计算量每年增长约4倍。文章分析了四个关键限制因素:电力供应、芯片制造能力、数据稀缺性和“延迟壁垒”,并预测到2030年可能实现2e29 FLOP的训练规模,远超当前的GPT-4水平。尽管技术上可行,但实现这一规模的关键在于AI开发者是否愿意投入数千亿美元的资金。 电力限制 预计到2030年,美国数据中心的电力需求将显著增加,可能需要多达2至45 GW的电力供应,支持2e28到2e30 FLOP的训练运行。 单一数据中心的电力供应可能达到1至5 GW,地理分布的训练网络则能利用多个地区的电力资源。 扩展电力基础设施,如建设新的发电厂,可能需要3至5年的提前规划。 芯片制造能力 AI芯片(如Nvidia H100)的生产能力是AI扩展的另一个关键因素。尽管芯片制造商计划扩展生产能力,但受限于先进封装和高带宽内存(HBM)的生产能力。 预计到2030年,全球将有足够的产能生产1亿个H100等效GPU,支持9e29 FLOP的训练运行。 数据稀缺性 训练大型AI模型需要大量数据。当前网络上可索引的文本数据约为500万亿词,预计到2030年增加50%。 多模态数据(图像、视频、音频)将有助于缓解数据稀缺问题,可能使训练数据增加至6e28至2e32 FLOP的规模。 生成合成数据可能进一步扩展数据供应,但需要额外的计算资源。 延迟壁垒 延迟壁垒是AI训练的“速度限制”,随着模型规模的增加,训练时间也会增加。通过并行处理更多数据可以部分缓解这一问题,但批量大小的增加有一定限制。 预计到2030年,延迟壁垒可能限制训练运行在3e30到1e32 FLOP之间。 经济与投资考量 实现大规模AI训练的关键在于AI开发者是否愿意投入数千亿美元。微软和OpenAI的“Stargate”项目表明,业界可能正在为实现这一目标做准备。 经济回报可能驱动巨额投资,特别是如果AI能够实现大规模的经济自动化。 尽管存在电力、芯片制造、数据和延迟等限制因素,但AI训练的扩展在技术上是可行的。到2030年,AI训练规模可能达到2e29 FLOP,这将带来与当前GPT-4相比显著的性能提升。然而,能否实现这一目标取决于资金投入和基础设施扩展的速度。 引言 近年来,AI 模型 (AI models) 的能力显著提升。我们的研究表明,计算资源的增长是 AI 性能提升的重要原因之一。[1] 持续且可预测的规模效益使得 AI 实验室积极扩大训练规模,训练计算量以每年约 4 倍的速度增长。 AI 训练计算量每年 4 倍的增长速度,甚至超过了近代史上一些技术发展最快的时期。它超过了移动电话普及速度最快时 (2 倍/年,1980-1987 年),太阳能装机容量 (1.5 倍/年,2001-2010 年) 和人类基因组测序 (3.3 倍/年,2008-2015 年) 的增长速度。 本文探讨当前 AI 训练规模快速扩张的步伐(约每年 4 倍)能否持续到 2030 年。我们调查了可能限制规模扩展的四个关键因素:电力供应、芯片制造能力、数据稀缺性和“延迟墙 (latency wall)”。延迟墙是由 AI 训练计算中不可避免的延迟造成的根本速度限制。 我们的分析涵盖了生产能力的扩张、投资和技术进步等因素。这包括分析先进芯片封装设施的扩建计划、新增发电厂的建设以及数据中心的地域分布(以便利用多个电网)。为了考虑这些变化,我们纳入了来自各公共渠道的预测数据,包括半导体代工厂的扩张计划、电力供应商的容量增长预测、其他相关行业数据以及我们自己的研究。 我们发现,到 2030 年,进行 2e29 FLOP 的训练很可能在技术上可行。换句话说,到 2030 年,训练出比 GPT-4 更强大的模型,就像 GPT-4 比 GPT-2 更强大一样,将很有可能。[2] 如果继续发展下去,我们可能会在 2030 年前后看到 AI 出现巨大的进步,就像 2019 年 GPT-2 只能生成简单的文本,而 2023 年 GPT-4 却具备了复杂的问题解决能力一样。...