EpochAI

本文探讨了人工智能（AI）训练规模的快速扩展是否能够持续到2030年。研究表明，AI模型的性能提升与计算资源的增加密切相关，当前AI训练的计算量每年增长约4倍。文章分析了四个关键限制因素：电力供应、芯片制造能力、数据稀缺性和“延迟壁垒”，并预测到2030年可能实现2e29 FLOP的训练规模，远超当前的GPT-4水平。尽管技术上可行，但实现这一规模的关键在于AI开发者是否愿意投入数千亿美元的资金。电力限制预计到2030年，美国数据中心的电力需求将显著增加，可能需要多达2至45 GW的电力供应，支持2e28到2e30 FLOP的训练运行。单一数据中心的电力供应可能达到1至5 GW，地理分布的训练网络则能利用多个地区的电力资源。扩展电力基础设施，如建设新的发电厂，可能需要3至5年的提前规划。芯片制造能力 AI芯片（如Nvidia H100）的生产能力是AI扩展的另一个关键因素。尽管芯片制造商计划扩展生产能力，但受限于先进封装和高带宽内存（HBM）的生产能力。预计到2030年，全球将有足够的产能生产1亿个H100等效GPU，支持9e29 FLOP的训练运行。数据稀缺性训练大型AI模型需要大量数据。当前网络上可索引的文本数据约为500万亿词，预计到2030年增加50%。多模态数据（图像、视频、音频）将有助于缓解数据稀缺问题，可能使训练数据增加至6e28至2e32 FLOP的规模。生成合成数据可能进一步扩展数据供应，但需要额外的计算资源。延迟壁垒延迟壁垒是AI训练的“速度限制”，随着模型规模的增加，训练时间也会增加。通过并行处理更多数据可以部分缓解这一问题，但批量大小的增加有一定限制。预计到2030年，延迟壁垒可能限制训练运行在3e30到1e32 FLOP之间。经济与投资考量实现大规模AI训练的关键在于AI开发者是否愿意投入数千亿美元。微软和OpenAI的“Stargate”项目表明，业界可能正在为实现这一目标做准备。经济回报可能驱动巨额投资，特别是如果AI能够实现大规模的经济自动化。尽管存在电力、芯片制造、数据和延迟等限制因素，但AI训练的扩展在技术上是可行的。到2030年，AI训练规模可能达到2e29 FLOP，这将带来与当前GPT-4相比显著的性能提升。然而，能否实现这一目标取决于资金投入和基础设施扩展的速度。引言近年来，AI 模型 (AI models) 的能力显著提升。我们的研究表明，计算资源的增长是 AI 性能提升的重要原因之一。[1] 持续且可预测的规模效益使得 AI 实验室积极扩大训练规模，训练计算量以每年约 4 倍的速度增长。 AI 训练计算量每年 4 倍的增长速度，甚至超过了近代史上一些技术发展最快的时期。它超过了移动电话普及速度最快时 (2 倍/年，1980-1987 年)，太阳能装机容量 (1.5 倍/年，2001-2010 年) 和人类基因组测序 (3.3 倍/年，2008-2015 年) 的增长速度。本文探讨当前 AI 训练规模快速扩张的步伐（约每年 4 倍）能否持续到 2030 年。我们调查了可能限制规模扩展的四个关键因素：电力供应、芯片制造能力、数据稀缺性和“延迟墙 (latency wall)”。延迟墙是由 AI 训练计算中不可避免的延迟造成的根本速度限制。我们的分析涵盖了生产能力的扩张、投资和技术进步等因素。这包括分析先进芯片封装设施的扩建计划、新增发电厂的建设以及数据中心的地域分布（以便利用多个电网）。为了考虑这些变化，我们纳入了来自各公共渠道的预测数据，包括半导体代工厂的扩张计划、电力供应商的容量增长预测、其他相关行业数据以及我们自己的研究。我们发现，到 2030 年，进行 2e29 FLOP 的训练很可能在技术上可行。换句话说，到 2030 年，训练出比 GPT-4 更强大的模型，就像 GPT-4 比 GPT-2 更强大一样，将很有可能。[2] 如果继续发展下去，我们可能会在 2030 年前后看到 AI 出现巨大的进步，就像 2019 年 GPT-2 只能生成简单的文本，而 2023 年 GPT-4 却具备了复杂的问题解决能力一样。...