本文探讨了人工智能(AI)训练规模的快速扩展是否能够持续到2030年。研究表明,AI模型的性能提升与计算资源的增加密切相关,当前AI训练的计算量每年增长约4倍。文章分析了四个关键限制因素:电力供应、芯片制造能力、数据稀缺性和“延迟壁垒”,并预测到2030年可能实现2e29 FLOP的训练规模,远超当前的GPT-4水平。尽管技术上可行,但实现这一规模的关键在于AI开发者是否愿意投入数千亿美元的资金。

  1. 电力限制
  • 预计到2030年,美国数据中心的电力需求将显著增加,可能需要多达2至45 GW的电力供应,支持2e28到2e30 FLOP的训练运行。
  • 单一数据中心的电力供应可能达到1至5 GW,地理分布的训练网络则能利用多个地区的电力资源。
  • 扩展电力基础设施,如建设新的发电厂,可能需要3至5年的提前规划。
  1. 芯片制造能力
  • AI芯片(如Nvidia H100)的生产能力是AI扩展的另一个关键因素。尽管芯片制造商计划扩展生产能力,但受限于先进封装和高带宽内存(HBM)的生产能力。
  • 预计到2030年,全球将有足够的产能生产1亿个H100等效GPU,支持9e29 FLOP的训练运行。
  1. 数据稀缺性
  • 训练大型AI模型需要大量数据。当前网络上可索引的文本数据约为500万亿词,预计到2030年增加50%。
  • 多模态数据(图像、视频、音频)将有助于缓解数据稀缺问题,可能使训练数据增加至6e28至2e32 FLOP的规模。
  • 生成合成数据可能进一步扩展数据供应,但需要额外的计算资源。
  1. 延迟壁垒
  • 延迟壁垒是AI训练的“速度限制”,随着模型规模的增加,训练时间也会增加。通过并行处理更多数据可以部分缓解这一问题,但批量大小的增加有一定限制。
  • 预计到2030年,延迟壁垒可能限制训练运行在3e30到1e32 FLOP之间。
  1. 经济与投资考量
  • 实现大规模AI训练的关键在于AI开发者是否愿意投入数千亿美元。微软和OpenAI的“Stargate”项目表明,业界可能正在为实现这一目标做准备。
  • 经济回报可能驱动巨额投资,特别是如果AI能够实现大规模的经济自动化。

尽管存在电力、芯片制造、数据和延迟等限制因素,但AI训练的扩展在技术上是可行的。到2030年,AI训练规模可能达到2e29 FLOP,这将带来与当前GPT-4相比显著的性能提升。然而,能否实现这一目标取决于资金投入和基础设施扩展的速度。

引言

近年来,AI 模型 (AI models) 的能力显著提升。我们的研究表明,计算资源的增长是 AI 性能提升的重要原因之一。[1] 持续且可预测的规模效益使得 AI 实验室积极扩大训练规模,训练计算量以每年约 4 倍的速度增长。

AI 训练计算量每年 4 倍的增长速度,甚至超过了近代史上一些技术发展最快的时期。它超过了移动电话普及速度最快时 (2 倍/年,1980-1987 年),太阳能装机容量 (1.5 倍/年,2001-2010 年) 和人类基因组测序 (3.3 倍/年,2008-2015 年) 的增长速度。

本文探讨当前 AI 训练规模快速扩张的步伐(约每年 4 倍)能否持续到 2030 年。我们调查了可能限制规模扩展的四个关键因素:电力供应、芯片制造能力、数据稀缺性和“延迟墙 (latency wall)”。延迟墙是由 AI 训练计算中不可避免的延迟造成的根本速度限制。

我们的分析涵盖了生产能力的扩张、投资和技术进步等因素。这包括分析先进芯片封装设施的扩建计划、新增发电厂的建设以及数据中心的地域分布(以便利用多个电网)。为了考虑这些变化,我们纳入了来自各公共渠道的预测数据,包括半导体代工厂的扩张计划、电力供应商的容量增长预测、其他相关行业数据以及我们自己的研究。

我们发现,到 2030 年,进行 2e29 FLOP 的训练很可能在技术上可行。换句话说,到 2030 年,训练出比 GPT-4 更强大的模型,就像 GPT-4 比 GPT-2 更强大一样,将很有可能。[2] 如果继续发展下去,我们可能会在 2030 年前后看到 AI 出现巨大的进步,就像 2019 年 GPT-2 只能生成简单的文本,而 2023 年 GPT-4 却具备了复杂的问题解决能力一样。

AI 开发者是否真的会追求这种规模的扩展,取决于他们是否愿意在未来几年投资数千亿美元来发展 AI。虽然我们稍后会简要讨论 AI 投资的经济性,但对投资决策的全面分析超出了本文的范围。

对于每个瓶颈,我们都对相关的供应和它们所能支持的最大训练规模进行了保守估计。[3] 在整个分析过程中,我们假设训练运行可能持续 2 到 9 个月,这反映了训练时间越来越长的趋势。我们还假设,在为分布式训练和芯片分配 AI 数据中心电力时,公司只能使用现有供应量的 10% 到 40%。[4]

电力限制。 到 2030 年,1 到 5 千兆瓦的数据中心园区很可能成为现实。亚马逊 960 兆瓦核电合同OpenAI/MicrosoftSam Altman 正在探讨的 5 千兆瓦园区都在此范围内。这样的园区将支持 1e28 到 3e29 FLOP 的 AI 训练,考虑到机器学习 GPU (ML GPUs) 能效的预期提升。

如果要进一步扩大规模,就需要采用地理分布式训练,它可以利用多个地区的能源基础设施。根据目前的预测,一个分布式训练网络可以容纳 2 到 45 千兆瓦的电力需求,从而支持 2e28 到 2e30 FLOP 的训练。数据中心间的带宽也可能限制最大训练规模。具体来说,4 到 20 PB/秒 (Ppbs) 的数据中心间带宽(与现有数据中心的带宽趋势一致)将支持 3e29 到 2e31 FLOP 的训练。这很可能足够高,相比确保电力供应,带宽不会成为主要障碍。[6]

更大规模的训练是合理的:我们预计到 2030 年,训练期间为 GPU 供电所需的基础设施成本将约为 GPU 本身成本的 40%,并且可以通过天然气或太阳能在 3 到 5 年内快速扩建电源——尽管这可能会受到基础设施层面瓶颈的限制。

这十年限制 AI 规模扩展的因素

电力限制

我们分析并预测了维持当前 AI 训练规模发展所需的电力。然后,我们探讨了满足这些电力需求的潜在策略,包括现场发电、当地电网供应和地理分布式训练网络。我们重点关注在美国进行的 AI 训练,考察每种方法的可行性和限制。[5]

AI 电力需求的当前趋势

AI 模型训练目前占数据中心总功耗的一小部分,但增长迅速。我们调查了对当前需求的现有估计,推断了未来趋势,并将这些预测与整体数据中心和国家电力容量进行了比较。

大规模 AI 训练主要依赖硬件加速器,特别是 GPU。目前最先进的 GPU 是英伟达的 H100,[7] 它的热设计功耗 (TDP) 为 700 瓦。算上集群互连、CPU 等支持硬件,以及冷却和配电等数据中心级别的开销,其峰值功耗高达每块 GPU 1700 瓦。[8]

利用每块 GPU 的电力需求,我们可以估算前沿模型的装机电力需求。最近的 Llama 3.1 405B 模型,其 4e25 FLOP 的训练运行,使用了 16,000 块 H100 GPU 的集群。这种配置需要 27 兆瓦的总装机容量 (16,000 块 GPU × 每块 GPU 1700 瓦)。虽然这相当于 23,000 个美国家庭的年平均用电量,[9] 但与大型数据中心相比,这一需求仍然很小,大型数据中心可能需要数百兆瓦的电力。到 2030 年,这个数字会增长多少?预计到 2030 年,前沿训练的规模将比 Llama 3.1 405B 大 5 千倍,达到 2e29 FLOP。[10] 然而,我们预计电力需求不会增长那么多。这有几个原因。

首先,我们预计硬件会随着时间的推移变得更加节能。2010 年至 2024 年期间,用于机器学习训练的 GPU 实现的峰值 FLOP/s 每瓦增加了约 1.28 倍/年。[11] 如果继续下去,到 2030 年,训练的能效将提高 4 倍。

其次,我们预计未来 AI 训练中硬件使用效率会更高。Llama 3.1 405B 使用的是 FP16 格式 (16 位精度),但现在越来越多地采用 FP8 训练,例如 Inflection-2。Anthropic 的一位联合创始人曾表示,FP8 将成为前沿实验室的标准做法。我们预计到 2030 年,训练将切换到 8 位,这将使能效提高约 2 倍(例如,H100 在 8 位精度下执行大约 2e15 FLOP/s,而 16 位精度下为 1e15 FLOP/s)。[12]

第三,我们预计训练时间会更长。自 2010 年以来,著名模型的训练时长每年增加 20%,[13] 到 2030 年,训练规模将因此扩大 3 倍。更长的训练时间会将能源需求分散到更长的时间段。例如,Llama 3.1 405B 的训练时间超过了 72 天,而其他当代模型(如 GPT-4)据推测训练时间超过了约 100 天。然而,我们认为训练时间不太可能超过一年,因为实验室希望采用更好的算法和训练技术,以在这些技术带来实质性性能提升的时间尺度上进行调整。

考虑到以上所有因素,我们预计 2030 年的训练能效将比 Llama 3.1 405B 训练高 4 倍 (硬件效率) * 2 倍 (FP8) * 3 倍 (持续时间增加) = 24 倍。因此,2030 年 2e29 FLOP 的趋势训练所需的功率将比 Llama 3.1 405B 训练所用的功率高 5 千倍 (规模增加) / 24 倍 ≈ 200 倍,即 6 千兆瓦的功率需求。

与美国的总装机容量(约 1,200 千兆瓦)或美国 2023 年的平均发电量(477 千兆瓦)相比,这些数字仍然相对较小。[13] 然而,与当今美国所有数据中心的功耗(约 20 千兆瓦)相比,它们是巨大的,[14] 其中大部分目前与 AI 无关。此外,消耗数千兆瓦电力的设施规模空前——如今能源密集型设施(如铝冶炼厂)的电力需求高达千兆瓦左右,但不会更多。[15, 16] 在以下章节中,我们将探讨这种能源密集型设施是否可行。

地域性训练运行的电源限制

对于地域性的训练,无论是单个数据中心还是单个园区内的多个数据中心,都有两种供电选择:现场发电,或通过当地电网从 (可能多个) 发电站获取电力。

现在,不少公司已经开始探索现场发电。Meta 购买了密苏里州一个 350MW 太阳能发电厂和亚利桑那州一个 300MW 太阳能发电厂的电力输出权。链接 Amazon 在宾夕法尼亚州有一个数据中心园区,它与相邻的 2.5 GW 核电站签订了高达 960 兆瓦的供电合同。链接 这些交易的主要目的是节省电网连接成本,并确保能源供应的可靠性。未来几年,这样的数据中心或许能够支持规模空前的训练运行——960 MW 的电力是目前尖端训练运行所需 27 MW 电力的 35 倍以上。

那么,能否通过现场发电获得更多电力呢?目前,美国至少有 27 座容量超过 2.5 GW 的发电厂, 其中最大的当属位于华盛顿州,装机容量达 6.8GW 的 Grand Coulee 水力发电厂。链接 然而,现有电厂的大部分电力容量可能已经通过长期合同分配出去了。 备用容量的有限性意味着,现有的美国发电厂可能难以满足大规模现场发电的需求。备用能源容量的稀缺也引发了争议。例如,Amazon 竞标 960 MW 现场核电的计划就受到了两家公用事业公司的挑战,链接 他们试图将 Amazon 的购电量限制在目前的 300 MW。他们认为,Amazon 的这种做法规避了电网的共享成本;此类纠纷也可能会阻碍其他现场电力交易。

未来几年可能会建造更多的大型发电厂,但近年来新建的发电厂数量并不多,而且最近的 >3 GW 发电站的建设大约需要五年时间。 到 2030 年,美国任何已规划的发电站似乎都无法容纳 >3 GW 规模的现场数据中心。 因此,要进一步扩大规模,可能需要从电网中获取电力。

我们可以参考地域性区域的数据中心能耗趋势。例如,北弗吉尼亚州是美国最大的数据中心枢纽,拥有近 300 个数据中心,链接 峰值电力容量达到 5 GW。 北弗吉尼亚州最大的电力供应商 Dominion 预计,其数据中心负载在未来 15 年内将增长 4 倍,这意味着年增长率为 10%。链接 如果 Dominion 和其他区域供应商坚持类似的扩张计划,到 2030 年,北弗吉尼亚州的数据中心电力容量可能会增长到 10 GW 左右。

一些公司正在研究千兆瓦级数据中心的方案,这个规模到 2030 年似乎是可行的。行业领袖和最近的媒体报道都支持这一评估。美国最大的公用事业公司 NextEra 的首席执行官最近表示,链接 虽然找到一个 5 千兆瓦 AI 数据中心的选址颇具挑战性,但在美国境内确实存在能够支持 1 千兆瓦设施的地点。这也与一则媒体报道链接相吻合,该报道指出,Microsoft 和 OpenAI 正计划在 2028 年建成一个名为 *Stargate* 的 AI 数据中心园区,该园区需要“数千兆瓦的电力”,并计划到 2030 年将容量扩展至 5 GW。

总而言之,目前的趋势表明,到 2030 年,能够满足 2 至 5 GW 电力需求的 AI 训练设施是可行的。这一评估基于三个关键因素:数据中心电力容量的预计增长 (例如北弗吉尼亚州预计将从 5 GW 增长到 10 GW);雄心勃勃的千兆瓦级数据中心行业计划 (例如传闻中的 Stargate 园区);以及公用事业公司的评估,表明 1 至 5 千兆瓦的设施在美国的某些地点是可行的。例如,到 2030 年,像传闻中的 Stargate 园区这样的 5 GW 电源将允许进行 2e29 FLOP 的训练运行,这考虑到了能源效率的预期提升,并将训练时间增加到 300 多天。 由同地发电厂或当地电网供电的训练网络不太可能超过 10 GW,因为这将接近北弗吉尼亚州所有数据中心的总预计电力需求。

地域分布式训练的电源限制

将 AI 训练分布到单个数据中心之外有助于规避本地电源限制。数据中心间分布式训练涉及将工作负载分散到多个数据中心,这些数据中心可能彼此靠近,也可能不靠近。这种方法很可能已经被用于像 Gemini Ultra 这样的大型模型,从而可以访问更多硬件资源。 地域分布式训练将这一概念扩展到更广阔的区域,甚至可能利用不同的电网。主要的科技公司已经为这种方法做好了准备,它们的数据中心已经遍布多个地区。例如,Google 在 15 个不同的美国州运营数据中心。 这种方法可以通过访问更广泛的电源资源来支持更大规模的训练操作。

分布式数据中心网络可以访问多少电力呢?与本地数据中心网络一样,我们的讨论基于历史趋势、供应商预测和第三方对数据中心电力增长的预测。在后面的部分中,我们将讨论影响美国整体电力供应大规模扩张可行性的因素,这可能会为数据中心释放更多电力。

美国数据中心获取电力的潜力巨大且不断增长。为了准确评估这种容量,区分两个关键指标至关重要:实际能源消耗的平均速率 (考虑了停机时间和波动) 以及数据中心的额定总峰值容量。我们估计,目前美国数据中心的平均功耗超过 20 GW。 Dominion 曾表示,链接 他们服务的数据中心平均需要 60% 的容量,而我们采访的专家的估计表明,数据中心平均消耗其额定容量的 40-50%。这表明总容量在 33 到 50 GW 之间,粗略估计约为 40 GW。 此外,根据 SemiAnalysis 的数据中心行业模型,北美 (绝大多数在美国) 的数据中心总 IT 容量在 2023 年底约为 36 GW,到 2024 年底将达到 48 GW,这与我们的估计一致。

图 2:通过 SemiAnalysis 的数据中心行业模型链接报告的北美数据中心的已安装 IT 总容量和计划安装的 IT 总容量。**重要提示:**要找到总容量,我们必须将这些数字乘以电源使用效率 (Power Usage Effectiveness,PUE),其范围从 AI 数据中心的 1.2 倍到其他数据中心的 1.5 倍。

数据中心电力容量快速扩张的潜力巨大,多个来源和预测都证明了这一点。SemiAnalysis 的历史数据表明,2019 年至 2023 年间,跟踪的数据中心容量以约 20% 的年增长率增长 (见图 2)。2024 年和 2025 年的计划扩张旨在加快这一速度,如果按时完成,将实现 32% 的年增长率。

我们还可以参考公用事业公司的增长预测,来估计整个数据中心行业的合理增长率。在北弗吉尼亚州,继 2017 年至 2023 年 24% 的年需求增长链接之后,Dominion 计划未来几年数据中心电力的年增长率为 10-15%。 另一家弗吉尼亚州的公用事业公司 NOVEC 预计未来几年年增长率为 17%。链接

最后,其他独立估计也与约 15% 的年增长率一致,例如来自 Goldman Sachs 的估计,链接 该公司预测到 2030 年,数据中心功耗将以 15% 的年增长率增长到 400 TWh (平均需求约为 46 GW);以及来自电力研究所 (Electric Power Research Institute,EPRI) 的估计,链接 该机构认为,如果 AI 应用快速扩张,则增长率为 15%。

总的来说,10-30% 的年增长率似乎是可以实现的。以 15% 作为增长率的中间值,这意味着到 2030 年,美国数据中心的容量可能会从 40 GW 增长到 90 GW,增幅达 50 GW。再次提醒,我们使用了一系列实际增长预测来支撑对可行增长的估计,因此这个数字可以说比较保守。

考虑到所有数据中心的电力容量,有多少电力可用于 AI 呢?目前,美国大多数数据中心都专用于非 AI 用途,例如互联网服务和云计算。例如,SemiAnalysis 跟踪到 2023 年底北美 AI 数据中心的装机容量为 3 GW。这相当于数据中心总容量的 8%。 然而,AI 数据中心的电力需求份额正在上升,我们预计未来几年 AI 电力容量份额将变得更大。

对非 AI 数据中心电力需求年增长的现有预测集中在 8% 至 11% 左右。 按照 8% 的增长率,非 AI 应用的需求将从今天的约 37 GW 增加到 2030 年的约 60 GW,为 AI 数据中心留下 90 GW - 60 GW ≈ 30 GW 的容量。这将导致 AI 装机容量扩大约 10 倍 (30 GW / 3 GW ≈ 10),即 AI 装机电力容量的年增长率约为 47%。 此预测假设对非 AI 应用的增长分配是固定的。但是,如果 AI 应用被证明更有利可图或更具战略意义,云提供商可能会重新分配资源,从而导致 AI 装机电力容量的增长更高,而以非 AI 扩张为代价。

最后,我们估计可以将多少容量专用于单次训练运行。我们必须考虑到增加的电力容量可能会在不同的参与者 (例如 Microsoft、Google、Amazon 等) 之间共享。我们估计,份额最大的公司可能会获得 AI 数据中心电力容量的 33% 左右。公司可以预先加载其训练容量,从而导致在开始大规模训练运行时将其大部分容量 (可能高达 80%) 专用于训练。总的来说,这意味着 26% (33% x 80% = 26%) 的 AI 数据中心容量可能会用于单次训练运行。

根据我们的估计,到 2030 年,美国资源最丰富的 AI 公司很可能能够组织一次约 8 GW (30 GW x 26% ≈ 8 GW) 的分布式训练运行。在考虑到相关增长率和当前容量的不确定性之后,我们最终得出的保守估计是,开发人员能够为分布式训练提供的最大供应量为 2 至 45 GW,这将允许在 2e28 至 2e30 FLOP 之间进行训练运行 (请参阅后面部分中的图 3)。作为参考,我们之前的分析表明,到 2030 年,单园区设施可能会达到 2 至 5 GW 的容量。我们的分布式训练估计值的上限 (45 GW) 明显超过了单园区预测值,表明分布式训练有可能克服电力瓶颈。

地域分布式训练的可行性

地域分布式训练运行将工作负载分散到多个数据中心以缓解电力限制,这种训练运行在我们分析中预测的规模下在技术上很可能是可行的。这种方法建立在 AI 模型训练的现有实践之上,在这些实践中,计算已经大规模并行化到多个 GPU 上。AI 训练的基本结构促进了地域分布:数据集被分成多个批次,模型权重更新每批次只发生一次。在分布式设置中,这些批次可以分散到不同的位置,只需要数据中心在每批次结束时同步和共享梯度更新。

现有实践中存在这种方法可行性的证据。例如,据报道,Google 的 Gemini Ultra 模型是在多个数据中心进行训练的,这证明了地域分散式训练的实用性。 虽然用于 Gemini Ultra 训练的数据中心的确切地域分布尚不清楚,但其训练提供了一个大规模分布式操作的具体示例。

分布式训练中广泛分散的数据中心的可行性受到延迟的限制。假设主要美国数据中心由 11,000 公里的光纤环路连接 (高端估计),通信延迟将大约为 55 毫秒。 同步需要在网络中往返两次,耗时 110 毫秒。这是使用光速三分之二的传播速度,因此只要我们进行光纤通信,这种延迟就无法减少。因此,如果训练运行在 300 天内完成,它最多可以进行 2.4 亿次 (300 天 / 110 毫秒 = 2.4 亿) 梯度更新。

我们不确定批次可以有多大而不会影响训练效果。我们假设它是 6000 万个 Token——据推测,链接 这与 GPT-4 在训练期间达到的最大批次大小相符。这将允许在训练期间看到约 1e16 个 Token (2.4 亿个批次 x 6000 万个 Token/批次),根据 Chinchilla 最优缩放,这将允许进行约 6e31 FLOP 的训练运行。 换句话说,即使悲观地假设数据中心网络涉及非常遥远的数据中心,延迟也不太可能是约束性因素。

除了延迟之外,带宽也会影响大规模分布式训练的可行性。当前的数据中心交换机技术,例如 Marvell Teralynx 10,链接 为我们了解可实现带宽提供了参考。这种数据中心交换机支持 128 个端口,每个端口 400 Gbps,总带宽为 51.2 Tbps。 使用标准的两阶段环形 all-reduce 操作传输 16T 参数模型的梯度更新 (8 位精度) 将需要 4.9 秒/次 (2 x 16T x 8 bit / 51.2 Tbps = 4.9 秒)。如前所述,每次 all-reduce 增加 110 毫秒的延迟,每次 all-reduce 的总时间将为 5 秒。根据 Chinchilla 缩放,此模型大小将最大化在 300 天训练时间内可以完成的训练规模,从而实现 3e28 FLOP 的训练运行。

然而,可实现的带宽可能远高于单个 Teralynx 10 以太网交换机可以管理的带宽。首先,数据中心对之间的链路可以通过多个交换机和相应的光纤进行管理,从而实现更大的带宽。例如,Google 的 Stargate 网络链接 中的每个节点都具有 32 个管理外部流量的交换机。在环形 all-reduce 设置中,一个 32 交换机的数据中心可以专用 16 个交换机来管理与其两个邻居中的每一个的连接。考虑到 Google 的 B4 网络的先例,我们认为每个数据中心对 8 到 32 个交换机的交换机安排应该是可以实现的。

其次,未来可能会出现性能更好的交换机和收发器,从而提高可实现的带宽。专用集成电路 (Application-Specific Integrated Circuit,ASIC) 交换机的更广泛趋势链接1 链接2 表明带宽每年增加 1.4 到 1.6 倍, 这将导致到本世纪末出现 380 到 850 Tbps 的以太网交换机。

我们对到 2030 年可实现的数据中心间带宽的最终估计值为 4 到 20 Pbps,这将允许进行 3e29 到 2e31 FLOP 的训练运行。有鉴于此,与首先获得必要的电源相比,带宽不太可能成为分布式训练运行的主要限制。

扩展分布式训练网络的带宽容量提出了一个相对简单的工程挑战,可以通过在数据中心之间部署额外的光纤对来实现。考虑到 AI 训练运行可能耗资数千亿美元,这种带宽扩展所需的金融投资似乎相对较小。

能源瓶颈建模

我们得出的结论是,到 2030 年,由本地电源支持的训练运行的功耗可能在 1 至 5 GW 之间,并达到 1e28 至 3e29 FLOP。同时,地域分布式训练运行可以积累 2 至 45 GW 的电源,并在数据中心对之间实现 4 至 20 Pbps 的连接,从而允许进行 2e28 至 2e30 FLOP 的训练运行。 总而言之,到 2030 年,在 2e28 至 2e30 FLOP 之间进行训练运行似乎是可能的。 这些估计值背后的假设可以在下面的图 3 中找到。

图 3:本地和分布式数据中心网络设置的预计功耗,以及它们将支持的最大训练运行规模 (考虑了能效改进以及带宽和延迟限制)。

如果积极推进,数据中心的供电规模究竟能达到多大,目前尚不清楚。到目前为止,我们的讨论基于数据中心现有的供电情况以及电力公司的增长预测,我们的模型结果也反映了这些估计。如果对电力供应增长进行前所未有的投资,这些数字会发生怎样的变化呢? [47]

新建发电厂似乎成本合理且可扩展,但在电网层面也存在重要的限制 ( 下文会详细讨论 ) 。天然气和太阳能发电厂的建设速度相对较快 [48],不到两年即可建成 [48],而核能和水力发电等其他类型的能源则需要更长的建设周期 [49]。目前,美国没有正在建设的全面核电站。 [50]

扩大电力供应的成本是多少?我们可以参考燃气发电厂的建造成本和运营成本来作为基准。 [51]

据估计,一座燃气发电厂的初始资本成本 ( Overnight Capital Cost ) 约为每千瓦 2500 美元 ( 含 95% 碳捕获 ) ,如果不含碳捕获,则约为每千瓦 900 美元。其运营成本约为每千瓦时 4.5 美分 ( 如果包含碳捕获,则约增加 4 美分 ) [52]。然而,需要注意的是,包含碳捕获的估算是理论上的,因为带有碳捕获的天然气发电尚未大规模部署。不带碳捕获的天然气发电更便宜,但可能会受到政治和企业承诺的更多限制 ( 下文会详细讨论 ) 。目前,数据中心的电价约为每千瓦时 8.7 美分。如果我们在运营成本的基础上加上 100% 的溢价,那么数据中心使用带有碳捕获的天然气发电的电价将达到每千瓦时 17 美分左右。

与此同时,一块 H100 GPU 需要 1700 瓦的功率,成本约为 30000 美元,即每千瓦约 17000 美元。这意味着,如果使用天然气为 H100 的训练运行供电,每块 H100 的初始资本成本约为 1500 到 4000 美元,可变成本约为 2000 美元。 [53] 因此,如果 AI 开发人员需要自己承担所有所需发电厂的建设成本,那么他们的硬件成本只会增加大约 ( 4000 + 2000 ) / 30000 = 20%。然而,即使考虑到硬件效率的提高,在计入硬件发展趋势后,情况会变得更糟。GPU 的能效 ( 每 FLOP/s 的瓦特 ) 正以每三年翻一番的速度提高,但它们的性价比 ( FLOP/美元 ) 也以每两年翻一番的速度提高。因此,到 2030 年,花在 GPU 上的每一美元可以买到 8 倍的 FLOP,所需的功率却减少了 4 倍,相当于每美元的功率增加了一倍,电力成本将达到 GPU 成本的 40%。

考虑到这些数字,如果电力可以以当前的边际价格扩大规模,那么相对于所需芯片的成本而言,为数据中心构建任意大的供电网络是可以负担得起的。但在超过 100 吉瓦的超大规模下,这将需要前所未有的努力。

尽管 AI 开发人员可能愿意大力投资解决电力瓶颈,但一些障碍可能会限制可用于 AI 训练的电力。输电线路对于连接发电厂和数据中心至关重要,通常需要大约 10 年才能建成,并且经常面临政治挑战。将新的发电接入电网的过程 ( 称为互连 ) 变得越来越耗时,美国最近的平均排队时间已达到五年。 [54] 此外,新的电力变压器对于配电至关重要,但可能需要长达两年的交付时间。这些电网瓶颈使得即使有大量资金投入,电力供应能否以显著快于历史增长率或电力公司最乐观预测的速度扩大规模也充满了不确定性。较长的交付周期和复杂的基础设施需求使得电力容量的快速扩张具有挑战性,这可能会限制大规模 AI 训练运营的增长。

另一个潜在的限制是政治和监管方面的限制,这些限制阻碍或延迟了发电厂以及输电线路和天然气管道等配套基础设施的建设。这可能会限制或减缓大规模的电力扩张。这种政治限制可能是灵活的 [55],特别是如果政府大力支持建设电力基础设施以支持先进 AI 系统的开发。

通过天然气扩大 AI 训练的电力也面临着一系列挑战。在美国,每年大规模扩容数十吉瓦的先例是存在的。例如,美国在 2000 年至 2010 年期间新增了 250 吉瓦的天然气发电装机容量,平均每年 25 吉瓦。但这需要增加天然气钻探和建造额外的管道,将天然气输送到发电厂。虽然至少有一项分析表明,美国可以钻探足够的天然气为额外的 100 吉瓦 AI 训练供电,但对这种方法的可行性存在不同意见。例如,NextEra 的 CEO 认为管道建设是一个潜在的障碍,并表示可再生能源可能是为 AI 数据中心供电的更可行的选择。

最后,大规模电力增长与美国政府到 2035 年实现 100% 无碳污染能源的目标之间存在矛盾,三大云计算提供商——谷歌、微软和亚马逊——也承诺到 2030 年实现碳中和。这可能会限制可以考虑的能源类型 [56] ( 尽管如果为了扩大 AI 规模而面临巨大的经济压力,这些承诺可能不会具有约束力 ) 。例如,为了遵守这些承诺,化石燃料发电厂可能需要配备碳捕获设备,但碳捕获技术尚未经过大规模测试,可能无法在 2030 年之前做好广泛部署的准备。这种矛盾对于煤炭尤为突出。煤炭发电可能是电力供应不足的一个来源,因为煤炭发电厂的运行负荷约为 50%,低于 2008 年的约 70%,尽管许多煤炭发电厂的设计目的是提供可靠的基荷电力。 [57] 然而,煤炭的碳强度比天然气高得多。

鉴于这些潜在的瓶颈,目前尚不清楚到 2030 年,美国的电力供应在多大程度上可以以接近当前边际成本的价格任意扩大规模。因此,我们保守地假设电力供应不会超过公用事业和独立分析师预测的水平。

芯片制造能力

AI 芯片 ( 例如 GPU ) 提供训练 AI 模型所需的计算能力,是 AI 扩展的关键要素。过去几年,GPU 集群的增长一直是计算能力增长的主要驱动力。更高性能、更低延迟和更高内存带宽的 GPU 使得进行更大规模的训练成为可能。因此,AI 扩展可能会受到芯片制造商能够生产的最先进 GPU 数量的限制。

我们通过分析半导体行业数据 ( 包括预计的封装产能增长、晶圆产量增长以及对晶圆厂的资本支出 ) 来模拟未来的 GPU 生产及其限制。我们的预测表明,到 2030 年,GPU 产量预计每年将增长 30% 至 100%,这与 CoWoS ( Chip-on-wafer-on-Substrate ) 封装和高带宽内存 ( HBM ) 产量的增长率一致。

在我们的中位数预测中,我们预计有足够的制造能力生产 1 亿个 H100 等效的 GPU 用于 AI 训练,足以支持 9e29 FLOP 的训练运行。这一估计考虑了 GPU 分布在多个 AI 实验室中,并且部分用于模型服务。然而,这一预测存在很大的不确定性,主要是由于先进封装和高带宽内存容量扩展方面的不确定因素。我们的估计范围从 2000 万到 4 亿个 H100 等效的 GPU,可能实现 1e29 到 5e30 FLOP 的训练运行 ( 比 GPT-4 大 5000 到 25000 倍 ) 。

当前的生产和预测

近年来,数据中心 GPU 的销售额快速增长。据报道,在 AI GPU 领域占据主导市场份额的英伟达 ( Nvidia ) 在 2023 年出货了 376 万个数据中心 GPU,高于 2022 年的 264 万个。 [58] 到 2023 年底,有 65 万块英伟达 H100 GPU 被运往主要科技公司。对 2024 年的预测表明,出货量可能会增加两倍,预计将出货 150 万至 200 万块 H100。这一数量足以支持 6e27 FLOP 的训练运行。 [59]

然而,如果我们将训练计算量每年增长 4 倍的趋势外推到 2030 年,我们预计训练运行量将达到 2e29 FLOP 左右。这种规模的训练运行将需要近 2000 万块 H100 等效的 GPU。 [60] 如果我们假设单个 AI 实验室最多可以获得总产量的 20% 左右,那么到 2030 年,全球制造能力将需要接近 1 亿块 H100 等效的 GPU。这远远超过了目前的生产水平,需要大幅扩大 GPU 的生产。 [61]

作为英伟达主要芯片代工厂的台积电 ( TSMC ) 在增加产量方面面临多项挑战。一个关键的近期瓶颈是芯片封装产能,特别是台积电的 CoWoS ( 晶圆级芯片尺寸封装 ) 工艺,这是英伟达最新 GPU 的主要封装方法。这种封装工艺将逻辑单元与高带宽内存 ( HBM ) 堆栈结合成即用型 AI 芯片。封装难以快速扩大规模,因为新设施需要来自许多供应商的复杂设备。建造这些设施还需要对人员进行专门培训。尽管来自英伟达等客户的需求强劲,但这些限制限制了台积电的 AI 芯片产量。

台积电正致力于解决这一限制。该公司正在迅速将其 CoWoS 封装产能从 2023 年 12 月的每月 1.4 万到 1.5 万片晶圆提高到预计到 2024 年底的每月 3.3 万到 3.5 万片晶圆。 [62] 为了进一步扩大这一产能,台积电在 2023 年开设了一家新工厂——先进后端工厂 6。满负荷运转时,该工厂每月可处理多达 8.3 万片晶圆,这将使台积电的先进封装量增加一倍以上。 [63] 台积电还宣布计划到 2026 年每年将其封装产能提高 60%。最近 CoWoS 产能的扩大规模每年从 30% 到 100% 不等。如果这一趋势持续下去,那么可以生产的固定尺寸的芯片数量可能会以类似的速度增长。 [64][65]

高带宽内存 ( HBM ) 芯片本身的生产是 GPU 制造的另一个重要限制。HBM 芯片几乎售罄,直到 2026 年。虽然 HBM 销量预计将从 2023 年到 2024 年增加 2 到 3 倍,但这部分增长主要来自重新分配 DRAM ( 动态随机存取存储器,另一类低端内存芯片 ) 的产能。目前的 HBM 领导者和英伟达的主要供应商 SK 海力士预计,HBM 需求在中长期 ( 可能是指收入 ) 将年均增长 60%,而一家分析公司估计,从 2023 年到 2028 年,HBM 的产量将年均增长 45%。

HBM 生产和台积电的 CoWoS 封装产能是 GPU 制造的两个关键限制,预计未来几年将以类似的速度增长。根据台积电宣布的计划和 CoWoS 产能的近期增长趋势 ( 每年在 30% 到 100% 之间 ) ,我们估计 GPU 产量将在短期内以类似的速度增长。

尽管 GPU 产量大幅增长,但晶圆生产本身不太可能成为主要的限制因素。目前,数据中心 GPU 仅占台积电晶圆总产量的一小部分。截至 2024 年初,我们对台积电目前 5nm 和 3nm 工艺节点的产能的核心估计是每年 220 万片晶圆。 [66] 预计 2024 年将生产的 200 万块 H100 GPU 只会消耗 5nm 节点产能的 5% 左右。 [67] 即使按照预计的增长率,GPU 制造也不太可能在短期内主导台积电的先进产能。相反,扩大 GPU 生产的主要限制似乎是芯片封装和 HBM 生产。

然而,GPU 制造最终可能会主导台积电的先进节点,这是有可能的。这种情况是有先例的:2023 年,苹果公司消化了台积电约 90% 的 3nm 产量。鉴于 AI 芯片的高利润率,英伟达可能会在台积电的先进晶圆产能上击败苹果和高通等竞争对手。虽然我们认为这很有可能,但这种情况并没有体现在我们的主要分析中。

模拟 GPU 生产和计算可用性

台积电预测,未来五年 AI 服务器的需求将以每年 50% 的速度增长。鉴于台积电的营业利润率每年增长 5 个百分点,投资者预计由于价格上涨,这一趋势将持续下去,我们估计实际 GPU 销量增长约为每年 35%。 [68] 与其他预测相比,这比较保守:AMD 预计到 2027 年数据中心芯片的年增长率为 70%,假设价格涨幅相似,则意味着 GPU 销量的年增长率约为 60%。 [69] 这些更激进的估计与上文讨论的近期 CoWoS 封装和 HBM 产能扩大预测非常吻合,这使得它们更具可信度。我们将这一估计范围考虑在内,并预测 GPU 芯片的产量每年将增长 30% 至 100%。

我们预计会有足够的晶圆产能来维持这种扩张。台积电的历史趋势显示,从 2014 年到 2023 年,资本支出年均增长 15%,晶圆产能年均增长 8%。 [70] 台积电可能会增加其专门用于扩大 GPU 生产的资本支出,并大幅扩大 GPU 专用晶圆、封装和其他生产环节的产量。如果台积电加快其资本支出增长,以匹配其 AI 服务器市场 50% 的预期年增长率,那么投入和产出增长之间的历史关系表明,总晶圆产能每年可以增长 27%。 [71] 总体而言,这表明先进晶圆产量的年增长率在 5% 到 20% 之间。

我们对当前的先进晶圆产量有不小的不确定性,并假设这在每月 10 万到 33 万片之间。以每年 5% 到 20% 的增长率计算,我们预计到 2030 年生产的先进晶圆总库存将在 1000 万到 3700 万片之间。根据台积电和其他公司的预测,我们预计这些晶圆中约有 20% 将专门用于生产数据中心 GPU。

这些预测表明,总计将生产相当于每年 2e30 至 4e31 FLOP 的 H100 等效 GPU 全球库存。当然,这其中只有一部分将用于单次训练,因为单个实验室只会收到一小部分出货量,实验室会将其 GPU 用于推理和其他实验,而且训练运行可能不会持续一整年。按照硬件和算法的当前改进速度以及不断增长的 AI 预算,如果硬件或软件的进展没有放缓,训练运行可能不会超过六个月。我们假设训练运行将持续约 2 到 9 个月;如果硬件和软件的进展停滞不前,则持续时间会更长,如果进展相对于今天有所加快,则持续时间会更短。

AI 芯片很可能会分布在许多相互竞争的实验室中,某些实验室拥有全球计算库存中相当一部分。例如,据报道,Meta 在 2023 年购买了面向主要公司 H100 出货量的四分之一。我们估计,最近,单个实验室在任何时间点拥有的数据中心 GPU 的份额可能在 10% 到 40% 之间。

在这一分配中,一部分可能会被用于模型服务,而无法用于训练。很难知道这一比例是多少。然而,我们可以使用一个简单的启发式论证。一项简单的分析表明,AI 实验室应该为这两项任务 ( 训练和推理 ) 分配相当的资源。如果这成立,并且用于训练的计算量继续每年增长 4 倍,那么我们应该预计约 80% 的可用计算量将用于训练新模型。 [72]

综上所述,我们得到了以下情况。在中位数轨迹上,原则上可以将约 1 亿块 H100 等效的 GPU 专用于训练,以支持 9e29 FLOP 的训练运行。然而,这一预测存在很大的不确定性,我们的估计范围从 2000 万到 4 亿块 H100 等效的 GPU,对应于 1e29 到 5e30 FLOP。为了确定一个上限,我们考虑了一个假设场景:从现在到 2030 年,台积电的全部 5nm 及以下产能都用于 GPU 生产。在这种情况下,潜在的计算量可能会增加一个数量级,达到 1e30 到 2e31 FLOP。这个基于当前晶圆产量预测的上限说明了如果完全解决封装、HBM 生产和晶圆分配方面的现有限制,对 AI 训练能力的最大可能影响。下图 4 说明了这些估计值,并列出了其背后的假设。

图 4: 不同场景下 2030 年可用于最大 AI 训练运行的 H100 等效 GPU 和 FLOP 分布。“预计台积电产能”根据历史趋势和预测估算台积电的 GPU 生产能力,而“全部台积电产能”是一个假设,即台积电 100% 的先进晶圆产能用于 GPU 生产。

数据稀缺性

扩大 AI 训练规模需要访问越来越大的数据集。到目前为止,AI 实验室一直依赖网络文本数据来推动训练。由于每年生成的网络数据量的增长速度慢于训练中使用的数据量,这将不足以支持无限增长。在本节中,我们总结了我们之前关于数据稀缺性的工作 [链接到之前的文章],并通过估计多模态和合成数据带来的进一步规模收益对其进行了扩展。

已知用于训练的最大训练数据集的数量级约为 15 万亿个公开可用的文本和代码数据 token。 [73] 我们估计,去重后的已索引网络数据包含大约 500 万亿个 token,比已知的最大训练数据集多 30 倍。如果只考虑已编译的语料库 ( 例如 CommonCrawl ) ,这个数字可能低至 100 万亿;如果还考虑私有数据,则可能高达 3000 万亿。 [74]

由于 Chinchilla 缩放定律表明,模型大小和数据集大小应该按比例扩大,因此通过使用整个已索引网络数据将训练数据扩大 30 倍,AI 实验室将能够训练数据量和参数都增加 30 倍的模型,从而使计算量增加 900 倍,即如果模型被训练到 Chinchilla 最优状态,则计算量最高可达 8e28 FLOP。 [75][76][77]

如果计算规模每年增长 4 倍的近期趋势持续下去,我们将在大约五年内遇到文本数据的“数据墙”。然而,来自其他模态的数据和合成数据生成可能有助于缓解这种限制。我们将论证,多模态数据将带来 450 万亿到 23 千万亿个 token 的有效数据库存,从而实现 6e28 到 2e32 FLOP 的训练运行。此外,如果 AI 实验室将其计算预算的很大一部分用于数据生成,合成数据可能会使其规模远远超过这个水平。 [78]

已发布的文本数据可能受版权限制,未经许可,禁止将其用于训练大型语言模型。虽然这在理论上可能会限制训练数据的供应,但在实践中,有几个因素可以缓解这种担忧。主要考虑因素是目前关于将已发布文本包含在通用模型的训练数据中是否构成“合理使用”的法律辩论。然而,即使这场辩论的最终结果有利于版权所有者,还有其他一些实际因素会使这些限制的实施变得复杂。

许多大型公共网络数据存储库 ( 例如 Blogspot ) 允许单个作者保留其内容的版权。然而,这些个人在证明其内容包含在训练数据中可能会面临重大挑战,并且可能缺乏参与复杂诉讼程序的能力或愿望。这种实际障碍可以阻止单个内容创建者对使用其数据的 AI 公司提起诉讼。

另一方面,像报纸这样的大型出版商通常拥有提起版权侵权诉讼的资源。然而,这些实体也可以与 AI 公司协商协议,以授权其数据。例如,OpenAI 已成功与多家主要出版商达成协议,包括 Stack Overflow、The Atlantic、《时代》杂志和 Vox Media。这些协议表明,AI 公司通常可以通过与内容提供商的协商和合作来有效地规避版权限制。

最终,版权限制将在多大程度上限制大型语言模型的训练数据供应仍然不确定。虽然存在法律和实际挑战,但这些限制似乎不太可能显著减少可用数据的总体数量。互联网上的海量内容,加上执法的复杂性以及许可协议的可能性,表明 AI 公司仍然可以获得大量数据集。然而,值得注意的是,版权限制可能会对书籍和知名新闻媒体等高质量来源产生不成比例的影响。这些来源通常包含精心策划、事实准确且经过专业编辑的内容,这对于训练可能特别有价值。因此,虽然训练数据的数量可能不会大幅减少,但对可用于 AI 训练的最权威来源的质量和多样性可能会产生显著影响。

多模态

AI 实验室可以利用其他数据模态,例如图像或视频。 [79] 当前的多模态基础模型是在 10% 到 40% 为图像数据的数据集上训练的。 [80] 这些数据用于使模型能够理解和生成图像。鉴于多模态理解的实用性,我们预计未来的数据集将包含很大一部分非文本数据,纯粹是为了这个目的。也就是说,为了显著扩大数据库存,多模态数据的比例必须远远大于文本数据的比例。

音频、图像或视频建模本身就非常有价值,足以让 AI 实验室扩大纯视听训练的规模。强大的视觉能力可以让模型作为嵌入在工作流程中的助手,用来组织信息 ([20]) 或操作网页浏览器。支持多语种,并且语音流畅快速的模型可能会大幅改进个人语音助手技术,实现实时翻译和客户服务,并带来比纯文本更流畅的交互。虽然目前的视觉模型使用的计算量比语言模型少得多 ([81]),但如果文本数据不足,而图像数据非常丰富,AI 实验室可能会开始将更多资源投入到图像模型中。

像蛋白质序列或医疗数据这样的其他模态数据也很有价值。然而,这类数据的库存量不太可能大到足以显著扩大可用训练数据的总量 ([82])。

多模态数据可以通过多种方式进一步帮助语言理解。文本数据可以从音频、图像和视频数据中转录出来,这可以进一步扩大与文本相关的数据的库存量 ([83])。更大胆地推测,非文本数据可以通过迁移学习或模态之间的协同作用来提高语言能力。例如,已有研究 ([20]) 表明,结合语音和文本数据可以带来比单模态模型更好的性能,并且有人认为这种协同作用会随着规模的扩大而提高。然而,关于模态之间迁移学习的研究很少,因此我们不能肯定地得出结论,多模态数据的迁移学习会有用。

如果出现这种情况,有多少视觉数据可用于训练呢?互联网上大约有 10 万亿秒的视频,而图像的数量也可能接近 10 万亿 ([84])。在这些模态和文本数据之间建立等价关系是具有挑战性的。当前的多模态模型,例如 Chameleon-34B ([20]),将图像编码为 1024 个 Token,但我们预计随着多模态分词器和模型变得更加高效,这个数字会随着时间的推移而减少。有一些有效编码图像的例子,只需少至 32 个 Token ([20]),在根据典型的文本字典大小进行调整后,每个图像将得到 22 个 Token ([85])。我们假设每个图像和每秒视频对应 22 个 Token,这意味着图像和视频多模态将使可用于训练的有效数据总量增加大约 400 万亿个 Token ([86])。这表明图像和视频内容可能各自贡献与文本一样多的数据来实现模型规模的扩展。这将允许进行比纯文本数据训练大十倍的训练。

此外,互联网上公开可用的音频数据量大约在 5000 亿到 1 万亿秒之间 ([87])。神经编码器可以以低于 1.5 kbps 的速度存储音频,同时与更高比特率的标准编解码器相比具有竞争力。这相当于每秒音频少于 100 个与语言对等的 Token。因此,总存储的音频量应该在 50 万亿到 100 万亿 Token 之间,与文本和图像的估计值相差不远 ([88])。因此,音频数据可能不会在很大程度上扩展数据总量。

综合考虑各种模态数据量、数据质量、训练轮数和分词器效率的不确定性,我们估计可用于训练的有效 Token 为 400 万亿到 20000 万亿个,这将允许到 2030 年进行 6e28 到 2e32 FLOP 的训练 (参见图 5)。

由于这个范围很广,我们不妨看看上限是如何达到的。请注意,这些数字只是示例,我们实际的置信区间来自基于这些参数取值范围的蒙特卡洛模拟。

索引网络上文本数据量的高端估计是 2000 万亿个 Token (Villalobos et al., 2024)。同时,互联网上图像和视频的总时长高端估计是 40 万亿秒。如果我们假设每个图像或每秒视频对应 100 个 Token,这将意味着 4000 万亿个视觉 Token,或者说文本和视觉 Token 加起来一共 6000 万亿个。如果我们进一步假设到 2030 年这个数据总量翻倍,其中 80% 由于质量过滤而被移除 (FineWeb 丢弃了大约 85% 的 Token),并且模型在这个数据上训练了 10 轮,这将得到一个大约 20000 万亿个 Token 的有效数据集。关于这些参数的完整列表以及我们选择值范围的推理,请参见图 5。

合成数据

在我们的预测中,我们只考虑了人类生成的数据。合成数据生成能否极大地扩展数据供应呢?机器学习中的几个重要里程碑是在不依赖人类数据的情况下实现的。AlphaZero 和 AlphaProof 分别学会了玩游戏和解决几何问题,它们通过纯粹的自我生成数据训练来匹配或超越人类专家。在合成数据上微调的语言模型可以提高它们编写代码和回答推理问题的能力。在精心策划的合成数据上训练的小型大语言模型可以实现与在网络抓取文本上训练的更大模型相当或更优的性能,而参数和训练数据却少得多。像 Llama 3.1 这样的大规模前沿语言模型使用合成数据来增强在收集高质量人工标注数据可能具有挑战性或成本高昂的领域的能力,例如长上下文能力、多语言性能和工具使用能力。

我们有理由相信,通过计算来生成高质量的合成数据是可行的,因为验证输出的质量通常比生成输出更容易。这个原则最适用于我们可以创建明确的正确性或质量信号的领域。例如,在编码任务中,我们可以检查生成的代码是否通过单元测试或能否为示例输入生成正确的输出。在数学中,我们可以检测逻辑或算术错误并纠正它们。

这个过程使开发人员能够使用计算资源生成大量的候选解决方案。然后,他们可以系统地验证每个生成的解决方案的正确性或质量,只保留高质量的例子,而丢弃次优的例子。这种方法可以通过计算创建充满高质量合成例子的数据集。对于这些任务,人们可以花费更多的推理成本来生成更高质量的输出。

“验证比生成更容易”这个原则可能超越编码,扩展到其他各种领域。例如,审查一篇研究论文的质量和新颖性通常比写一篇原创论文更容易。类似地,评估一个故事的连贯性和合理性通常比从头开始写一个引人入胜的故事更容易。在这些情况下,虽然传统的符号系统可能难以进行验证,但现代 AI 系统,特别是大型语言模型,已经展现了与人类验证者相当的评估能力。这表明 AI 驱动的验证可以在这些复杂领域中创建高质量的合成数据。

还有其他机制可以用来生成高质量的合成数据。例如,通常情况下,模型不能直接产生高质量的输出,但它可以通过组合几个较小的步骤来产生它们。这是思维链提示背后的关键思想,它可以通过从更简单的例子中引导来教模型越来越复杂的算术。

生成无限数据

即使在技术上可以为各种任务生成有用的合成数据,生成所需的计算开销也可能阻碍其在实践中的应用。我们可以尝试估计与扩展自然数据集的基准相比,使用合成数据来扩展模型需要多少额外的计算量。

假设我们有一个前沿模型作为数据生成器,并想训练一个计算量是生成器 10 倍的目标模型。我们希望新模型达到与在自然数据上训练获得的质量相似的水平。在之前的工作中,我们量化了在推理时花费更多计算是如何提高模型输出质量的。具体来说,我们发现思维链可以带来 10 倍的计算等效增益,同时将推理成本提高 10 倍。

这意味着将生成器在推理过程中的计算使用量增加 10 倍 (通过逐步生成输出) 可以将输出的质量提高到在 10 倍以上计算量上训练的模型的水平。然后,我们可以在这些高质量的输出上训练我们的新模型,以达到所需的性能水平。

假设新模型的训练方式在计算上是最优的,那么生成新训练数据集的计算成本将与训练新模型的成本相似 ([89])。因此,与使用自然数据相比,使用合成数据将使训练模型的计算需求翻倍。

在合成数据生成上花费如此多的计算来进行训练并非史无前例:DeepMind 在游戏模拟上花费的计算量大约是训练 AlphaGo Zero 底层模型的 100 倍。然而,这只是推测;例如,我们还没有看到这种技术成功地大规模应用于前沿模型的预训练。

使用合成数据有一些障碍。首先是模型崩溃的可能性:过度依赖合成数据可能会导致模型能力的退化或停滞。目前还不清楚我们引入的自我纠正机制是否足以避免这种情况,尽管有一些有希望的迹象。

增加用于数据生成的计算资源可以通过两种方法提高合成训练数据的质量:生成许多候选数据,然后筛选出高质量的数据;以及采用计算密集型方法(例如思维链推理)直接生成高质量的输出。然而,随着计算投入的增加,这种策略可能会面临收益递减的问题。当验证或质量评估过程不完善时,即使增加计算资源,数据质量的提升也可能会停滞不前 ([90])。

合成数据在验证简单的领域(例如数学和编码)或在收集高质量人工标注数据可能具有挑战性或成本高昂的少数领域(例如工具使用、长上下文数据或偏好数据)中已经很有用。基于这些成功案例以及我们讨论的直觉,我们认为在比目前已证实的更广泛的领域中,生成高质量的合成数据是可行的,但这仍然不确定。在这种情况下,数据可用性可能不会对模型扩展构成限制,因为只要计算资源充足,就可以按需生成更多数据。

我们预计合成数据可能有助于克服数据瓶颈。然而,关于这个主题的研究还处于初期阶段,现有证据好坏参半,因此在本文中,我们保守地依赖于多模态数据的估计,排除了所有类型的合成数据。

延迟墙

AI 扩展的另一个潜在限制是延迟。模型处理单个数据点需要一定的最小时间,这个延迟会随着模型大小的增加而增长。训练数据被分成批次,批次中的数据可以并行处理,但批次的大小是有限制的。因此,训练的持续时间至少是处理一个批次所需的时间乘以训练批次数(训练数据集大小除以批次大小)。给定有限的训练时间,这种动态限制了模型的大小和可用于训练的数据量,从而限制了训练的总规模 ([91])。

对于目前的训练来说,延迟并不是一个大问题,因为典型的延迟非常小。然而,随着模型规模的扩大,由于跨层操作的顺序性,最小延迟会增加,因此在更大规模的训练中,延迟可能会变得更加重要。

训练可以通过增加批次大小来部分解决延迟问题,从而允许并行处理更多数据。特别是,增加批次大小可以提高随机梯度下降的收敛速度,但代价是需要更多的计算资源。这使得我们能够以每个批次更高的计算成本为代价来加快训练速度,而不会显著增加训练所需的总计算量。然而,超过“临界批次大小”后,进一步增加批次大小的收益会急剧减少。因此,无限期地扩大批次大小是低效的,在更大的数据集上训练模型需要增加需要按顺序处理的批次数。

为了量化这个瓶颈的规模,我们研究了训练大型 Transformer 模型相关的延迟来源。假设批次大小为 6000 万个 Token(据推测是 GPT-4 的批次大小),我们估计训练的计算量在 2e30 到 2e32 FLOP 之间,这将导致每层至少 270 到 400 微秒 (µs) 的 NVLINK 和 Infiniband 通信延迟。

然而,这可能低估了,因为我们预计临界批次大小可能会随着模型大小而变化。假设批次大小可以按模型大小的立方根粗略缩放,我们估计 3e30 到 1e32 FLOP 的训练规模是可行的,这将使用现代硬件导致至少 290 到 440 µs 的延迟 ([92])。

节点内延迟下的延迟墙

我们首先分析节点内延迟,即与托管多个 GPU 的单个节点(服务器)相关的延迟。在这种情况下,有两种最相关的延迟:内核延迟,它衡量单个矩阵乘法(matmul)所需的时间;以及通信延迟,它衡量在 GPU 之间传播结果所需的时间。

我们将这两种延迟的估计值基于常用的机器学习硬件。Erdil 和 Schneider-Joseph(即将出版)的实验表明,A100 GPU 的内核延迟约为 4.5 µs。同时,8-GPU NVLINK pod 中 all-reduce 操作的通信延迟约为 9.2 µs ([93])。因此,NVLINK pod 中每次 matmul 操作的总基准延迟约为 13.7 µs。

每个 Transformer 层的延迟可以直接计算出来。标准仅解码器 Transformer 模型的每一层都涉及四个连续的矩阵乘法 ([94]),我们必须两次通过每一层(用于前向和后向传递)。因此,每层每批次的最小延迟是单个矩阵乘法的八倍,即 110 µs。

为了估计延迟墙允许的最大训练规模,我们需要对层数和训练数据量的缩放做一些假设。我们假设模型中的层数大致是参数数量的立方根 ([95]),并且训练数据集大小将与参数数量成比例地缩放,遵循 Chinchilla 规则。假设每层最小延迟为 120 µs,批次大小为 6000 万个 Token,我们发现可以在九个月内训练的最大模型的参数量为 700 万亿,这允许 Chinchilla 最优模型的计算量达到 6e31 FLOP。请注意,如果 NVIDIA 集体通信库 (NCCL) 的 all-reduce 操作的延迟对于中等大小的消息比报告的要慢,那么这个估计值可能过于乐观 ([96, 97, 98])。

节点间延迟下的延迟墙

到目前为止,我们只考虑了节点内延迟。这在某种程度上是合理的;张量并行通常完全在 8-GPU NVLINK pod 中进行,正是为了避免每次连续矩阵乘法时在节点之间进行通信。然而,持续扩展需要节点间通信,这会增加延迟。

特别是,使用标准的 InfiniBand 树形拓扑,节点之间的延迟与通信节点数的对数成正比。使用 NVIDIA 集体通信库 (NCCL),all-reduce 操作至少需要 ,其中 是 pod 内参与的 GPU 数量, 是参与的 pod 数量(这包括通信和内核延迟)([99])。

对于使用 2D 张量并行性的训练,pod 的数量对应于为 2D 张量并行计算进行协调的 GPU 数量。例如,一个执行 TP 路 2D 张量并行训练的集群需要同步 TP 个 GPU,平均每个 8-GPU pod 中有 2.75 个 GPU 进行通信,总共有 个 pod。

例如,一个使用 2000 路 2D 张量并行性的 3 亿 H100 GPU 的集群,每次 all-reduce 操作将涉及 个 pod,产生 7.4 µs + 2 x (2.75 x 0.6 µs + log2(16) x 5 µs) = 50 µs 的延迟,这对应于每层每批次 8 x 50 µs = 400 µs 的延迟。根据硬件效率预测,这是在 9 个月内以 6000 万的批次大小训练最大模型的集群规模,可以达到 7e30 FLOP ([100])。

如何减少这些延迟?

改进集群拓扑可以显著降低通信延迟。例如,网状拓扑可以避免节点间延迟的对数缩放,但代价是数据中心内更复杂的网络设置(因为需要所有节点之间直接连接)。

另一种解决方案是使用每 pod 更多 GPU 的更大服务器,以减少节点间延迟,或者使用更高效的通信协议。例如,Meta 为训练 Llama 3.1 创建了 NVIDIA 集体通信库 (NCCL) 的一个分支 NCCLX,该分支针对高延迟环境进行了优化,他们声称可以在通信过程中减少数十微秒。

或者,我们可以尝试增加批次大小或减少层数。OpenAI 先前的研究将临界批次大小(超过该值后,训练收益会大幅减少)与梯度相对于训练数据的分散程度联系起来。基于此,Erdil 和 Schneider-Joseph(即将出版)推测,批次大小可以与可约模型损失的倒数成比例地缩放,根据 Chinchilla 规则,该损失大致按模型参数数量的立方根缩放 ([101])。如果这成立,它将把延迟墙推迟一个数量级的缩放,请参见下图 6。

关于层数应如何缩放以及是否可以减少的研究很少。一些实验工作表明,可以修剪掉已训练 Transformer 模型多达一半的中间层,而性能只会略微下降。这表明在训练之前删除一些层可能是可行的,尽管目前还不清楚。目前,我们忽略这种可能性。

考虑到不确定性,我们得出结论,要扩展到超过 1e32 FLOP,需要改变网络拓扑,或者采用其他方法以比理论论证所建议的更快的速度扩展批次大小或以更慢的速度扩展层数。

<img src="/content-img/epoch16

哪个限制最严格?

到目前为止,我们已经单独 بررسی了 AI 扩展的四个主要瓶颈。综合考虑这些瓶颈,到 2030 年,2e29 FLOP 的训练规模将是可行的。这将比现有模型扩大 10000 倍左右,这意味着 AI 扩展的历史趋势可以持续到 2030 年(参见图 7)([102])。

深色阴影框对应于四分位数间距,浅色阴影区域对应于 80% 置信区间。

最严格的限制是电力和芯片供应——见图 7。在这两者中,电力可能更具可塑性——能源行业的集中度较低,并且有 100 GW 规模电力供应扩张的先例,如果提前三到五年规划,供应商应该能够执行。扩大芯片制造面临多重挑战:高级封装等关键工艺大部分已经分配给数据中心 GPU,而建造新的晶圆厂需要大量的资本投资和高度专业化的劳动力。

数据是最不确定的瓶颈,其不确定性范围跨越四个数量级。多模态数据对于提高推理能力的作用可能有限,而且我们对这类数据的可用库存、质量以及当前分词方法效率的估计不如基于文本的数据那么确定。最终,合成数据可能会无限扩展,但计算成本很高。

最后,虽然延迟墙是一个遥远的限制,但它即将成为一个需要克服的障碍。采用更复杂的网络拓扑(例如更大的 pod 或 pod 之间更多连接)可能会推迟延迟墙的到来。

实验室会尝试扩展到这些新高度吗?

我们发现,根据对关键 AI 瓶颈的当前趋势进行推断,到 2030 年,2e29 FLOP 的训练规模将是可行的。实现这一规模将符合趋势:迄今为止最大规模的训练大约是 5e25 FLOP,按照每年 4 倍的历史趋势再发展六年,将得到使用大约 2e29 FLOP 训练的模型。进行这种规模训练所需的集群的成本将高达数千亿美元 ([103])。AI 行业真的会寻求训练如此规模的模型吗?

迄今为止,增加 AI 模型的规模一直能够提高其性能。这灌输了一种以规模为中心的 AI 发展观,导致训练的支出每年增长约 2.5 倍。早期迹象表明,这种趋势可能会持续下去。值得注意的是,据报道,Microsoft 和 OpenAI 正在计划一个名为“Stargate”的数据中心项目,该项目可能耗资高达 1000 亿美元,计划于 2028 年启动。这表明大型科技公司确实在准备实现我们正在考虑的巨大规模。

从 GPT-4 扩展到相当于 GPT-6 的模型,再加上算法的重大改进和训练后的改进,可能会进一步证明 AI 系统具有足够大的经济回报潜力。这种证据可能体现在像 GPT-5 这样的新型模型在发布后的第一年内就能产生超过 200 亿美元的收入;AI 功能的重大进步,使模型能够无缝集成到现有工作流程中,操纵浏览器窗口或虚拟机,并在后台独立运行。我们预计,这些发展可能会让 AI 实验室及其支持者相信这些系统具有巨大的潜在价值。

能够自动化大部分经济任务的 AI 的潜在回报是巨大的。一个经济体可能会投资数万亿美元来建设其计算相关资本存量,包括数据中心、半导体制造厂和光刻机,这是合理的。为了理解这种潜在投资的规模,请考虑全球劳动报酬每年约为 60 万亿美元。即使不考虑 AI 自动化带来的经济增长加速,如果开发能够有效替代人类劳动的 AI 变得可行,那么即使只为了获取这 60 万亿美元资金流的一小部分,投资数万亿美元也是经济合理的。

标准经济模型预测,如果 AI 自动化达到可以替代大多数或所有人类劳动力的程度,经济增长可能会加速十倍或更多。在短短几十年内,这种加速增长可能会使经济产出增加几个数量级。考虑到这种潜力,更早地实现完全或接近完全的自动化可能相当于全球产出的很大一部分。认识到这一巨大价值,投资者可能会将很大一部分资本从传统行业转向 AI 开发及其基本基础设施(能源生产和分配、半导体制造厂、数据中心)。这种前所未有的经济增长潜力可能会推动数万亿美元的 AI 开发投资 ([104])。

最终确定公司或政府是否准备好为大规模训练投入数百亿美元的问题超出了本文的范围。但我们认为这至少是合理的,这就是我们进行这项分析的原因。

结论

在本文中,我们通过分析扩展训练所需的关键因素的可用性和潜在限制,估算了到 2030 年 AI 训练的最大可行规模。我们 بررسی了四类瓶颈(电力限制、芯片制造能力、数据稀缺性和延迟墙),以确定它们在何时可能导致更大规模的训练变得不可行。我们的主要结果是:根据当前趋势,到 2030 年,2e29 FLOP 的训练规模将是可行的。换句话说,到 2030 年,AI 实验室很可能能够训练一个模型,其规模超过 GPT-4 的程度与 GPT-4 的训练计算量超过 GPT-2 的程度相同。

训练规模超过这些规模可能不可行的最可能原因之一是电网能够提供的电力。由于电网级别的限制、碳排放承诺和政治因素,到 2030 年大幅扩展数据中心的电力供应可能具有挑战性。

第二个关键限制是每年制造数千万个 H100 等效芯片的能力有限。即使相关的制造能力主要用于生产 GPU 或其他 AI 加速器,如果资本支出在未来十年没有大幅加速,产能也可能会受到限制。

总体而言,这些限制仍然允许 AI 实验室在本世纪十年以每年 4 倍的速度扩展,但这提出了需要解决的主要挑战,才能继续进步。

如果真的进行了这种规模的 AI 训练,那将具有巨大的意义。AI 可能会吸引数千亿美元的投资,成为人类历史上最大的技术项目。纯粹的规模转化为更高的性能和通用性,这表明到 2030 年,我们可能会看到 AI 领域取得与我们自本世纪初以来所经历的同样重大的进步。

最后,通过我们的工作,我们已经努力解决了我们在预测 AI 技术发展轨迹时所面临的不确定性。尽管电力限制和芯片制造非常重要,但它们仍然是不确定的。我们将在未来的工作中更深入地研究这些问题。

感谢 Anson Ho、David Owen、Konstantin Pilz、Benjamin Todd、Romeo Dean、Michael Dickens、Max Negele、David Schneider-Joseph、Andy Lubershane、Natalia Martemianova、Ying Yi、Luke Frymire、Peter Wildeford、Jean-Stanislas Denain、Trevor Gaunt、David Mathers、Dylan Patel、Carl Shulman、Ajeya Cotra、Alexander Erben、Ryan Greenblatt、Tim Fist。