DeepSeek 开源的推理模型 R1 影响力太大,从 1 月 20 号开源到现在已经一周多了,国内外社交媒体上仍然在讨论,热度不减,同时也登顶了中国、美国、英国等多个国家的 App Store 的下载榜榜首,离谱的是甚至让英伟达的股价暴跌了 17%,原因是 R1 的能力水平与 OpenAI 的 o1 相媲美,但成本仅为o1的3%-5%,训练成本仅为560万美元。投资者担心,DeepSeek的突破可能会减少对英伟达高端GPU的需求,从而影响公司的盈利能力。连 OpenAI CEO 和 Anthropic CEO 都亲自下场讨论(酸一下),可见其影响力之大。

本文是 Anthropic CEO Dario Amodei 撰写的一篇有关 DeepSeek 的文章。其的核心观点是,尽管 中国 AI 公司 DeepSeek 在降低 AI 模型成本和提升性能方面取得了显著进展,但这非但没有削弱,反而更加强调了美国对华芯片出口管制的重要性。作者认为,出口管制是确保民主国家在 AI 发展中保持领先地位,并防止中国在 AI 领域取得军事主导地位的关键手段。DeepSeek 的技术进步,实际上是在预期的 AI 成本降低趋势之内,而非颠覆性的突破,因此不能被视为放松出口管制的理由。

  1. DeepSeek 的模型进展: DeepSeek 发布了 DeepSeek-V3 和 R1 两款模型。
  • DeepSeek-V3 作为预训练模型,在某些任务上性能接近美国最先进的模型,且训练成本更低,这主要归功于其在工程效率上的创新,例如 改进了 Key-Value cache 管理和 mixture of experts 方法。然而,DeepSeek-V3 的性能仍落后于某些美国模型(如 Claude 3.5 Sonnet),且其成本降低幅度与 AI 领域正常的成本下降趋势(约每年 4 倍)基本一致,并非革命性的经济变革。
  • R1 模型则是在 V3 的基础上增加了强化学习(RL)训练阶段,类似于 OpenAI 的 o1 模型,表明多家公司在推理模型方面都取得了进展,但这主要是因为目前正处于 RL 技术扩展的早期阶段。
  1. AI 发展的三个基本动态: 理解 AI 发展需要关注三个动态。
  • Scaling laws,即模型训练规模越大,性能越好。
  • Shifting the curve,指算法和硬件的进步不断提高训练效率,降低成本。作者估计,目前成本曲线的下降速度约为每年 4 倍。
  • Shifting the paradigm,指训练范式的转变,例如从预训练模型到使用强化学习训练推理模型,这会带来新的扩展机会和性能提升。
  1. 出口管制的重要性:
  • 尽管 AI 模型训练成本在降低,但为了追求更强大的 AI,总体的研发投入仍在持续增加。作者预测,到 2026-2027 年,实现超越人类的通用 AI 可能需要数百万芯片和数百亿美元的投入。
  • 出口管制是阻止中国获得大量先进芯片,从而避免中美在 AI 领域形成 “两极世界” 的关键。在 “两极世界” 中,中国可能集中资源发展军事 AI,从而取得全球主导地位。有效的出口管制有助于维持 “单极世界”,即美国及其盟友在 AI 领域保持长期领先优势。
  1. DeepSeek 的案例并非出口管制失败的证据:
  • DeepSeek 拥有相当数量的芯片(约 5 万片 Hopper 架构芯片),因此能够训练出高性能模型并不意外。
  • 出口管制的目的不是阻止中国获得少量芯片,而是阻止其获得支撑大规模 AI 发展的数百万芯片。
  • DeepSeek 目前拥有的芯片类型(包括 H100、H800 和 H20)表明,出口管制在一定程度上是有效的,中国可能通过走私和利用管制漏洞获取部分芯片,但也面临着获取最先进芯片和大规模芯片的限制。
  • 加强和完善出口管制,仍然是阻止中国在 AI 领域取得决定性优势的关键。

原文

几周前,我 撰文指出,美国应该对出口到中国的芯片实施更严格的管制。此后,中国的人工智能公司 DeepSeek 设法在某些方面,至少在某些特定基准测试上, 在性能上逼近了美国最先进的 AI 模型,而且成本更低。

我在这里不打算讨论 DeepSeek 是否对 Anthropic 这样的美国 AI 公司构成威胁 (尽管我认为关于它们威胁美国 AI 领导地位的说法被严重夸大了) 1。相反,我将重点探讨 DeepSeek 的发布是否削弱了对芯片出口管制政策的必要性。我认为并没有。事实上, 我认为这些发布使得出口管制政策比一周前更加至关重要2

出口管制的一个重要作用是:确保民主国家在 AI 发展中保持领先地位。需要明确的是,出口管制不是为了逃避美国和中国之间的竞争。最终,如果想要在竞争中获胜,美国和其他民主国家的 AI 公司必须拥有比中国更好的模型。但是,我们不应该在不必要的情况下,将技术优势拱手让给中国共产党。

AI 发展的三个关键动态

在阐述我的政策观点之前,我想先描述 AI 系统的三个基本动态,理解这些动态至关重要:

  1. 缩放定律 (Scaling laws)。 我和我的联合创始人在 OpenAI 工作时,是最早 记录 AI 这一特性的:在所有条件相同的情况下扩大 AI 系统的训练规模,通常会在各种认知任务上带来更平滑、更好的结果。例如,一个价值 100 万美元的模型可能解决 20% 的重要编码任务,一个价值 1000 万美元的模型可能解决 40%,一个价值 1 亿美元的模型可能解决 60%,以此类推。这些差异在实际应用中通常会产生巨大影响——10 倍的规模提升可能相当于本科生和博士生之间的技能水平差异——因此,各公司都在大力投资训练这些模型。

  2. 曲线的改变 (Shifting the curve)。 该领域不断涌现出各种各样的创新想法,从而提高效率:例如改进模型的架构 (对目前所有模型都采用的 Transformer (转换器) 架构进行调整) ,或者改进模型在底层硬件上的运行效率。新一代硬件也会产生类似的效果。这些创新通常会 改变缩放曲线:如果某项创新带来了 2 倍的 “计算效率提升倍数 (compute multiplier)” (CM),那么你就可以用 500 万美元而不是 1000 万美元的成本,在编码任务上获得 40% 的性能;或者用 5000 万美元而不是 1 亿美元的成本获得 60% 的性能。每个顶尖的 AI 公司都会定期发现许多这样的 CM:小的 (约 1.2x),中等的 (约 2x),有时也会有非常大的 (约 10x)。由于拥有更智能的系统价值巨大,这种缩放曲线的改变通常会导致公司 在模型训练上投入更多,而不是更少:成本效率的提升最终完全用于训练更智能的模型,而唯一的限制是公司的财政资源。人们很容易产生一种 “先贵后贱” 的想法,认为 AI 的质量恒定不变,当成本降低时,训练所需的芯片数量也会减少。但重要的是缩放曲线:当它发生改变时,我们只是更快地沿着曲线向上移动,因为曲线尽头的价值非常高。2020 年,我的团队发表了 一篇论文,指出由于算法进步,缩放曲线每年大约改变 1.68 倍。此后,这个速度可能明显加快,而且这个数据没有考虑效率和硬件的进步。我估计现在的数字可能约为每年 4 倍。 这里提供了另一个估算。训练曲线的改变也会影响推理曲线,因此,在模型质量不变的情况下,价格多年来一直在大幅下降。例如,Claude 3.5 Sonnet 的发布时间比最初的 GPT-4 晚了 15 个月,但在几乎所有的基准测试中都优于 GPT-4,而 API 价格却降低了约 10 倍。

  3. 新范式的出现 (Shifting the paradigm)。每隔一段时间,被缩放的底层技术会发生一些变化,或者在训练过程中增加新的缩放方式。从 2020 年到 2023 年,主要被缩放的是预训练模型:即在大量互联网文本上训练的模型,并在此基础上进行少量其他训练。到了 2024 年,利用强化学习 (RL) 来训练模型生成思维链的理念,成为了新的缩放重点。Anthropic、DeepSeek 和其他许多公司 (最值得一提的可能是 OpenAI,他们在 9 月份发布了 o1-preview 模型) 发现,这种训练方式可以显著提高模型在某些特定任务上的性能,例如数学、编程竞赛以及类似的推理任务。这种新范式包括首先使用普通的预训练模型,然后在第二阶段使用 RL 来添加推理能力。重要的是,由于这种 RL 方式是全新的,我们仍然处于缩放曲线的早期阶段:所有参与者在第二阶段 RL 上投入的资金都很少。投入 100 万美元而不是 10 万美元就足以获得巨大的提升。各公司目前正在迅速将第二阶段的投入增加到数亿甚至数十亿美元,但我们需要理解,我们正处于一个独特的 “交叉点”,即一种强大的新范式正处于缩放曲线的早期阶段,因此可以快速取得显著进展。

DeepSeek 的模型

理解上述三个动态可以帮助我们分析 DeepSeek 最近发布的模型。大约一个月前,DeepSeek 发布了一个名为 “DeepSeek-V3” 的模型,它是一个纯粹的预训练模型 3,即上述第三点中描述的第一阶段。上周,他们又发布了 “R1”,其中增加了第二阶段的训练。我们无法从外部完全了解这些模型,但我尽力总结了对这两次发布的理解。

DeepSeek-V3 实际上是一项真正的创新,它本应在一个月前就引起人们的注意 (我们确实注意到了)。作为一个预训练模型,它在某些重要任务上的性能似乎 接近了4 美国最先进的模型,而且训练成本显著降低 (尽管我们发现,尤其在实际编程等一些关键任务上,Claude 3.5 Sonnet 仍然表现出色得多)。DeepSeek 的团队通过一些真正令人印象深刻的创新实现了这一点,这些创新主要集中在提高工程效率上。他们在管理 “键值缓存 (Key-Value cache)” 以及进一步推进 “专家混合 (mixture of experts)” 方法方面取得了特别的创新进展。

然而,我们需要更仔细地分析:

  • DeepSeek 并没有 “用 600 万美元5 实现了美国 AI 公司花费数十亿美元才能实现的目标”。我只能代表 Anthropic 发言,但 Claude 3.5 Sonnet 是一个中等规模的模型,其训练成本为数千万美元 (我不会给出确切数字)。而且,3.5 Sonnet 的训练过程没有采用任何涉及更大或更昂贵模型的方式 (与一些传闻相反)。Sonnet 的训练是在 9 到 12 个月前进行的,而 DeepSeek 的模型是在 11 月/12 月训练的。在许多内部和外部评估中,Sonnet 的性能仍然明显领先。因此,我认为一个公正的说法是: “DeepSeek 以更低的成本 (但远没有人们所说的那么夸张),开发出了一款性能接近美国 7 到 10 个月前模型的模型”。

  • 如果成本曲线的历史下降趋势约为每年 4 倍,这意味着在正常的商业环境下,按照 2023 年和 2024 年的历史成本下降趋势,我们现在应该看到一款比 3.5 Sonnet/GPT-4o 便宜 3 到 4 倍的模型。由于 DeepSeek-V3 的性能不如美国那些顶尖的模型——假设在缩放曲线上差约 2 倍,我认为这对 DeepSeek-V3 来说已经相当宽容了——这意味着,如果 DeepSeek-V3 的训练成本比一年前开发的美国模型低 8 倍左右,那将完全正常,符合当前趋势。我不会给出具体数字,但从前面的要点可以清楚地看出,即使你按字面意义理解 DeepSeek 的训练成本,它们最多也只是符合趋势,甚至可能还达不到。例如,这不如最初的 GPT-4 到 Claude 3.5 Sonnet 推理价格之间的差异 (10 倍) 那么显著,而 3.5 Sonnet 的模型性能优于 GPT-4。 总而言之,DeepSeek-V3 并非一项独特的突破,也没有从根本上改变大语言模型 (LLM) 的经济性;它只是当前成本下降趋势线上的一个预期点。这次的不同之处在于,第一个展示预期成本降低的公司是一家中国公司。 这种情况前所未有,并且具有重要的地缘政治意义。然而,美国公司很快也会效仿——他们不会通过复制 DeepSeek 来做到这一点,而是因为他们也在努力实现成本的正常下降。

  • DeepSeek 和美国 AI 公司现在拥有的资金和芯片都比以前训练其顶尖模型时多得多。额外的芯片被用于研发以开发模型背后的理念,有时也用于训练尚未准备好 (或需要多次尝试才能成功) 的更大模型。据报道——我们无法确定其真实性——DeepSeek 实际拥有 50,000 个 Hopper 架构的芯片6,我估计这与美国主要的 AI 公司拥有的芯片数量差距在 2 到 3 倍之间 (例如,比 xAI 的 “Colossus” 集群少 2 到 3 倍) 7。这 50,000 个 Hopper 芯片的成本约为 10 亿美元。 因此,DeepSeek 作为公司的总支出 (与训练单个模型的支出不同) 与美国 AI 实验室的支出并没有显著差异。

  • 值得注意的是,“缩放曲线” 的分析有些过于简化,因为不同的模型各有特点,并且具有不同的优势和劣势;缩放曲线数字只是一个粗略的平均值,忽略了很多细节。我只能谈论 Anthropic 的模型,正如我上面所暗示的,Claude 在编程和与用户进行有效互动方面非常出色 (许多人将其用于个人建议或支持)。在这些以及其他一些任务上,DeepSeek 的模型根本无法与之匹敌。这些因素不会体现在缩放数字中。

R1 是上周发布的模型,它引发了公众的广泛关注 (包括 英伟达股票下跌约 17%),但从创新或工程角度来看,它远不如 V3 有趣。它增加了训练的第二阶段——强化学习,即上一节第 3 点中描述的内容——并且基本上复刻了 OpenAI 在 o1 模型上的做法 (它们的规模和结果似乎相似)8。然而,由于我们正处于缩放曲线的早期阶段,只要拥有一个强大的预训练模型作为基础,多家公司都有可能开发出这种类型的模型。在 V3 的基础上开发 R1 模型的成本可能很低。因此,我们正处于一个有趣的“交叉点”,即暂时出现多家公司能够开发出优秀的推理模型的情况。但随着大家都在这些模型上进一步提升缩放曲线,这种情况将很快消失。

出口管制

以上内容都是为了引出我主要想讨论的主题:对出口到中国的芯片的管制。综合以上事实,我对当前情况的看法如下:

  • 目前存在一个趋势,即各公司 在训练强大的 AI 模型上投入越来越多,即使缩放曲线会定期改变,以及训练特定智能水平的模型的成本迅速下降。只是因为训练更智能模型的经济价值非常巨大,任何成本节省都几乎会立即被完全抵消——这些节省下来的资金会再次投入到开发更智能的模型中,而总成本仍然保持在我们最初计划的水平。如果美国实验室尚未发现 DeepSeek 开发的效率创新,这些创新很快会被美国和中国的实验室用于训练数十亿美元的模型。这些模型的性能将优于他们之前计划训练的数十亿美元模型,但他们仍然会投入数十亿美元。这个数字将会继续上升,直到我们开发出在几乎所有事情上都比几乎所有人更聪明的 AI。

  • 开发出在几乎所有事情上都比几乎所有人更聪明的 AI,将需要数百万个芯片,至少数百亿美元的投入,并且很可能在 2026 年到 2027 年之间实现。DeepSeek 发布的模型并不会改变这一趋势,因为它们基本上符合我们一直以来预期的成本下降曲线。

  • 这意味着在 2026 年到 2027 年,我们可能会面临两种截然不同的情况。在美国,多家公司肯定会拥有所需的数百万个芯片 (总成本将达数百亿美元)。问题是中国是否也能获得数百万个芯片 9

    • 如果他们可以,我们将生活在一个两极世界,美国和中国都将拥有强大的 AI 模型,这将导致科学和技术的飞速发展——我称之为 “数据中心里的天才之国”。两极世界并不一定会无限期地保持平衡。即使美国和中国在 AI 系统方面处于均势,中国似乎也可能会将更多的资源、人才和精力投入到 AI 技术的军事应用中。再加上其庞大的工业基础和军事战略优势,这可能会帮助中国在全球舞台上取得领先地位,不仅是在 AI 方面,而且在所有领域。
    • 如果中国无法获得数百万个芯片,我们 (至少暂时) 将生活在一个单极世界,只有美国及其盟友拥有这些模型。目前尚不清楚单极世界是否会持续存在,但至少存在一种可能性,即 由于 AI 系统最终可以帮助我们开发出更智能的 AI 系统,因此暂时的领先地位可能会转化为持久的优势10。因此,在这种情况下,美国及其盟友可能会在全球舞台上取得长期和主导地位。
  • 严格执行的出口管制11 是唯一可以阻止中国获得数百万个芯片的手段,因此,它也是决定我们最终将进入单极还是两极世界的最重要因素。

  • DeepSeek 的表现并不意味着出口管制失败了。正如我上面所说,DeepSeek 拥有的芯片数量不算少,因此他们能够开发和训练一个强大的模型并不奇怪。他们的资源限制并没有比美国 AI 公司多多少,出口管制也不是他们“创新”的主要原因。他们只是拥有一批非常有才华的工程师,这表明中国是美国的一个强大竞争对手。

  • DeepSeek 的成功也没有表明中国总能通过走私获得所需的芯片,或者这些管制总是存在漏洞。我不认为出口管制的初衷是阻止中国获得几万个芯片。价值 10 亿美元的经济活动可以隐藏起来,但很难隐藏 1000 亿美元甚至 100 亿美元。而且,走私数百万个芯片在物理上也可能非常困难。看看目前关于 DeepSeek 拥有的芯片的报道,也很有启发意义。 据 SemiAnalysis 称,它们拥有的芯片是 H100、H800 和 H20 的混合,总共约 5 万个。自发布以来,H100 一直受到出口管制,因此如果 DeepSeek 拥有任何 H100,那肯定是走私获得的 (需要注意的是,英伟达 已经声明 DeepSeek 的进展 “完全符合出口管制”)。H800 在 2022 年第一轮出口管制中是允许的,但在 2023 年 10 月管制 更新后被禁止,所以这些芯片可能是在禁令生效前发货的。H20 芯片的训练效率较低,但采样效率较高,而且目前仍然允许出口,但我认为它们应该被禁止。总而言之,DeepSeek 的 AI 芯片组中,很大一部分是由以下几种芯片构成的:未被禁止 (但应该被禁止) 的芯片,在被禁止前发货的芯片,以及很可能走私获得的芯片。这表明出口管制实际上正在发挥作用并不断调整:漏洞正在被堵住;否则,他们可能拥有一整套顶级的 H100 芯片。如果我们能够足够快地堵住这些漏洞,我们或许可以阻止中国获得数百万个芯片,从而增加美国主导的单极世界出现的可能性。

考虑到我对出口管制和美国国家安全的关注,我希望明确一点:我不认为 DeepSeek 本身是我们的对手,我们的目标也不是专门针对他们。在他们接受的采访中,他们看起来就像是聪明、好奇的研究人员,只是想开发出有用的技术。

但他们受到一个专制政府的控制,这个政府犯下了侵犯人权的罪行,在世界舞台上表现得咄咄逼人,并且如果他们能够在 AI 领域与美国匹敌,他们会更加肆无忌惮。出口管制是 我们阻止这种情况发生的最有力工具之一,认为技术变得更强大,性价比更高就应该取消出口管制,这完全是荒谬的。

脚注

  1. 1 我在这篇文章中不讨论关于西方模型被 “蒸馏” 的报告。在此,我只是相信 DeepSeek 的说法,他们按照论文中所述的方式训练了模型。

  2. 2 顺便说一句,我认为 DeepSeek 模型的发布显然对英伟达不是坏事,他们的股票因此下跌两位数 (约 17%) 是令人费解的。该版本对英伟达不是坏事的理由,比对 AI 公司不是坏事的理由更加充分。但我写这篇文章的主要目的是支持出口管制政策。

  3. 3 更准确地说,它是一个预训练模型,带有在推理范式转变之前模型中常见的少量 RL 训练。

  4. 4 它在一些非常狭窄的任务上表现更出色。

  5. 5 这是 DeepSeek 的论文中引用的数字——我按字面意思接受它,并且不怀疑这一部分,我只是怀疑它与美国公司模型训练成本的比较,以及训练特定模型的成本 (即 600 万美元) 与总研发成本 (后者要高得多) 之间的区别。然而,我们也无法完全确定 600 万美元这个数字——模型的大小可以验证,但像 token 数量等其他方面则无法验证。

  6. 6 在一些 采访 中,我说他们有 “50,000 个 H100”,这是对报告的轻微不准确的总结,我想在这里纠正一下。到目前为止,最著名的 “Hopper 芯片” 是 H100 (这也是我假设他们指的),但 Hopper 也包括 H800 和 H20,据报道 DeepSeek 拥有所有这三种芯片的混合,总共 50,000 个。这并没有改变大局,但值得纠正一下。我将在讨论出口管制时更多地讨论 H800 和 H20。

  7. 7 注意:由于出口管制,我预计下一代集群之间的差距将会显著扩大。

  8. 8 我认为 R1 引起如此多关注的主要原因之一是,它是第一个向用户展示模型所表现出的思维链推理过程的模型 (OpenAI 的 o1 模型只显示最终答案)。DeepSeek 展示了用户觉得这一点很有趣。需要明确的是,这是一个用户界面的选择,与模型本身无关。

  9. 9 请注意,中国自主研发的芯片在短期内无法与美国制造的芯片竞争。正如我在与 Matt Pottinger 合写的 最近的专栏文章 中所写的那样: “中国最好的 AI 芯片,华为 Ascend 系列,其性能远不如美国 Nvidia 制造的顶尖芯片。中国也可能没有足够的生产能力来满足不断增长的需求。目前在中国以外,没有一个值得一提的华为 Ascend 芯片集群,这表明中国正在努力满足其国内需求……”

  10. 10 需要明确的是,这里的目标不是剥夺中国或任何其他专制国家从非常强大的 AI 系统中获得的科学、医学、生活质量等方面的巨大益处。每个人都应该能够从 AI 中受益。目标是阻止它们获得军事统治地位。

  11. 11 这里提供多个链接,因为已经进行了多轮管制。以下是一些主要行动: