出口管制 | FisherAI

DeepSeek 开源的推理模型 R1 影响力太大，从 1 月 20 号开源到现在已经一周多了，国内外社交媒体上仍然在讨论，热度不减，同时也登顶了中国、美国、英国等多个国家的 App Store 的下载榜榜首，离谱的是甚至让英伟达的股价暴跌了 17%，原因是 R1 的能力水平与 OpenAI 的 o1 相媲美，但成本仅为o1的3%-5%，训练成本仅为560万美元。投资者担心，DeepSeek的突破可能会减少对英伟达高端GPU的需求，从而影响公司的盈利能力。连 OpenAI CEO 和 Anthropic CEO 都亲自下场讨论（酸一下），可见其影响力之大。本文是 Anthropic CEO Dario Amodei 撰写的一篇有关 DeepSeek 的文章。其的核心观点是，尽管中国 AI 公司 DeepSeek 在降低 AI 模型成本和提升性能方面取得了显著进展，但这非但没有削弱，反而更加强调了美国对华芯片出口管制的重要性。作者认为，出口管制是确保民主国家在 AI 发展中保持领先地位，并防止中国在 AI 领域取得军事主导地位的关键手段。DeepSeek 的技术进步，实际上是在预期的 AI 成本降低趋势之内，而非颠覆性的突破，因此不能被视为放松出口管制的理由。 DeepSeek 的模型进展： DeepSeek 发布了 DeepSeek-V3 和 R1 两款模型。 DeepSeek-V3 作为预训练模型，在某些任务上性能接近美国最先进的模型，且训练成本更低，这主要归功于其在工程效率上的创新，例如改进了 Key-Value cache 管理和 mixture of experts 方法。然而，DeepSeek-V3 的性能仍落后于某些美国模型（如 Claude 3.5 Sonnet），且其成本降低幅度与 AI 领域正常的成本下降趋势（约每年 4 倍）基本一致，并非革命性的经济变革。 R1 模型则是在 V3 的基础上增加了强化学习（RL）训练阶段，类似于 OpenAI 的 o1 模型，表明多家公司在推理模型方面都取得了进展，但这主要是因为目前正处于 RL 技术扩展的早期阶段。 AI 发展的三个基本动态：理解 AI 发展需要关注三个动态。 Scaling laws，即模型训练规模越大，性能越好。 Shifting the curve，指算法和硬件的进步不断提高训练效率，降低成本。作者估计，目前成本曲线的下降速度约为每年 4 倍。 Shifting the paradigm，指训练范式的转变，例如从预训练模型到使用强化学习训练推理模型，这会带来新的扩展机会和性能提升。出口管制的重要性：尽管 AI 模型训练成本在降低，但为了追求更强大的 AI，总体的研发投入仍在持续增加。作者预测，到 2026-2027 年，实现超越人类的通用 AI 可能需要数百万芯片和数百亿美元的投入。出口管制是阻止中国获得大量先进芯片，从而避免中美在 AI 领域形成 “两极世界” 的关键。在 “两极世界” 中，中国可能集中资源发展军事 AI，从而取得全球主导地位。有效的出口管制有助于维持 “单极世界”，即美国及其盟友在 AI 领域保持长期领先优势。 DeepSeek 的案例并非出口管制失败的证据： DeepSeek 拥有相当数量的芯片（约 5 万片 Hopper 架构芯片），因此能够训练出高性能模型并不意外。出口管制的目的不是阻止中国获得少量芯片，而是阻止其获得支撑大规模 AI 发展的数百万芯片。 DeepSeek 目前拥有的芯片类型（包括 H100、H800 和 H20）表明，出口管制在一定程度上是有效的，中国可能通过走私和利用管制漏洞获取部分芯片，但也面临着获取最先进芯片和大规模芯片的限制。加强和完善出口管制，仍然是阻止中国在 AI 领域取得决定性优势的关键。原文几周前，我撰文指出，美国应该对出口到中国的芯片实施更严格的管制。此后，中国的人工智能公司 DeepSeek 设法在某些方面，至少在某些特定基准测试上，在性能上逼近了美国最先进的 AI 模型，而且成本更低。我在这里不打算讨论 DeepSeek 是否对 Anthropic 这样的美国 AI 公司构成威胁 (尽管我认为关于它们威胁美国 AI 领导地位的说法被严重夸大了) 1。相反，我将重点探讨 DeepSeek 的发布是否削弱了对芯片出口管制政策的必要性。我认为并没有。事实上，我认为这些发布使得出口管制政策比一周前更加至关重要2。出口管制的一个重要作用是：确保民主国家在 AI 发展中保持领先地位。需要明确的是，出口管制不是为了逃避美国和中国之间的竞争。最终，如果想要在竞争中获胜，美国和其他民主国家的 AI 公司必须拥有比中国更好的模型。但是，我们不应该在不必要的情况下，将技术优势拱手让给中国共产党。 AI 发展的三个关键动态在阐述我的政策观点之前，我想先描述 AI 系统的三个基本动态，理解这些动态至关重要：缩放定律 (Scaling laws)。我和我的联合创始人在 OpenAI 工作时，是最早记录 AI 这一特性的：在所有条件相同的情况下，扩大 AI 系统的训练规模，通常会在各种认知任务上带来更平滑、更好的结果。例如，一个价值 100 万美元的模型可能解决 20% 的重要编码任务，一个价值 1000 万美元的模型可能解决 40%，一个价值 1 亿美元的模型可能解决 60%，以此类推。这些差异在实际应用中通常会产生巨大影响——10 倍的规模提升可能相当于本科生和博士生之间的技能水平差异——因此，各公司都在大力投资训练这些模型。曲线的改变 (Shifting the curve)。该领域不断涌现出各种各样的创新想法，从而提高效率：例如改进模型的架构 (对目前所有模型都采用的 Transformer (转换器) 架构进行调整) ，或者改进模型在底层硬件上的运行效率。新一代硬件也会产生类似的效果。这些创新通常会改变缩放曲线：如果某项创新带来了 2 倍的 “计算效率提升倍数 (compute multiplier)” (CM)，那么你就可以用 500 万美元而不是 1000 万美元的成本，在编码任务上获得 40% 的性能；或者用 5000 万美元而不是 1 亿美元的成本获得 60% 的性能。每个顶尖的 AI 公司都会定期发现许多这样的 CM：小的 (约 1....