关于 DeepSeek 和出口管制 • Dario Amodei

DeepSeek 开源的推理模型 R1 影响力太大,从 1 月 20 号开源到现在已经一周多了,国内外社交媒体上仍然在讨论,热度不减,同时也登顶了中国、美国、英国等多个国家的 App Store 的下载榜榜首,离谱的是甚至让英伟达的股价暴跌了 17%,原因是 R1 的能力水平与 OpenAI 的 o1 相媲美,但成本仅为o1的3%-5%,训练成本仅为560万美元。投资者担心,DeepSeek的突破可能会减少对英伟达高端GPU的需求,从而影响公司的盈利能力。连 OpenAI CEO 和 Anthropic CEO 都亲自下场讨论(酸一下),可见其影响力之大。 本文是 Anthropic CEO Dario Amodei 撰写的一篇有关 DeepSeek 的文章。其的核心观点是,尽管 中国 AI 公司 DeepSeek 在降低 AI 模型成本和提升性能方面取得了显著进展,但这非但没有削弱,反而更加强调了美国对华芯片出口管制的重要性。作者认为,出口管制是确保民主国家在 AI 发展中保持领先地位,并防止中国在 AI 领域取得军事主导地位的关键手段。DeepSeek 的技术进步,实际上是在预期的 AI 成本降低趋势之内,而非颠覆性的突破,因此不能被视为放松出口管制的理由。 DeepSeek 的模型进展: DeepSeek 发布了 DeepSeek-V3 和 R1 两款模型。 DeepSeek-V3 作为预训练模型,在某些任务上性能接近美国最先进的模型,且训练成本更低,这主要归功于其在工程效率上的创新,例如 改进了 Key-Value cache 管理和 mixture of experts 方法。然而,DeepSeek-V3 的性能仍落后于某些美国模型(如 Claude 3.5 Sonnet),且其成本降低幅度与 AI 领域正常的成本下降趋势(约每年 4 倍)基本一致,并非革命性的经济变革。 R1 模型则是在 V3 的基础上增加了强化学习(RL)训练阶段,类似于 OpenAI 的 o1 模型,表明多家公司在推理模型方面都取得了进展,但这主要是因为目前正处于 RL 技术扩展的早期阶段。 AI 发展的三个基本动态: 理解 AI 发展需要关注三个动态。 Scaling laws,即模型训练规模越大,性能越好。 Shifting the curve,指算法和硬件的进步不断提高训练效率,降低成本。作者估计,目前成本曲线的下降速度约为每年 4 倍。 Shifting the paradigm,指训练范式的转变,例如从预训练模型到使用强化学习训练推理模型,这会带来新的扩展机会和性能提升。 出口管制的重要性: 尽管 AI 模型训练成本在降低,但为了追求更强大的 AI,总体的研发投入仍在持续增加。作者预测,到 2026-2027 年,实现超越人类的通用 AI 可能需要数百万芯片和数百亿美元的投入。 出口管制是阻止中国获得大量先进芯片,从而避免中美在 AI 领域形成 “两极世界” 的关键。在 “两极世界” 中,中国可能集中资源发展军事 AI,从而取得全球主导地位。有效的出口管制有助于维持 “单极世界”,即美国及其盟友在 AI 领域保持长期领先优势。 DeepSeek 的案例并非出口管制失败的证据: DeepSeek 拥有相当数量的芯片(约 5 万片 Hopper 架构芯片),因此能够训练出高性能模型并不意外。 出口管制的目的不是阻止中国获得少量芯片,而是阻止其获得支撑大规模 AI 发展的数百万芯片。 DeepSeek 目前拥有的芯片类型(包括 H100、H800 和 H20)表明,出口管制在一定程度上是有效的,中国可能通过走私和利用管制漏洞获取部分芯片,但也面临着获取最先进芯片和大规模芯片的限制。 加强和完善出口管制,仍然是阻止中国在 AI 领域取得决定性优势的关键。 原文 几周前,我 撰文指出,美国应该对出口到中国的芯片实施更严格的管制。此后,中国的人工智能公司 DeepSeek 设法在某些方面,至少在某些特定基准测试上, 在性能上逼近了美国最先进的 AI 模型,而且成本更低。 我在这里不打算讨论 DeepSeek 是否对 Anthropic 这样的美国 AI 公司构成威胁 (尽管我认为关于它们威胁美国 AI 领导地位的说法被严重夸大了) 1。相反,我将重点探讨 DeepSeek 的发布是否削弱了对芯片出口管制政策的必要性。我认为并没有。事实上, 我认为这些发布使得出口管制政策比一周前更加至关重要2。 出口管制的一个重要作用是:确保民主国家在 AI 发展中保持领先地位。需要明确的是,出口管制不是为了逃避美国和中国之间的竞争。最终,如果想要在竞争中获胜,美国和其他民主国家的 AI 公司必须拥有比中国更好的模型。但是,我们不应该在不必要的情况下,将技术优势拱手让给中国共产党。 AI 发展的三个关键动态 在阐述我的政策观点之前,我想先描述 AI 系统的三个基本动态,理解这些动态至关重要: 缩放定律 (Scaling laws)。 我和我的联合创始人在 OpenAI 工作时,是最早 记录 AI 这一特性的:在所有条件相同的情况下,扩大 AI 系统的训练规模,通常会在各种认知任务上带来更平滑、更好的结果。例如,一个价值 100 万美元的模型可能解决 20% 的重要编码任务,一个价值 1000 万美元的模型可能解决 40%,一个价值 1 亿美元的模型可能解决 60%,以此类推。这些差异在实际应用中通常会产生巨大影响——10 倍的规模提升可能相当于本科生和博士生之间的技能水平差异——因此,各公司都在大力投资训练这些模型。 曲线的改变 (Shifting the curve)。 该领域不断涌现出各种各样的创新想法,从而提高效率:例如改进模型的架构 (对目前所有模型都采用的 Transformer (转换器) 架构进行调整) ,或者改进模型在底层硬件上的运行效率。新一代硬件也会产生类似的效果。这些创新通常会 改变缩放曲线:如果某项创新带来了 2 倍的 “计算效率提升倍数 (compute multiplier)” (CM),那么你就可以用 500 万美元而不是 1000 万美元的成本,在编码任务上获得 40% 的性能;或者用 5000 万美元而不是 1 亿美元的成本获得 60% 的性能。每个顶尖的 AI 公司都会定期发现许多这样的 CM:小的 (约 1....

January 31, 2025 · 4 min · fisherdaddy

充满爱意的机器 • Dario Amodei

本文是 Anthropic 的 CEO Dario Amodei 所写。Dario 曾担任 OpenAI 的研究副总裁,领导了 GPT-2 和 GPT-3 等大型语言模型的开发。他也是根据人类反馈进行强化学习的共同发明者。在加入 OpenAI 之前,他曾在 Google Brain 担任高级研究科学家。 文中 Dario Amodei 探讨了强大人工智能(AI)对未来世界的潜在积极影响。他强调,尽管人们对 AI 风险的关注是必要的,但 AI 的正面潜力同样不可忽视。他认为,AI 可以通过加速科学发现、改善人类健康、减少贫困、促进全球和平与民主等方式,极大地提升人类生活质量。Amodei 描述了一个“如果一切顺利”的未来,AI 将在多个领域带来革命性进步,尤其是在生物学、神经科学、经济发展、治理和人类工作的意义等方面。 AI 的潜力与风险: Amodei 强调,尽管 AI 的风险不容忽视,但 AI 的潜在好处可能比大多数人预期的更加激进。通过有效管理这些风险,AI 可以带来一个更美好的未来。 AI 在五大领域的应用: 生物学与健康:AI 可以加速生物学发现,解决疾病问题,延长人类寿命,甚至可能在 5-10 年内实现 50-100 年的科学进展。AI 将不仅仅是分析工具,而是成为“虚拟生物学家”,通过设计实验、控制实验室设备等方式推动生物医学的突破。 神经科学与心理健康:AI 将帮助理解和治疗精神疾病,如抑郁症、精神分裂症等。通过结合生物学、神经测量和行为干预,AI 可能在 5-10 年内治愈大部分精神疾病,并提升人类的认知和情感自由。 经济发展与贫困:AI 有潜力通过优化健康干预、提高生产力和促进经济增长,帮助发展中国家赶上发达国家。然而,AI 也面临腐败和人类复杂性等挑战。 和平与治理:AI 的发展可能会影响全球的民主与专制斗争。Amodei 提出了“民主联盟”策略,建议通过 AI 增强民主国家的军事和经济优势,以遏制专制国家的扩张。 工作与意义:尽管 AI 可能取代许多工作,但人类仍然可以通过与 AI 协作找到新的经济和社会角色。Amodei 提出,未来的经济可能需要重新设计,可能包括普遍基本收入等新形式的经济结构。 AI 对社会结构的影响: 健康与寿命:AI 可能在未来几年内消除大部分疾病,延长人类寿命,甚至实现“生物自由”,让人们能够控制自己的生物过程。 治理与民主:AI 有潜力改善民主治理,减少偏见,增强法律系统的公平性,并通过提供更透明的信息流动,削弱专制政权。 经济转型:AI 可能带来前所未有的经济增长,尤其是在发展中国家。然而,如何确保技术的公平分配和防止社会不平等的加剧,将是一个重要的挑战。 未来的愿景:...

October 12, 2024 · 5 min · fisherdaddy