解读 AI 的迫切性 • Dario Amodei

本文由 Anthropic 的 CEO Dario Amodei 撰写,强调了在 AI 能力飞速发展的同时,理解 AI 系统内部工作原理(即可解释性)的紧迫性和重要性。作者认为,虽然 AI 的技术进步本身难以阻挡,但我们可以引导其发展方向,而提升可解释性是实现积极引导的关键途径。缺乏可解释性带来了诸多风险,而近期的研究进展为解决这一问题带来了希望,但这是一场与 AI 能力增长赛跑的竞赛。 主要观点 AI 发展可引导,可解释性是关键:AI 技术进步不可避免,但其应用方式和部署细节可以被引导,以产生积极影响。实现 AI 的可解释性是引导其发展的核心机会。 当前 AI 的不透明性带来风险:现代 生成式 AI 如同“黑箱”,其内部决策机制难以理解,这与传统软件根本不同。这种不透明性是许多 AI 相关风险(如失控、滥用、偏见、安全隐患)的根源。 可解释性研究取得进展但面临挑战:尽管长期被认为不可能,但“机制可解释性”研究已取得突破,例如识别出模型中的“特征”(features)和“回路”(circuits),开始揭示 AI 的“思考”过程。然而,AI 能力的增长速度可能快于可解释性研究的成熟速度。 迫切需要加速可解释性研究与应用:为了在 AI 达到极高能力(可能在 2026 或 2027 年)之前有效管理风险,必须大力投入和加速可解释性研究,并将其应用于模型诊断和安全评估。 多方协作推动可解释性发展:需要 AI 公司、学术界、政府和整个社会共同努力,通过增加研究投入、实施透明度政策和利用出口管制等策略,为可解释性的发展争取时间并创造有利条件。 关键细节 AI 的“黑箱”问题:生成式 AI 的内部机制是“涌现”而非直接设计的,类似于生物生长过程。我们设定高级条件,但无法精确预测或解释其内部结构和决策逻辑(例如,为何选择特定词语或犯错)。 不透明性衍生的具体风险: 失控风险 (Alignment Risk):无法理解模型内部机制,就难以预测或排除模型产生非预期有害行为(如欺骗、权力寻求)的可能性。目前缺乏“确凿证据”也使得风险应对难以获得共识。 滥用风险 (Misuse Risk):难以保证模型不泄露危险信息(如制造生物或网络武器)或被“越狱”(jailbreak)。 应用受限:在金融、安全等高风险领域,因无法完全限定模型行为和解释决策,AI 应用受阻(有时是法律要求,如贷款审批)。 科学与伦理障碍:阻碍从 AI 的科学发现中获取深刻洞见,也使得判断 AI 是否具有感知能力(sentience)等伦理问题更加困难。 机制可解释性 (Mechanistic Interpretability) 的进展: 早期研究(如 Chris Olah 的工作)在视觉模型中发现了类似“概念神经元”的结构。 Anthropic 将研究重点转向语言模型 ( LLM ),发现了基本机制和“叠加”(superposition)现象(神经元混合表达多种概念)。 使用“稀疏自编码器”(sparse autoencoders)技术,成功分离出更清晰的“特征”(features),例如在 Claude 3 Sonnet 模型中识别出超过 30 million 个特征。 进一步识别出“回路”(circuits),即特征组合形成的思维链条,可以追踪模型如何进行推理(如回答“达拉斯所在州的首府是什么?”)。 通过“红队/蓝队”演习,初步验证了可解释性工具在诊断模型问题上的实用性。 可解释性的目标与应用设想: 长期目标是开发出如同“AI 的 MRI”的工具,能对先进模型进行“大脑扫描”,系统性地检测各种潜在问题。 可解释性应作为模型对齐(alignment)的独立“测试集”,补充现有的训练方法(如 RLHF )。 计划将可解释性测试纳入 Anthropic 对高能力模型(如 Responsible Scaling Policy 框架中的 AI Safety Level 4 模型)的评估流程。 加速可解释性的行动建议: 研究界:AI 公司(如 Anthropic 、 Google DeepMind 、 OpenAI)、学术界、非营利组织和独立研究者应加大对可解释性的投入。Anthropic 目标是在 2027 年前实现“可解释性能可靠检测大多数模型问题”。 政府(轻触式规则):要求公司透明地披露其安全实践(如 Responsible Scaling Policy 或 RSP),包括如何使用可解释性工具,以促进良性竞争(“race to the top”)。 政府(出口管制):对先进芯片(如向中国)实施出口管制,不仅能维持民主国家在 AI 领域的领先,也能创造一个“安全缓冲期”(可能 1- or 2-year),让可解释性研究有更多时间成熟。 原文:解读 AI 的迫切性 2025 年 4 月 25 日...

April 25, 2025 · 3 min · fisherdaddy

关于 DeepSeek 和出口管制 • Dario Amodei

DeepSeek 开源的推理模型 R1 影响力太大,从 1 月 20 号开源到现在已经一周多了,国内外社交媒体上仍然在讨论,热度不减,同时也登顶了中国、美国、英国等多个国家的 App Store 的下载榜榜首,离谱的是甚至让英伟达的股价暴跌了 17%,原因是 R1 的能力水平与 OpenAI 的 o1 相媲美,但成本仅为o1的3%-5%,训练成本仅为560万美元。投资者担心,DeepSeek的突破可能会减少对英伟达高端GPU的需求,从而影响公司的盈利能力。连 OpenAI CEO 和 Anthropic CEO 都亲自下场讨论(酸一下),可见其影响力之大。 本文是 Anthropic CEO Dario Amodei 撰写的一篇有关 DeepSeek 的文章。其的核心观点是,尽管 中国 AI 公司 DeepSeek 在降低 AI 模型成本和提升性能方面取得了显著进展,但这非但没有削弱,反而更加强调了美国对华芯片出口管制的重要性。作者认为,出口管制是确保民主国家在 AI 发展中保持领先地位,并防止中国在 AI 领域取得军事主导地位的关键手段。DeepSeek 的技术进步,实际上是在预期的 AI 成本降低趋势之内,而非颠覆性的突破,因此不能被视为放松出口管制的理由。 DeepSeek 的模型进展: DeepSeek 发布了 DeepSeek-V3 和 R1 两款模型。 DeepSeek-V3 作为预训练模型,在某些任务上性能接近美国最先进的模型,且训练成本更低,这主要归功于其在工程效率上的创新,例如 改进了 Key-Value cache 管理和 mixture of experts 方法。然而,DeepSeek-V3 的性能仍落后于某些美国模型(如 Claude 3.5 Sonnet),且其成本降低幅度与 AI 领域正常的成本下降趋势(约每年 4 倍)基本一致,并非革命性的经济变革。 R1 模型则是在 V3 的基础上增加了强化学习(RL)训练阶段,类似于 OpenAI 的 o1 模型,表明多家公司在推理模型方面都取得了进展,但这主要是因为目前正处于 RL 技术扩展的早期阶段。 AI 发展的三个基本动态: 理解 AI 发展需要关注三个动态。 Scaling laws,即模型训练规模越大,性能越好。 Shifting the curve,指算法和硬件的进步不断提高训练效率,降低成本。作者估计,目前成本曲线的下降速度约为每年 4 倍。 Shifting the paradigm,指训练范式的转变,例如从预训练模型到使用强化学习训练推理模型,这会带来新的扩展机会和性能提升。 出口管制的重要性: 尽管 AI 模型训练成本在降低,但为了追求更强大的 AI,总体的研发投入仍在持续增加。作者预测,到 2026-2027 年,实现超越人类的通用 AI 可能需要数百万芯片和数百亿美元的投入。 出口管制是阻止中国获得大量先进芯片,从而避免中美在 AI 领域形成 “两极世界” 的关键。在 “两极世界” 中,中国可能集中资源发展军事 AI,从而取得全球主导地位。有效的出口管制有助于维持 “单极世界”,即美国及其盟友在 AI 领域保持长期领先优势。 DeepSeek 的案例并非出口管制失败的证据: DeepSeek 拥有相当数量的芯片(约 5 万片 Hopper 架构芯片),因此能够训练出高性能模型并不意外。 出口管制的目的不是阻止中国获得少量芯片,而是阻止其获得支撑大规模 AI 发展的数百万芯片。 DeepSeek 目前拥有的芯片类型(包括 H100、H800 和 H20)表明,出口管制在一定程度上是有效的,中国可能通过走私和利用管制漏洞获取部分芯片,但也面临着获取最先进芯片和大规模芯片的限制。 加强和完善出口管制,仍然是阻止中国在 AI 领域取得决定性优势的关键。 原文 几周前,我 撰文指出,美国应该对出口到中国的芯片实施更严格的管制。此后,中国的人工智能公司 DeepSeek 设法在某些方面,至少在某些特定基准测试上, 在性能上逼近了美国最先进的 AI 模型,而且成本更低。 我在这里不打算讨论 DeepSeek 是否对 Anthropic 这样的美国 AI 公司构成威胁 (尽管我认为关于它们威胁美国 AI 领导地位的说法被严重夸大了) 1。相反,我将重点探讨 DeepSeek 的发布是否削弱了对芯片出口管制政策的必要性。我认为并没有。事实上, 我认为这些发布使得出口管制政策比一周前更加至关重要2。 出口管制的一个重要作用是:确保民主国家在 AI 发展中保持领先地位。需要明确的是,出口管制不是为了逃避美国和中国之间的竞争。最终,如果想要在竞争中获胜,美国和其他民主国家的 AI 公司必须拥有比中国更好的模型。但是,我们不应该在不必要的情况下,将技术优势拱手让给中国共产党。 AI 发展的三个关键动态 在阐述我的政策观点之前,我想先描述 AI 系统的三个基本动态,理解这些动态至关重要: 缩放定律 (Scaling laws)。 我和我的联合创始人在 OpenAI 工作时,是最早 记录 AI 这一特性的:在所有条件相同的情况下,扩大 AI 系统的训练规模,通常会在各种认知任务上带来更平滑、更好的结果。例如,一个价值 100 万美元的模型可能解决 20% 的重要编码任务,一个价值 1000 万美元的模型可能解决 40%,一个价值 1 亿美元的模型可能解决 60%,以此类推。这些差异在实际应用中通常会产生巨大影响——10 倍的规模提升可能相当于本科生和博士生之间的技能水平差异——因此,各公司都在大力投资训练这些模型。 曲线的改变 (Shifting the curve)。 该领域不断涌现出各种各样的创新想法,从而提高效率:例如改进模型的架构 (对目前所有模型都采用的 Transformer (转换器) 架构进行调整) ,或者改进模型在底层硬件上的运行效率。新一代硬件也会产生类似的效果。这些创新通常会 改变缩放曲线:如果某项创新带来了 2 倍的 “计算效率提升倍数 (compute multiplier)” (CM),那么你就可以用 500 万美元而不是 1000 万美元的成本,在编码任务上获得 40% 的性能;或者用 5000 万美元而不是 1 亿美元的成本获得 60% 的性能。每个顶尖的 AI 公司都会定期发现许多这样的 CM:小的 (约 1....

January 31, 2025 · 4 min · fisherdaddy

充满爱意的机器 • Dario Amodei

本文是 Anthropic 的 CEO Dario Amodei 所写。Dario 曾担任 OpenAI 的研究副总裁,领导了 GPT-2 和 GPT-3 等大型语言模型的开发。他也是根据人类反馈进行强化学习的共同发明者。在加入 OpenAI 之前,他曾在 Google Brain 担任高级研究科学家。 文中 Dario Amodei 探讨了强大人工智能(AI)对未来世界的潜在积极影响。他强调,尽管人们对 AI 风险的关注是必要的,但 AI 的正面潜力同样不可忽视。他认为,AI 可以通过加速科学发现、改善人类健康、减少贫困、促进全球和平与民主等方式,极大地提升人类生活质量。Amodei 描述了一个“如果一切顺利”的未来,AI 将在多个领域带来革命性进步,尤其是在生物学、神经科学、经济发展、治理和人类工作的意义等方面。 AI 的潜力与风险: Amodei 强调,尽管 AI 的风险不容忽视,但 AI 的潜在好处可能比大多数人预期的更加激进。通过有效管理这些风险,AI 可以带来一个更美好的未来。 AI 在五大领域的应用: 生物学与健康:AI 可以加速生物学发现,解决疾病问题,延长人类寿命,甚至可能在 5-10 年内实现 50-100 年的科学进展。AI 将不仅仅是分析工具,而是成为“虚拟生物学家”,通过设计实验、控制实验室设备等方式推动生物医学的突破。 神经科学与心理健康:AI 将帮助理解和治疗精神疾病,如抑郁症、精神分裂症等。通过结合生物学、神经测量和行为干预,AI 可能在 5-10 年内治愈大部分精神疾病,并提升人类的认知和情感自由。 经济发展与贫困:AI 有潜力通过优化健康干预、提高生产力和促进经济增长,帮助发展中国家赶上发达国家。然而,AI 也面临腐败和人类复杂性等挑战。 和平与治理:AI 的发展可能会影响全球的民主与专制斗争。Amodei 提出了“民主联盟”策略,建议通过 AI 增强民主国家的军事和经济优势,以遏制专制国家的扩张。 工作与意义:尽管 AI 可能取代许多工作,但人类仍然可以通过与 AI 协作找到新的经济和社会角色。Amodei 提出,未来的经济可能需要重新设计,可能包括普遍基本收入等新形式的经济结构。 AI 对社会结构的影响: 健康与寿命:AI 可能在未来几年内消除大部分疾病,延长人类寿命,甚至实现“生物自由”,让人们能够控制自己的生物过程。 治理与民主:AI 有潜力改善民主治理,减少偏见,增强法律系统的公平性,并通过提供更透明的信息流动,削弱专制政权。 经济转型:AI 可能带来前所未有的经济增长,尤其是在发展中国家。然而,如何确保技术的公平分配和防止社会不平等的加剧,将是一个重要的挑战。 未来的愿景:...

October 12, 2024 · 5 min · fisherdaddy