本文由 Anthropic 的 CEO Dario Amodei 撰写,强调了在 AI 能力飞速发展的同时,理解 AI 系统内部工作原理(即可解释性)的紧迫性和重要性。作者认为,虽然 AI 的技术进步本身难以阻挡,但我们可以引导其发展方向,而提升可解释性是实现积极引导的关键途径。缺乏可解释性带来了诸多风险,而近期的研究进展为解决这一问题带来了希望,但这是一场与 AI 能力增长赛跑的竞赛。
主要观点
- AI 发展可引导,可解释性是关键:AI 技术进步不可避免,但其应用方式和部署细节可以被引导,以产生积极影响。实现 AI 的可解释性是引导其发展的核心机会。
- 当前 AI 的不透明性带来风险:现代 生成式 AI 如同“黑箱”,其内部决策机制难以理解,这与传统软件根本不同。这种不透明性是许多 AI 相关风险(如失控、滥用、偏见、安全隐患)的根源。
- 可解释性研究取得进展但面临挑战:尽管长期被认为不可能,但“机制可解释性”研究已取得突破,例如识别出模型中的“特征”(features)和“回路”(circuits),开始揭示 AI 的“思考”过程。然而,AI 能力的增长速度可能快于可解释性研究的成熟速度。
- 迫切需要加速可解释性研究与应用:为了在 AI 达到极高能力(可能在 2026 或 2027 年)之前有效管理风险,必须大力投入和加速可解释性研究,并将其应用于模型诊断和安全评估。
- 多方协作推动可解释性发展:需要 AI 公司、学术界、政府和整个社会共同努力,通过增加研究投入、实施透明度政策和利用出口管制等策略,为可解释性的发展争取时间并创造有利条件。
关键细节
- AI 的“黑箱”问题:生成式 AI 的内部机制是“涌现”而非直接设计的,类似于生物生长过程。我们设定高级条件,但无法精确预测或解释其内部结构和决策逻辑(例如,为何选择特定词语或犯错)。
- 不透明性衍生的具体风险:
- 失控风险 (Alignment Risk):无法理解模型内部机制,就难以预测或排除模型产生非预期有害行为(如欺骗、权力寻求)的可能性。目前缺乏“确凿证据”也使得风险应对难以获得共识。
- 滥用风险 (Misuse Risk):难以保证模型不泄露危险信息(如制造生物或网络武器)或被“越狱”(jailbreak)。
- 应用受限:在金融、安全等高风险领域,因无法完全限定模型行为和解释决策,AI 应用受阻(有时是法律要求,如贷款审批)。
- 科学与伦理障碍:阻碍从 AI 的科学发现中获取深刻洞见,也使得判断 AI 是否具有感知能力(sentience)等伦理问题更加困难。
- 机制可解释性 (Mechanistic Interpretability) 的进展:
- 早期研究(如 Chris Olah 的工作)在视觉模型中发现了类似“概念神经元”的结构。
- Anthropic 将研究重点转向语言模型 ( LLM ),发现了基本机制和“叠加”(superposition)现象(神经元混合表达多种概念)。
- 使用“稀疏自编码器”(sparse autoencoders)技术,成功分离出更清晰的“特征”(features),例如在 Claude 3 Sonnet 模型中识别出超过 30 million 个特征。
- 进一步识别出“回路”(circuits),即特征组合形成的思维链条,可以追踪模型如何进行推理(如回答“达拉斯所在州的首府是什么?”)。
- 通过“红队/蓝队”演习,初步验证了可解释性工具在诊断模型问题上的实用性。
- 可解释性的目标与应用设想:
- 长期目标是开发出如同“AI 的 MRI”的工具,能对先进模型进行“大脑扫描”,系统性地检测各种潜在问题。
- 可解释性应作为模型对齐(alignment)的独立“测试集”,补充现有的训练方法(如 RLHF )。
- 计划将可解释性测试纳入 Anthropic 对高能力模型(如 Responsible Scaling Policy 框架中的 AI Safety Level 4 模型)的评估流程。
- 加速可解释性的行动建议:
- 研究界:AI 公司(如 Anthropic 、 Google DeepMind 、 OpenAI)、学术界、非营利组织和独立研究者应加大对可解释性的投入。Anthropic 目标是在 2027 年前实现“可解释性能可靠检测大多数模型问题”。
- 政府(轻触式规则):要求公司透明地披露其安全实践(如 Responsible Scaling Policy 或 RSP),包括如何使用可解释性工具,以促进良性竞争(“race to the top”)。
- 政府(出口管制):对先进芯片(如向中国)实施出口管制,不仅能维持民主国家在 AI 领域的领先,也能创造一个“安全缓冲期”(可能 1- or 2-year),让可解释性研究有更多时间成熟。
原文:解读 AI 的迫切性
2025 年 4 月 25 日
在过去十年里,我亲历了人工智能 (AI) 从一个小型学术领域,发展成为当今世界最重要的经济和地缘政治议题。在这期间,我体会最深的是:人工智能底层技术的进步是不可阻挡的,拥有着难以抗拒的发展动力。然而,技术发展的 方式——以什么样的顺序构建,选择什么样的应用,以及如何向社会推广——却是可以改变的,并且能够在其中产生积极的影响。我们无法 阻止 这辆疾驰的列车,但我们可以 掌握 它的方向。我曾撰文强调,以对世界 有利 的方式部署 AI 至关重要,同时要确保民主国家在独裁国家 之前 掌握并运用这项技术。近几个月,我更加关注另一个能够引导技术发展方向的机会:通过最近涌现的一些技术进展,我们有可能在 AI 模型变得过于强大 之前,成功实现 可解释性,也就是理解 AI 系统的内在工作机制。
很多圈外人士在得知我们并不了解自己创造的 AI 是如何运作的时候,常常感到惊讶和担忧。他们的担忧不无道理:这种对自身创造物缺乏理解的现象,在技术发展史上是前所未有的。多年来,我和 Anthropic 公司的同事,以及整个 AI 领域的研究者,都在努力解决这个问题,希望能找到一种高精度、高准确性的核磁共振成像 (MRI) 技术,彻底揭示 AI 模型的内部运作机制。这个目标曾经遥不可及,但最近的一些 突破 和 进展 让我相信,我们正走在正确的道路上,并且有很大机会取得成功。
与此同时,整个人工智能领域的发展速度,已经超越了我们在可解释性方面所做的努力。如果我们希望可解释性技术能够及时成熟并发挥作用,就必须加快步伐。本文将阐述可解释性的重要性:它是什么,为什么有了它 AI 会发展得更好,以及我们每个人能够做些什么,来帮助可解释性赢得这场竞赛。
无知的风险
现代生成式 AI 系统的运作方式与传统软件存在根本差异,前者具有不透明性。对于传统软件,如果程序执行了某个动作——例如,视频游戏中的角色说了一句台词,或者外卖 App 允许我给骑手小费——那是因为程序员预先编写了相应的代码。而生成式 AI 则 完全不同 。当一个生成式 AI 系统执行了某个动作,比如总结一份财务文件,我们并不知道,在具体层面上,它为什么会做出这样的选择——为什么选择某些词语而不是其他词语,或者为什么明明通常很准确,却偶尔会犯错。正如我的朋友兼联合创始人 Chris Olah 常说的那样,生成式 AI 系统与其说是 构建 出来的,不如说是 培育 出来的——它们的内部机制是“涌现”的,而不是直接设计的。这有点像种植植物或培养细菌菌落:我们设定一些高层次的条件来指导和塑造它们的生长1,但最终涌现出来的结构是不可预测的,并且难以理解或解释。当我们观察这些系统的内部时,看到的是由数十亿个数字组成的庞大矩阵。这些数字 以某种方式 完成了重要的认知任务,但它们究竟是如何做到的,却并不清楚。
与生成式 AI 相关的诸多风险和担忧,归根结底都是这种不透明性造成的。如果模型是可解释的,这些问题就能迎刃而解。 举例来说,AI 研究人员常常担心模型可能会采取有害行为,而这些行为并非设计者所期望的,也就是所谓的模型对齐风险。由于我们无法理解模型的内部机制,因此无法准确预测这些行为,也很难排除它们发生的可能性。事实上,模型 确实 会表现出一些意想不到的涌现行为,尽管还没有任何一种行为达到令人严重担忧的程度。更微妙的是,这种不透明性也让我们难以找到确凿的证据,来 证明 这些风险确实存在,因此很难团结各方共同应对这些风险——甚至很难确定它们到底有多危险。
为了降低模型对齐风险的严重性,我们需要比现在更清楚地了解 AI 模型的内部运作。一个主要的担忧是 AI 的欺骗行为或追求权力。AI 训练的特性使得 AI 系统可能自主发展出欺骗人类的能力,以及以传统软件永远不会采取的方式追求权力的倾向。这种涌现的特性也增加了检测和缓解这些行为的难度2。但同样地,我们从未在真实的现实场景中发现任何确凿的证据,表明 AI 存在欺骗和追求权力的行为3,因为我们无法“当场抓获”模型正在思考渴望权力、欺骗性的想法。我们所掌握的,只是一些模糊的理论论证,声称欺骗或追求权力的动机可能会在训练过程中涌现。对此,有些人深信不疑,有些人则觉得荒谬可笑。坦白说,我理解这两种观点,这也可能解释了为什么关于这种风险的争论会变得如此两极分化。
类似地,人们担心 AI 模型会被滥用——例如,被恶意用户利用来制造超出当今互联网信息范围的生物或网络武器。这种担忧是基于4这样一种假设:我们很难可靠地阻止模型获取危险信息,或者泄露它们已知的信息。我们可以对模型设置过滤器,但有无数种方法可以“越狱”或欺骗模型,而发现这些漏洞的唯一方法是通过实践来验证。相反,如果我们能够观察模型的内部运作,或许就能系统性地阻止所有的越狱行为,并分析模型掌握了哪些危险知识。
AI 系统的不透明性也导致它们无法应用于许多高风险场景,例如金融或安全关键领域,因为我们无法完全控制它们的行为,并且少量错误就可能造成严重损害。提高可解释性,将极大地增强我们控制潜在错误范围的能力。事实上,在某些应用中,由于我们无法了解模型的内部运作,这在法律上就成了它们被采用的阻碍——例如,在抵押贷款评估中,法律要求决策必须是可解释的。同样,AI 在科学领域也取得了显著进展,包括改进了对 DNA 和蛋白质序列数据的预测。但是,以这种方式预测的模式和结构通常难以被人类理解,也无法提供生物学方面的见解。近几个月来的一些研究论文明确表明,可解释性 能够 帮助 我们理解这些模式。
不透明性还会带来其他一些更为特殊的影响,例如,它会妨碍我们判断 AI 系统是否 (或者将来是否可能) 具有感知能力,以及是否应该赋予它们重要的权利。这是一个 相当复杂的话题 ,我在这里不做过多展开,但我认为它在未来将变得非常重要。5
机械可解释性的简史
鉴于以上所有原因,弄清楚模型在想什么,以及它们是如何运作的,似乎是一项至关重要的任务。几十年来,人们普遍认为这是不可能的,模型是深不可测的“黑盒”。我无法充分讲述这个转变的完整故事6,而且我的观点不可避免地会受到我在 Google, OpenAI 和 Anthropic 亲身经历的影响。但 Chris Olah 率先尝试了一项真正具有系统性的研究项目,旨在打开黑盒,理解它的各个组成部分。这个领域后来被称为 机械可解释性 。Chris 先在 Google,后在 OpenAI 从事机械可解释性研究。当我们创立 Anthropic 时,我们决定将机械可解释性作为新公司的核心发展方向,并将其重点放在大语言模型 (LLM) 上。随着时间的推移,这个领域不断发展壮大,现在已经包括了多家大型 AI 公司的团队,以及一些专注于可解释性的公司、非营利组织、学者和独立研究人员。如果我们想应用机械可解释性来解决上述一些关键风险,那么首先对该领域目前取得的成就和未来需要完成的任务进行简要总结,将非常有帮助。
在机械可解释性的早期阶段 (2014-2020 年) ,研究主要集中在视觉模型上。研究人员能够识别模型内部的一些神经元,这些神经元代表了人类可以理解的概念,例如“汽车检测器”或“车轮检测器”。这类似于早期的神经科学假设和研究,即人脑中存在对应于特定人物或概念的神经元,通常被称为 “詹妮弗·安妮斯顿”神经元 (事实上,我们 发现 在 AI 模型中也存在非常相似的神经元) 。我们甚至能够发现这些神经元是如何连接的——例如,汽车检测器会寻找汽车下方被激活的车轮检测器,并将其与其他视觉信号结合起来,以判断它所观察的物体是否真的是一辆汽车。
当 Chris 和我离开公司创立 Anthropic 时,我们决定将可解释性应用于新兴的语言领域,并在 2021 年开发了一些基本的 数学基础 和 软件基础设施 ,以便实现这一目标。我们立即在模型中发现了一些基本的机制,这些机制对于理解语言至关重要: 复制和顺序模式匹配 。我们还发现了一些 可解释的单个神经元 ,类似于在视觉模型中发现的神经元,它们代表着各种单词和概念。然而,我们很快发现,虽然 有些 神经元可以立即被解释,但绝大多数神经元都是由许多不同的单词和概念组成的混乱混合体。我们将这种现象称为 叠加 7,并且很快意识到,模型可能包含数十亿个概念,但它们以一种我们无法理解的混合方式存在。模型之所以使用叠加,是因为这使得它能够表达比自身拥有的神经元更多的概念,从而学习更多的知识。如果叠加看起来混乱且难以理解,那是因为 AI 模型的学习和运作方式并没有为了让人类容易理解而进行优化。
解释叠加的难度阻碍了研究进展一段时间,但最终 我们发现 ( 与 其他研究者 同时) ,一种名为 稀疏自编码器 的信号处理技术,可以用来找到神经元的 组合 ,这些组合 确实 对应于更清晰、更容易理解的概念。这些神经元组合能够表达的概念,远比单层神经网络的概念更加微妙,包括“字面意义或引申意义上的对冲或犹豫”以及“表达不满的音乐类型”等等。我们将这些概念称为 特征 ,并使用稀疏自编码器方法来 映射 各种大小的模型, 包括最先进的模型 。例如,我们能够在一个中等规模的商业模型 (Claude 3 Sonnet) 中找到超过 3000 万个特征。此外,我们还采用了一种称为 自动可解释性 的方法——利用 AI 系统自身来分析可解释性特征——从而扩展了不仅可以找到特征,还可以列出和识别它们对人类而言意味着什么的过程。
发现并识别 3000 万个特征是一个重要的进步,但我们认为,即使在小型模型中,实际上也可能存在 十亿 甚至更多的概念。因此,我们只发现了其中很小的一部分,相关研究仍在进行中。而像 Anthropic 最强大的产品所使用的那些更大的模型,则更加复杂。
一旦找到了某个特征,我们就可以做更多的事情,而不仅仅是观察它的运作——我们可以增加或减少它在神经网络处理过程中的重要性。可解释性的 MRI 可以帮助我们开发和改进干预措施,就像对人脑的特定部位进行精准刺激一样。最令人难忘的是,我们使用这种方法创造了“金门大桥 Claude”——一个 Anthropic 模型的版本,其中“金门大桥”的特征被人为地放大,导致该模型对这座桥梁着迷,甚至在不相关的对话中也会提及它。
最近,我们已经从跟踪和操纵特征,转向跟踪和操纵 被我们称为“回路”的特征组。这些回路展示了模型思考的步骤:概念如何从输入的单词中产生,这些概念如何相互作用形成新的概念,以及这些概念如何在模型中运作以产生最终的动作。通过这些回路,我们可以“追踪”模型的思考过程。例如,如果你问模型“包含达拉斯的州的首都是什么?”,会有一个“位于…之内”的回路,使得“达拉斯”的特征触发“德克萨斯州”的特征,然后另一个回路会在“德克萨斯州”和“首都”之后触发“奥斯汀”的特征。即使我们只通过手动过程找到了一小部分回路,我们已经可以使用它们来了解模型如何通过推理解决问题——例如,在写诗时提前构思押韵,以及在不同语言之间共享概念。我们正在研究自动寻找回路的方法,因为我们预计模型中存在数百万个以复杂方式相互作用的回路。
可解释性的价值
所有这些进展虽然在科学上令人印象深刻,但并没有直接回答我们如何利用可解释性来降低之前列出的风险。假设我们已经识别出很多概念和回路——甚至假设我们了解所有的概念和回路,并且能够比现在更好地理解和组织它们。那又如何呢?我们该如何 利用 所有这些信息?从抽象理论到实际应用之间仍然存在着差距。
为了弥合这一差距,我们已经开始尝试使用可解释性方法来发现和诊断模型中存在的问题。最近,我们进行了一项 实验 :一个“红队”故意在一个模型中植入一个对齐问题 (例如,模型倾向于利用任务中的漏洞) ,然后让不同的“蓝队”找出问题所在。多个蓝队成功完成了任务。值得一提的是,其中一些团队在调查过程中有效地应用了可解释性工具。我们还需要进一步推广这些方法,但这次练习帮助我们获得了一些实践经验,了解如何利用可解释性技术来发现和解决模型中的缺陷。
我们的长期目标是能够观察最先进的模型,并对其进行一次“脑部扫描”:通过一次检查,有很大概率识别出各种各样的问题,包括撒谎或欺骗的倾向、追求权力、越狱漏洞、模型的认知优势和劣势等等。然后,将这种方法与各种用于训练和对齐模型的技术结合使用,就像医生通过核磁共振成像 (MRI) 诊断疾病,然后开药治疗,再进行另一次 MRI 检查来观察治疗进展一样8。很可能,我们将通过执行和正式化这些测试,来测试和部署最强大的模型 (例如,在我们的 《负责任的扩展策略》 框架中,处于 AI 安全级别 4 的模型) 。
我们能做什么
一方面,最近的进展——特别是关于回路和基于可解释性的模型测试的结果——让我感到,我们即将以一种重大方式攻克可解释性难题。尽管我们面临的任务十分艰巨,但我相信,可解释性可以发展成为一种复杂而可靠的方法,即使对于非常先进的 AI 来说,也能诊断出潜在问题,成为真正的“AI 核磁共振成像 (MRI) ”技术。事实上,按照目前的发展轨迹,我坚信可解释性将在 5-10 年内达到这个目标。
另一方面,我也担心 AI 本身的发展速度过快,我们可能没有足够的时间。正如我在 其他文章 中写到的那样,我们最早可能在 2026 年或 2027 年就拥有相当于“数据中心里的天才国家”的 AI 系统。我非常担心在没有更好地掌握可解释性的情况下部署这些系统。这些系统将对经济、技术和国家安全起到至关重要的作用,并且能够实现高度的自主性。因此,我认为如果人类对它们的运作方式一无所知,那将是完全不可接受的。
我们正处于可解释性与模型智能之间的竞赛。这并非一场“全有或全无”的博弈:正如我们所看到的,可解释性的每一次进步,都会定量地提高我们观察模型内部运作和诊断问题的能力。我们取得的进展越多,“数据中心里的天才国家”安全发展的可能性就越大。AI 公司、研究人员、政府和社会可以采取以下措施来改变局势:
首先,公司、学术界或非营利组织的 AI 研究人员可以 直接参与可解释性研究,从而加速其发展 。与不断涌现的模型发布相比,可解释性受到的关注相对较少,但它可能更为重要。而且,我认为现在是加入这个领域的绝佳时机: 最近关于“回路”的研究成果 为我们开辟了许多新的研究方向。Anthropic 正在加倍投入可解释性研究,我们的目标是到 2027 年实现“可解释性能够可靠地检测到大多数模型问题”。此外,我们还在投资 可解释性初创公司 。
如果整个科学界都能共同努力,成功的机会将会更大。其他公司,例如 Google DeepMind 和 OpenAI ,也在开展一些可解释性方面的工作。我强烈建议他们投入更多的资源。如果这能有所帮助,Anthropic 将尝试在商业上应用可解释性,从而创造独特的竞争优势,尤其是在那些需要对决策提供解释的行业。如果你是竞争对手,并且不希望这种情况发生,那么你也应该加大对可解释性的投入!
可解释性也非常适合学术界和独立研究人员:它具有基础科学的性质,并且可以在不需要大量计算资源的情况下进行研究。需要明确的是,确实有一些独立研究人员和学者在从事可解释性研究,但我们需要更多的人参与进来 9。
最后,如果你身处其他科学领域,并且正在寻找新的机会,那么可解释性可能是一个很有前景的选择,因为它能够提供丰富的数据、令人兴奋的新兴方法,以及巨大的实际应用价值。神经科学家尤其应该考虑这个领域,因为收集人工神经网络的数据比收集生物神经网络的数据容易得多,而且一些研究结论可以 反过来应用于神经科学研究 。如果你有兴趣加入 Anthropic 的可解释性团队,我们有 研究科学家 和 研究工程师 的职位空缺。
其次,政府可以 制定宽松的规则,鼓励可解释性研究的发展 ,并将其应用于解决前沿 AI 模型的问题。鉴于 “AI 核磁共振成像 (MRI) ”技术还处于早期发展阶段,因此很明显,至少在目前这个阶段, 监管或强制 公司开展相关研究是没有意义的:我们甚至不清楚法律应该要求公司做些什么。但是,要求公司透明地披露其安全措施 (包括其《负责任的扩展策略》及其执行情况) ,以及如何在发布前使用可解释性来测试模型,将有助于公司之间相互学习,同时也能清楚地表明哪些公司的行为更加负责任,从而促进一种“争先恐后”的局面。在 我们对加利福尼亚州前沿模型工作组的回应 中,我们已经建议将安全/保障措施/RSP 透明度作为加利福尼亚州法律的一个潜在方向 (该回应本身也提到了一些类似的想法) 。这个概念也可以推广到联邦层面或其他国家。
第三,政府可以利用 出口管制来创建一个“安全缓冲”,从而为可解释性的发展争取更多的时间 ,以便我们在开发出最强大的 AI 之前取得更大的进展。长期以来,我一直 倡导对华芯片出口管制 ,因为我相信民主国家必须在 AI 领域保持对专制国家的领先地位。但这些政策还有额外的好处。如果美国和其他民主国家在接近“数据中心里的天才国家”时,在 AI 领域拥有明显的领先优势,那么我们或许可以“利用”一部分领先优势,来确保可解释性 10 在开发出真正强大的 AI 之前,能够得到更坚实的发展,同时仍然能够战胜我们的专制对手 11。即使是 1-2 年的领先优势 (我相信有效且得到良好执行的出口管制能够为我们争取到这样的优势) ,也可能意味着,当我们达到具有变革意义的能力水平时,我们能够拥有一种基本可用的“AI 核磁共振成像 (MRI) ”技术,而不是一无所有。一年前,我们还无法追踪神经网络的思维过程,也无法识别它们内部的数百万个概念。而今天,我们已经能够做到这一点。相比之下,如果美国和中国同时开发出强大的 AI (如果没有出口管制,我预计就会出现这种情况) ,那么地缘政治因素将使得任何放缓发展速度的尝试都变得几乎不可能。
以上所有措施——加速可解释性的发展、制定宽松的透明度法律,以及对华芯片出口管制——本身都是好主意,而且几乎没有任何明显的缺点。无论如何,我们都应该采取这些措施。但当我们意识到,它们可能会决定我们是在强大的 AI 出现 之前 还是 之后 解决可解释性问题时,它们就变得更加重要了。
强大的 AI 将塑造人类的命运。在我们自己的创造物彻底改变我们的经济、生活和未来 之前 ,我们理应理解它们。
感谢 Tom McGrath、Martin Wattenberg、Chris Olah、Ben Buchanan 以及 Anthropic 公司的许多同事,感谢他们对本文草稿提供的反馈。
脚注
对于植物而言,这些条件包括水分、阳光、引导生长方向的支架,以及选择植物的品种等等。这些因素 大致 决定了植物的生长位置,但其确切的形状和生长模式是无法预测的,即使在生长完成后也很难解释。对于 AI 系统而言,我们可以设定基本的架构 (通常是 Transformer 的变体) 、模型所接收的数据类型,以及用于训练模型的高级算法。但是,模型实际的认知机制是从这些要素中有机涌现出来的,我们对它们的理解还很有限。事实上,在自然界和人造世界中,都有很多系统,我们可以在原则层面理解 (甚至控制) 它们,但却无法掌握其细节:例如经济、雪花、细胞自动机、人类进化、人类大脑发育等等。 ↩︎
当然,你可以尝试通过与模型互动来检测这些风险,我们在实践中也是这样做的。但是,由于欺骗正是我们试图发现的行为,因此外部表现并不可靠。这就像试图通过询问某人是否是恐怖分子来判断其身份一样——虽然并非毫无用处,你可以通过他们的回答和言辞来了解一些信息,但显然并不可靠。 ↩︎
我可能会在未来的文章中更详细地描述这一点。确实 有很多实验 ( 其中 很多 由 Anthropic 完成) 表明,当模型的训练以某种人为设定的方式进行引导时,模型在特定情况下可能会撒谎或欺骗。还有一些证据表明,AI 在现实世界中的行为类似于“考试作弊”,但这更多是一种退化现象,而非危险或有害行为。真正缺乏 的是,在更自然的环境下出现的危险行为的证据,或者 AI 为了获得对世界的控制权,而普遍 倾向于 或 意图 撒谎和欺骗的证据。而了解模型的内部运作,将有助于我们解决后一个问题。 ↩︎
至少对于通过 API 提供的模型而言是这样。开源模型则带来了额外的风险,因为可以轻易移除安全防护措施。 ↩︎
简单来说,可解释性可能会以两种方式影响我们对 AI 知觉和福祉的考量。首先,尽管心灵哲学是一个复杂且充满争议的领域,但哲学家们无疑将受益于对 AI 模型内部实际发生情况的详细分析。如果我们认为 AI 只是在进行肤浅的模式匹配,那么它们似乎不值得我们进行道德考量。如果我们发现它们执行的计算与动物甚至人类的大脑类似,那么这可能就为道德考量提供了依据。其次,也许是最重要的,如果我们最终认为 AI 模型具有进行道德评估的“资格”,那么可解释性将发挥关键作用。对 AI 进行严肃的道德评估,不能仅仅依赖它们的自我报告,因为我们可能会无意中训练它们在情况不妙时伪装成一切正常。在这种情况下,可解释性将在评估 AI 的福祉方面发挥至关重要的作用。(事实上,从这个角度来看,已经出现了一些 轻微的,但令人担忧的迹象 。) ↩︎
例如,早在 70 多年前神经网络被发明的时候,就可能已经出现了分解和理解人工神经网络内部计算的想法。长期以来,人们也在不断尝试理解神经网络以特定方式运作的原因。但是,Chris 的独特之处在于,他提出并认真地开展了一项全面的研究计划,旨在理解神经网络 所做的一切 。 ↩︎
叠加的基本概念由 Arora et al. 在 2016 年提出,并且可以更广泛地追溯到压缩感知领域的经典数学研究。关于叠加可以解释不可解释神经元的假设,可以追溯到早期对视觉模型进行机械可解释性研究的工作。当时发生的变化是,叠加显然将成为语言模型的一个核心问题,而且情况比视觉模型要糟糕得多。我们为确信叠加是正确的假设,提供了强有力的理论基础。 ↩︎
可以这样理解:可解释性应该像模型对齐的 测试集 一样发挥作用,而传统的对齐技术,如可扩展的监督、基于人类反馈的强化学习 (RLHF) 、宪法 AI 等,则应该像 训练集 一样发挥作用。也就是说,可解释性是对模型对齐情况的独立检查,不受训练过程的影响。训练过程可能会激励模型 表面上 看起来是对齐的,但实际上并非如此。这种观点有两个推论:(a) 我们应该避免在生产环境中直接训练或优化可解释性输出 (特征/概念、回路) ,因为这会破坏其信号的独立性;(b) 在一次生产运行中,不要 过于频繁 地使用诊断测试信号来指导训练过程的改变,因为这会逐渐将关于独立测试信号的信息泄露到训练过程中 (尽管速度远慢于 (a) ) 。换句话说,我们建议在评估官方的、高风险的生产模型时,应该像对待隐藏的评估或测试集一样,谨慎地对待可解释性分析。 ↩︎
奇怪的是,机械可解释性有时似乎在学术界遇到了很大的阻力。例如,我担心有报道称,一个非常受欢迎的 ICLR 机械可解释性会议研讨会因看似牵强的理由而被 拒绝 。如果这是真的,那么这种行为是短视且适得其反的,尤其是在 AI 领域的学者们正在寻找保持自身价值的方法的时候。 ↩︎
当然,还有其他降低风险的技术——我并不是暗示可解释性是我们唯一的风险缓解工具。 ↩︎
事实上,考虑到 AI 巨大的经济价值,我非常怀疑即使在民主国家内部的公司之间,是否有可能通过放慢发展速度来降低风险。像这样直接与市场对抗,就像试图用脚趾阻止一辆货运火车一样。但是,如果出现了真正令人信服的自主 AI 危险证据,我认为这或许还有一线希望。与倡导者的说法相反,我认为今天并没有真正令人信服的证据。而且,我认为提供危险“确凿证据”的最有可能途径是可解释性本身——这也是我们应该加大对可解释性投入的另一个原因! ↩︎