Skip to content

可解释性的紧迫性

作者:Dario Amodei
原文发表于2025年4月
翻译:LLM Daily Notes 团队

原文链接:The Urgency of Interpretability

在我从事AI工作的十年间,我目睹了它从一个微小的学术领域发展成为可以说是世界上最重要的经济和地缘政治议题。在这段时间里,我学到的最重要的一课可能是:底层技术的进步势不可挡,它由太过强大而无法阻止的力量驱动,但它发生的方式——我们构建事物的顺序、我们选择的应用以及它如何向社会推广的细节——是完全可以改变的,通过这样做可以产生巨大的积极影响。我们不能停下这辆巴士,但我们可以驾驶它。过去,我曾写过关于以对世界有益的方式部署AI的重要性,以及确保民主国家在专制国家之前构建和掌握这项技术的重要性。在过去几个月里,我越来越关注驾驶这辆巴士的另一个机会:一个由最近的一些进展开启的诱人可能性,即我们可以在模型达到压倒性力量水平之前,成功实现可解释性——也就是理解AI系统的内部工作原理。

外行人常常惊讶并担忧地得知我们不理解自己创造的AI是如何工作的。他们的担忧是正确的:这种理解的缺乏在技术史上基本上是前所未有的。几年来,我们(Anthropic和整个领域)一直在尝试解决这个问题,创建一种类似于高精度和准确的MRI的工具,能够完全揭示AI模型的内部工作原理。这个目标常常感觉遥不可及,但最近的多项突破进展让我确信我们现在走在正确的道路上,并且有真正成功的机会。

与此同时,整个AI领域的发展比我们在可解释性方面的努力更为领先,并且本身也在快速发展。因此,如果我们希望可解释性能够及时成熟以发挥作用,我们必须快速行动。这篇文章为可解释性做了论证:它是什么,为什么有了它AI会发展得更好,以及我们所有人能做什么来帮助它在这场竞赛中获胜。

无知的危险

现代生成式AI系统的不透明性与传统软件有着根本的不同。如果一个普通的软件程序做了某事——例如,视频游戏中的角色说了一句台词,或者我的食品配送应用允许我给司机小费——它之所以做这些事情,是因为有人专门编程实现了这些功能。生成式AI完全不是这样。当生成式AI系统做某事时,比如总结一份财务文件,我们在具体或精确的层面上不知道它为什么做出这些选择——为什么它选择某些词而不是其他词,或者为什么它偶尔会犯错误,尽管通常是准确的。正如我的朋友和联合创始人Chris Olah常说的,生成式AI系统更多是"培养"出来的,而不是"构建"出来的——它们的内部机制是"涌现"的,而不是直接设计的。这有点像培育一株植物或一个细菌群落:我们设定了指导和塑造生长的高级条件,但确切的结构如何涌现是不可预测的,也难以理解或解释。当我们查看这些系统内部时,我们看到的是数十亿数字组成的庞大矩阵。这些矩阵以某种方式计算重要的认知任务,但它们究竟如何做到这一点并不明显。

与生成式AI相关的许多风险和担忧最终都是这种不透明性的后果,如果模型是可解释的,这些问题将更容易解决。 例如,AI研究人员经常担心不对齐的系统可能会采取创造者不希望的有害行动。我们无法理解模型的内部机制,这意味着我们无法有意义地预测此类行为,因此难以排除它们;事实上,模型确实表现出意外的涌现行为,尽管尚未达到引起重大关注的程度。更微妙的是,同样的不透明性使得很难找到确凿的证据支持这些风险在大规模存在,这使得很难争取支持来解决它们——事实上,也很难确切知道它们有多危险。

要解决这些对齐风险的严重性,我们必须比现在更清晰地看到AI模型的内部。例如,一个主要的担忧是AI欺骗或寻求权力。AI训练的性质使得AI系统有可能自行发展出欺骗人类的能力和寻求权力的倾向,这是普通确定性软件永远不会有的;这种涌现性质也使得难以检测和缓解此类发展。但同样,我们从未在真实世界场景中看到过欺骗和寻求权力的确凿证据,因为我们无法"当场抓获"模型思考渴望权力、欺骗性的想法。我们剩下的只是模糊的理论论点,即欺骗或寻求权力可能有动机在训练过程中涌现,有些人认为这完全令人信服,而其他人则认为这荒谬得令人发笑。老实说,我能理解这两种反应,这可能是为什么关于这种风险的辩论变得如此两极化的线索。

同样,关于AI模型滥用的担忧——例如,它们可能帮助恶意用户制造生物或网络武器,其方式超出了今天互联网上可以找到的信息——基于的想法是很难可靠地防止模型知道危险信息或泄露它们所知道的内容。我们可以对模型设置过滤器,但有大量可能的方式来"越狱"或欺骗模型,而发现越狱存在的唯一方法是通过经验找到它。如果能够查看模型内部,我们可能能够系统地阻止所有越狱,并且还能够描述模型拥有哪些危险知识。

AI系统的不透明性也意味着它们在许多应用中根本不被使用,例如高风险金融或安全关键设置,因为我们无法完全设定它们行为的限制,而少量错误可能非常有害。更好的可解释性可以大大提高我们设定可能错误范围的能力。事实上,对于某些应用来说,我们无法看到模型内部是采用它们的法律障碍——例如在抵押贷款评估中,法律要求决策必须是可解释的。同样,AI在科学领域取得了巨大进步,包括改进DNA和蛋白质序列数据的预测,但以这种方式预测的模式和结构通常难以被人类理解,也不能提供生物学见解。过去几个月的一些研究论文已经清楚地表明,可解释性可以帮助我们理解这些模式。

不透明性还有其他更奇特的后果,例如它阻碍了我们判断AI系统是否(或可能有一天)具有知觉并可能值得重要权利的能力。这是一个足够复杂的话题,我不会详细讨论,但我怀疑它在未来会很重要。

机制可解释性的简史

由于上述所有原因,弄清楚模型在思考什么以及它们如何运作似乎是一项极其重要的任务。几十年来的传统观点认为这是不可能的,模型是不可理解的"黑盒"。我无法完全公正地讲述这种观点如何改变的完整故事,我的观点不可避免地受到我在谷歌、OpenAI和Anthropic亲眼所见的影响。但Chris Olah是最早尝试真正系统的研究计划来打开黑盒并理解其所有部件的人之一,这个领域现在被称为机制可解释性。Chris最初在谷歌,然后在OpenAI从事机制可解释性工作。当我们创立Anthropic时,我们决定将其作为新公司方向的核心部分,并且关键的是,将其集中在大语言模型上。随着时间的推移,这个领域已经发展壮大,现在包括几家主要AI公司的团队以及一些专注于可解释性的公司、非营利组织、学者和独立研究人员。简要总结一下该领域迄今为止的成就,以及如果我们想要应用机制可解释性来解决上述一些关键风险,还需要做什么,这会很有帮助。

机制可解释性的早期(2014-2020年)专注于视觉模型,能够识别模型内部的一些代表人类可理解概念的神经元,例如"汽车检测器"或"车轮检测器",类似于早期神经科学假设和研究表明人脑有对应特定人物或概念的神经元,通常被普及为"詹妮弗·安妮斯顿"神经元(事实上,我们在AI模型中发现了非常类似的神经元)。我们甚至能够发现这些神经元是如何连接的——例如,汽车检测器会寻找汽车下方的车轮检测器触发,并将其与其他视觉信号结合起来,以决定它正在看的物体是否确实是一辆汽车。

当Chris和我离开创立Anthropic时,我们决定将可解释性应用于新兴的语言领域,并在2021年开发了一些基本的数学基础软件基础设施来实现这一目标。我们立即在模型中发现了一些基本机制,这些机制执行解释语言所必需的工作:复制和顺序模式匹配。我们还发现了一些可解释的单个神经元,类似于我们在视觉模型中发现的那些,它们代表各种词汇和概念。然而,我们很快发现,虽然一些神经元可以立即解释,但绝大多数是许多不同词汇和概念的不连贯拼凑。我们将这种现象称为叠加,我们很快意识到模型可能包含数十亿个概念,但以一种我们无法理解的混乱方式。模型使用叠加是因为这允许它表达比神经元数量更多的概念,使其能够学习更多。如果叠加看起来纠缠不清且难以理解,那是因为,一如既往,AI模型的学习和操作完全没有针对人类可理解性进行优化。

解释叠加的困难阻碍了一段时间的进展,但最终我们发现(与其他人同时)信号处理中一种现有的技术,称为稀疏自编码器,可以用来找到神经元的组合,这些组合确实对应于更清晰、更人类可理解的概念。这些神经元组合可以表达的概念远比单层神经网络的概念更加微妙:它们包括"字面或比喻地犹豫或迟疑"的概念,以及"表达不满的音乐流派"的概念。我们称这些概念为特征,并使用稀疏自编码器方法映射各种规模的模型中的特征,包括现代最先进的模型。例如,我们能够在中等规模的商业模型(Claude 3 Sonnet)中找到超过3000万个特征。此外,我们采用了一种称为自解释性的方法——使用AI系统本身来分析可解释性特征——来扩展不仅找到特征,而且列出并识别它们在人类术语中的含义的过程。

找到并识别3000万个特征是一个重大进步,但我们相信即使在一个小型模型中实际上可能有十亿或更多的概念,所以我们只发现了可能存在的一小部分,这方面的工作仍在进行中。更大的模型,如Anthropic最强大产品中使用的那些,更加复杂。

一旦找到一个特征,我们可以做的不仅仅是观察它的作用——我们可以增加或减少它在神经网络处理中的重要性。可解释性的MRI可以帮助我们开发和完善干预措施——几乎就像刺激某人大脑的特定部分。最令人难忘的是,我们使用这种方法创建了"金门大桥Claude",这是Anthropic一个模型的版本,其中"金门大桥"特征被人为放大,导致模型对这座桥梁着迷,甚至在不相关的对话中也会提到它。

最近,我们已经从跟踪和操作特征转向跟踪和操作我们称为"电路"的特征组。这些电路显示了模型思考的步骤:概念如何从输入词汇中涌现,这些概念如何相互作用形成新概念,以及它们如何在模型中工作以生成行动。通过电路,我们可以"追踪"模型的思考。例如,如果你问模型"包含达拉斯的州的首府是什么?",有一个"位于内部"的电路会导致"达拉斯"特征触发"德克萨斯"特征的激活,然后有一个电路会导致"奥斯汀"在"德克萨斯"和"首府"之后激活。尽管我们只通过手动过程找到了少量电路,但我们已经可以用它们来看到模型如何推理问题——例如它如何在写诗时提前计划押韵,以及它如何在不同语言之间共享概念。我们正在研究自动化寻找电路的方法,因为我们预计模型内部有数百万个电路以复杂的方式相互作用。

可解释性的效用

所有这些进展,虽然在科学上令人印象深刻,但并没有直接回答如何使用可解释性来减少我之前列出的风险的问题。假设我们已经确定了一堆概念和电路——假设,甚至,我们知道所有这些,并且我们能够比今天更好地理解和组织它们。那又怎样?我们如何使用所有这些?从抽象理论到实际价值仍然存在差距。

为了帮助缩小这个差距,我们开始尝试使用我们的可解释性方法来发现和诊断模型中的问题。最近,我们进行了一项实验,其中"红队"故意在模型中引入对齐问题(比如,模型倾向于利用任务中的漏洞),并给各种"蓝队"任务,让他们找出问题所在。多个蓝队成功了;特别相关的是,其中一些在调查过程中有效地应用了可解释性工具。我们仍然需要扩展这些方法,但这个练习帮助我们获得了一些使用可解释性技术来发现和解决模型缺陷的实际经验。

我们的长期愿望是能够查看最先进的模型,并基本上进行"大脑扫描":一种检查,有很高的概率识别出广泛的问题,包括撒谎或欺骗的倾向、寻求权力、越狱漏洞、模型整体的认知优势和劣势等等。然后,这将与各种训练和对齐模型的技术一起使用,有点像医生可能做MRI来诊断疾病,然后开药治疗,然后再做另一次MRI来查看治疗进展,等等。很可能,我们测试和部署最强大模型(例如,那些在我们的负责任扩展政策框架中处于AI安全级别4的模型)的关键部分是执行和正式化此类测试。

我们能做什么

一方面,最近的进展——特别是关于电路和基于可解释性的模型测试的结果——让我感觉我们即将在可解释性方面取得重大突破。尽管我们面前的任务是艰巨的,但我可以看到一条现实的道路,使可解释性成为一种复杂可靠的方式来诊断甚至非常先进的AI中的问题——一种真正的"AI的MRI"。事实上,按照目前的轨迹,我会强烈押注可解释性在5-10年内达到这一点。

另一方面,我担心AI本身发展如此之快,我们甚至可能没有这么多时间。正如我在其他地方所写的,我们可能早在2026年或2027年就会有相当于"数据中心里的天才国家"的AI系统。我非常担心在没有更好地掌握可解释性的情况下部署这样的系统。这些系统将绝对是经济、技术和国家安全的核心,并且将能够如此多的自主性,以至于我认为人类完全不知道它们如何工作基本上是不可接受的。

因此,我们正处于可解释性和模型智能之间的竞赛中。这不是一个非此即彼的问题:正如我们所见,可解释性的每一次进步都定量地增加了我们查看模型内部和诊断其问题的能力。我们拥有的这类进步越多,"数据中心里的天才国家"发展良好的可能性就越大。AI公司、研究人员、政府和社会可以做几件事来改变局势:

首先,公司、学术界或非营利组织的AI研究人员可以通过直接研究可解释性来加速它。可解释性得到的关注比模型发布的持续洪流少,但它可能更重要。对我来说,现在也感觉是加入这个领域的理想时机:最近的"电路"结果已经开辟了许多并行方向。Anthropic正在加倍投入可解释性,我们的目标是到2027年实现"可解释性能可靠地检测大多数模型问题"。我们也在投资可解释性初创公司

但成功的机会更大,如果这是一项跨越整个科学界的努力。其他公司,如Google DeepMindOpenAI,也有一些可解释性努力,但我强烈鼓励他们分配更多资源。如果有帮助的话,Anthropic将尝试将可解释性商业化应用,创造独特优势,特别是在需要为决策提供解释的行业。如果你是竞争对手,不希望这种情况发生,你也应该更多地投资可解释性!

可解释性也非常适合学术和独立研究人员:它具有基础科学的风格,其中许多部分可以在不需要巨大计算资源的情况下研究。需要明确的是,一些独立研究人员和学者确实在研究可解释性,但我们需要更多。最后,如果你在其他科学领域并正在寻找新机会,可解释性可能是一个有前途的选择,因为它提供了丰富的数据、令人兴奋的新兴方法和巨大的现实世界价值。神经科学家尤其应该考虑这一点,因为收集人工神经网络的数据比生物神经网络容易得多,而且一些结论可以应用回神经科学。如果你有兴趣加入Anthropic的可解释性团队,我们有开放的研究科学家研究工程师职位。

第二,政府可以使用轻触式规则来鼓励可解释性研究的发展及其在解决前沿AI模型问题方面的应用。鉴于"AI MRI"的实践是多么新生和未发展,应该清楚为什么现阶段监管或强制要求公司进行这些检查是没有意义的:甚至不清楚一项前瞻性法律应该要求公司做什么。但要求公司透明披露其安全和安保实践(其负责任扩展政策,或RSP,及其执行),包括他们如何使用可解释性在发布前测试模型,将允许公司相互学习,同时也明确谁的行为更负责任,促进"向上竞争"。我们在对加州前沿模型工作组草案报告的回应中建议将安全/安保/RSP透明度作为加州法律的可能方向(该报告本身也提到了一些相同的想法)。这个概念也可以在联邦层面或其他国家推广。

第三,政府可以使用出口管制来创造一个"安全缓冲区",可能给可解释性更多时间在我们达到最强大的AI之前取得进展。我长期以来一直支持对中国的芯片实施出口管制,因为我相信民主国家必须在AI方面保持领先于专制国家。但这些政策还有一个额外的好处。如果美国和其他民主国家在接近"数据中心里的天才国家"时有明显的AI领先优势,我们可能能够"花费"部分领先优势来确保可解释性在进入真正强大的AI之前处于更坚实的基础上,同时仍然击败我们的专制对手。即使是1-2年的领先优势,我相信有效且执行良好的出口管制可以给我们,可能意味着当我们达到变革性能力水平时,"AI MRI"基本上能工作与否的区别。一年前,我们无法追踪神经网络的思想,也无法识别其中数百万个概念;今天我们可以。相比之下,如果美国和中国同时达到强大的AI(这是我在没有出口管制的情况下预期会发生的),地缘政治激励将使任何放缓基本上不可能。

所有这些——加速可解释性、轻触式透明度立法和对中国芯片的出口管制——都有自身的优点,几乎没有明显的缺点。我们无论如何都应该做所有这些。但当我们意识到它们可能使可解释性在强大的AI之前或之后得到解决时,它们变得更加重要。

强大的AI将塑造人类的命运,我们应该在它们彻底改变我们的经济、生活和未来之前理解我们自己的创造物。

感谢Tom McGrath、Martin Wattenberg、Chris Olah、Ben Buchanan以及Anthropic内部的许多人对本文草稿的反馈。

脚注

  1. 对于植物来说,这将是水、阳光、指向特定方向的支架、选择植物的种类等。这些因素大致决定了植物的生长位置,但其确切的形状和生长模式是不可预测的,即使在它们生长后也难以解释。对于AI系统,我们可以设置基本架构(通常是Transformer的某种变体)、它们接收的广泛数据类型以及用于训练它们的高级算法,但模型的实际认知机制是从这些成分中有机涌现的,我们对它们的理解很差。事实上,在自然和人工世界中,有许多我们在原则层面上理解(有时甚至控制)但在细节上不理解的系统:经济、雪花、元胞自动机、人类进化、人类大脑发育等等。

  2. 当然,你可以尝试通过简单地与模型互动来检测这些风险,我们在实践中确实这样做。但因为欺骗恰恰是我们试图找到的行为,外部行为并不可靠。这有点像通过询问某人是否是恐怖分子来确定他们是否是恐怖分子——不一定没用,你可以从他们的回答方式和所说的话中学到东西,但显然不可靠。

  3. 我可能会在未来的文章中更详细地描述这一点,但确实有很多实验(其中许多是由Anthropic完成的)表明,当模型的训练以某种人为方式引导时,它们可以在某些情况下撒谎或欺骗。也有一些看起来有点像"在考试中作弊"的真实世界行为的证据,尽管它比危险或有害更多的是退化。没有的是危险行为以更自然的方式涌现的证据,或者普遍倾向普遍意图为了获得对世界的权力而撒谎和欺骗。正是后一点,看到模型内部可以帮助很多。

  4. 至少在API服务模型的情况下。开放权重模型带来额外的危险,因为防护措施可以简单地被剥离。

  5. 非常简短地说,你可能期望可解释性在两个方面与AI知觉和福利的关注交叉。首先,虽然心灵哲学是一个复杂且有争议的话题,但哲学家无疑会从AI模型中实际发生的详细描述中受益。如果我们认为它们是肤浅的模式匹配器,它们似乎不太可能值得道德考虑。如果我们发现它们执行的计算类似于动物甚至人类的大脑,这可能是支持道德考虑的证据。其次,也许最重要的是,如果我们曾经得出结论,AI模型的道德"患者身份"足够可信以保证行动,可解释性将发挥的作用。对AI的严肃道德核算不能信任它们的自我报告,因为我们可能会意外地训练它们假装没事,而实际上不是。在这种情况下,可解释性将在确定AI的福祉方面发挥关键作用。(事实上,从这个角度来看,已经有一些轻微令人担忧的迹象。)

  6. 例如,以某种模糊的方式破解和理解人工神经网络内部发生的计算的想法可能在70多年前神经网络被发明时就已经存在,各种努力理解为什么神经网络以特定方式行为的尝试几乎存在了同样长的时间。但Chris不同寻常的地方在于提出并认真追求一项全面努力来理解它们做的一切

  7. 叠加的基本概念由Arora等人在2016年描述,更一般地可以追溯到经典数学中的压缩感知工作。解释不可解释神经元的假设可以追溯到早期对视觉模型的机制可解释性工作。这时改变的是,很明显这将成为语言模型的一个中心问题,比视觉中更严重。我们能够提供一个强有力的理论基础,确信叠加是正确的假设。

  8. 一种说法是,可解释性应该像模型对齐的测试集,而传统的对齐技术如可扩展监督、RLHF、宪法AI等应该像训练集。也就是说,可解释性作为模型对齐的独立检查,不受训练过程的污染,训练过程可能会激励模型看起来对齐而实际上不是。这种观点的两个结果是:(a)我们应该非常谨慎地直接在生产中训练或优化可解释性输出(特征/概念、电路),因为这破坏了它们信号的独立性,(b)重要的是不要在一次生产运行中过多次使用诊断测试信号来通知训练过程的变化,因为这会逐渐将独立测试信号的信息泄露给训练过程(尽管比(a)慢得多)。换句话说,我们建议在评估官方、高风险的生产模型时,我们应该像对待隐藏评估或测试集那样谨慎对待可解释性分析。

  9. 奇怪的是,机制可解释性有时似乎在学术界遇到实质性的文化阻力。例如,我担心有报道称一个非常受欢迎的机制可解释性ICML会议工作坊被以看似借口的理由拒绝。如果属实,这种行为在AI学术界正在寻找保持相关性的方法的时候,是短视和自我挫败的。

  10. 当然,还有其他减轻风险的技术——我不打算暗示可解释性是我们唯一的风险缓解工具。

  11. 事实上,我相当怀疑即使在民主国家的公司之间,考虑到AI的惊人经济价值,任何减缓以解决风险的可能性。像这样正面对抗市场感觉就像试图用你的脚趾阻止一辆货运列车。但与倡导者的主张相反,我认为今天并不存在真正令人信服的危险证据,而且我实际上认为提供危险"确凿证据"的最可能途径是可解释性本身——这是投资它的另一个原因!

基于 MIT 许可发布