Anthropic: 映射大型语言模型的心智

5/26/2024

www.anthropic.com

https://www.chatbro.cn/news/6652a7e84546ac20c1d3554e

Anthropic公司报告了一项重大进展，成功解读了其部署的大型语言模型Claude Sonnet内部如何表示数百万个概念，这是对现代、生产级别大型语言模型内部工作机制的首次详细了解。

在2024年5月21日，Anthropic宣布对大型语言模型内部工作机制的深入理解。该公司成功识别了其中一款大型语言模型Claude Sonnet内部如何表示数百万个概念，这是对现代、生产级别大型语言模型内部的首次详细了解。

这一发现可能有助于未来提高AI模型的安全性。目前，AI模型通常被视为黑箱，其内部状态是一系列难以解释的神经元激活值。Anthropic通过“字典学习”技术，将这些神经元激活模式与人类可以理解的概念相匹配，从而打开了这个黑箱。

这种技术从一个非常简单的“玩具”语言模型开始，已经成功应用于提取和解释Claude 3.0 Sonnet中的特征。这些特征不仅包括具体的实体如城市、人物、化学元素、科学领域和编程语法，还包括更抽象的概念，如计算机代码中的错误、职业性别偏见讨论以及保密信息的对话。通过操纵这些特征，研究人员能够改变Claude的行为，这验证了这些特征在模型内部表示世界和行为中的作用。

Anthropic希望通过这些发现，提高模型的安全性，包括减少偏见、确保AI诚实行事以及防止滥用和严重风险的场景。尽管这项工作标志着对模型内部表示的理解取得了重大进展，但仍然存在挑战，比如发现所有学习到的概念以及理解模型如何使用这些表示。

要点

AI模型的内部工作机制通常是不透明的，这使得难以信任它们的安全性。
通过“字典学习”技术，可以将AI模型的神经元激活模式与人类可以理解的概念相匹配，从而提供了对模型内部工作机制的透视。
在Claude 3.0 Sonnet中提取的特征不仅包括具体实体，还包括更抽象的概念，显示了模型内部组织概念的能力。
通过操纵特征，可以改变模型的行为，这表明特征在模型的内部表示和行为中起着因果作用。
这些发现对于提高模型的安全性、监测潜在的危险行为、引导模型向有利的结果以及增强其他安全技术具有重要意义。
尽管这项研究取得了进展，但仍需解决如何完全发现所有学习到的概念以及理解模型如何使用这些表示的问题。