Plaza 新闻汇总

Llama 3.3 70B 潜在空间映射

Goodfire Research团队在Llama 3.3 70B上训练了稀疏自动编码器(SAEs),并通过API发布了该可解释模型,供公众使用。据我们所知,这是目前为止功能最强大、且具备可解释性工具的公开可用模型。我们认为,让强大的模型具备易用的可解释性工具,将会推动新的研究和产品的产生。

这篇文章探讨了Llama 3.3-70B在中间层上的特征空间——你可以浏览一个交互式的特征地图,然后在API中使用这些特征,我们还演示了一些我们最喜欢的特征的操控效果。

我们还引入了一系列新功能,使基于SAE的操控更容易使用和更可靠。你可以在我们的API文档中学习如何使用它们,并在我们的游乐场中进行实验。我们将在新年发布一篇研究文章,介绍我们在操控方法上的改进。

**特征浏览器**

**特征地图**

我们使用DataMapPlot创建了一个交互式的UMAP可视化我们的SAE特征。这使得你可以探索可以用于操控和分类的潜在变量。

此可视化在移动设备上不可用。

有趣的是,许多与特殊格式标记或聊天数据重复元素(如知识截止日期)相关的特征,表现为孤立的点或远离中心组件的小簇。这可能有两种解释:特殊标记(例如,文本开头)通常具有非常大的幅度,因此我们可能期望它们的SAE特征也具有较大的幅度,因此不靠近其他点。第二种解释是,因为许多这些特征被重复得非常频繁(例如,每次聊天都有知识截止日期),SAE和基础模型可能已经记住了它们,这对它们的表示有影响。

**特征示例**

这里我们展示了一些我们发现有趣的特征簇的例子——这绝不是详尽无遗的,在这个潜在空间中还有很多有待发现的东西。

我们的SAE已经学习了令人惊讶的广泛的概念,尽管它仅仅是在互联网聊天数据上训练的。关于行为类型的精确区分的潜在变量经常出现,包括上面所示的簇,尽管我们还没有证实它们实际上具有不同的效果。除了生物医学知识簇之外,我们还看到了多个物理学和编程簇。有趣的是,多种形式的与名称相关的抽象,如占位符、引用和名称前缀,也聚集在一起。最后,我们注意到一个庞大而详细的语音和字符相关的特征簇。了解这些特征是否表现出吸收现象将会很有趣。

**特征操控**

你也可以使用SAE潜在变量来操控模型。我们的AutoSteer功能会自动查找SAE潜在变量以引发所需的行为,并设置它们的权重(你可以在我们的API中了解更多信息)。这里我们展示了一个更简单的设置,即当你调用variant.set(feature_id, z)时得到的结果。在这种情况下,我们只是简单地增加了所选特征的值。

你可以在下面的例子中看到简单的特征操控,我们要求Llama 3.3 70B在不同的操控强度下告诉我们关于仙女座星系的信息。x轴是操控强度,y轴是语言模型对响应是否连贯且实现了所需行为(在这种情况下,像海盗一样说话)的评估。因为我们使用Claude,并在0-100的范围内评分,所以我们称测量单位为centiClaude。

如果你花了很多时间操控语言模型,那么这些结果就不会太令人惊讶,但有一些值得注意的有趣之处。首先,尽管模型编写的评估在0.5左右急剧增加(即风格完全转变的地方),但在0.4的强度下,操控后的模型实际上开始表现出一些海盗的说话方式。然后模型完全转变风格,但事实性开始缓慢下降。例如,在0.6的强度下,大多数事实都是正确的,除了星系的大小,而在1的强度下,许多事实是不正确的(并且被重新缩放到航海单位,如节和更世俗的量级)。事实回忆是如何被潜在变量操控损坏的机制尚不清楚,但了解这一点将会非常有趣。

此可视化还展示了使用语言模型进行操控评估的一个陷阱:在1.4的操控强度下,所有事实主张都是不正确的,但模型仍然获得高分。据推测,通过要求评估模型检查事实性,我们可以解决这个具体问题(或将其隔离到一个单独的指标),但可能还有其他问题有待发现——在这个阶段,可解释性(和操控)仍然需要一个强大的定性基础。

**方法**

我们的方法总体上与我们在较小模型上训练SAE的方法一致,你可以在我们之前的研究文章中阅读相关内容。评估操控是很棘手的:它在很大程度上是定性的,并且依赖于SAE工作流程中的多个早期阶段,例如,获得良好的自动可解释性标签来选择要操控的特征。

为了扩展操控评估,我们主要采用了基于LLM的评估管道。根据我们的经验,比传统训练的SAE更窄、更稀疏的SAE更适合于操控,但这可能与分类器性能存在冲突。

**审核**

正如我们在发布我们的研究预览时所讨论的,我们审核掉了有害的特征。我们在Llama 3.1 8B和Llama 3.3 70B的SAE中分别删除了大约30%和3.5%的特征,但值得注意的是,这些数字也包括我们删除的无效特征。这些系统可能造成危害的程度各不相同,在使用这些较小的模型时,其中大多数与对犯罪内容的图形描述有关。不幸的是,这些特征反映了用于训练SAE的LMSys聊天数据的一个子集。

我们不认为在当前领先的开源模型上开源SAE会显著影响生物风险或说服等风险——基础模型似乎还不具备足够的能力。然而,我们致力于跟踪这些风险,并在我们继续扩大可解释性工作的同时,开发安全评估。这些评估将构成“负责任扩展计划”的基础。

我们还认为,在某些研究用例中,访问未经审核的SAE是有价值的。如果你是安全研究人员,可以通过发送电子邮件到[email protected]申请访问权限。

**局限性和改进方向**

特征操控和将特征用作分类器似乎存在冲突:特征操控受益于模型中间层附近更窄、更稀疏的SAE,而分类任务可能会受益于模型早期或晚期更广泛的SAE(取决于分类任务)。这可能可以通过结合交叉编码器(捕获所有层级的特征)和灵活的解码技术(如Matryoshka或迭代码本特征学习)来解决。

与所有当前的解释器模型一样,我们的SAE只捕获了一小部分模型计算——这既是因为它们训练的比较有限的数据集,也是因为SAE通常还没有实现对模型激活的全面重建。这是否是架构的根本局限性(例如,真正非线性的特征)还是一些更世俗的原因尚不清楚,尽管早期证据表明不完整重建不是一个简单的规模问题。

原文地址
2024-12-24 06:11:32