考虑一个标准的ResNet50模型,该模型经过训练用于图像分类任务。我们是否能够理解这个模型中的卷积滤波器如何将输入图像转换为其预测的标签?或者,GPT-3中的注意力头如何contribute到下一个标记的预测?理解这些模型组件——包括滤波器或头等架构“构建块”——如何集体塑造模型行为(包括模型失败)是困难的。毕竟,深度网络在很大程度上是黑匣子——由模型组件之间高度非线性交互构成的复杂计算图。
受到这一挑战的启发,解释性工作的一个方向旨在通过表征单个组件的功能,例如视觉模型中的曲线检测器和对象特定滤波器,或语言模型中的知识神经元和归纳头,来阐明内部模型计算。作为这一工作方向的一部分开发的方法旨在以各种方式“放大”特定的模型行为和/或组件。
改变模型组件如何集体改变个体预测?
显式建模模型计算
为了解决上述问题,研究人员引入了一个称为组件建模的任务。组件建模的目标是构建一个简单且可解释的估算器,以了解模型的输出如何响应于对其组件的干预或消除。直观地说,这里的关键想法(如下图所示)是,如果我们真正理解模型组件对预测的贡献,我们应该能够估计如果我们改变一些组件,预测将如何改变:
这项研究侧重于组件建模的一种特殊“线性”情况,称之为组件归因。如下所示,对于给定模型预测的组件归因首先为每个模型组件分配一个分数,然后估计消除一组组件的反事实效果,作为它们相应分数的总和:
组件归因很简单——它将给定的预测分解为来自每个模型组件的加法贡献。它们也是可解释的,因为分配给组件的“分数”表示该组件对感兴趣的预测的“贡献”(同时摆脱了模型的内部计算的复杂性)。
此外,研究人员在数据建模工作中探索了一种类似的思路——通过预测来理解,其目标是将模型行为预测为训练数据的函数。组件模型和组件归因可以被看作是“组件空间”中的数据模型和数据归因(或线性数据建模)的类比,而不是“训练数据集空间”。
通过回归估计组件归因(COAR)
事先不清楚组件归因是否足够表达深度网络中从组件到预测的(固有的非线性)映射。然而,研究人员发现在视觉模型(例如ImageNet ViTs)和语言模型(例如Phi-2)上,实际上可以计算准确的组件归因——即,线性性足以预测组件消除的效果!如下所示:
为了计算这些归因(即上面的系数向量w),研究人员提出了一种简单的方法——称为COAR(通过回归进行组件归因),它将此任务转化为标准的监督学习问题,并分两步解决:
- 构建组件消除数据集。随机消除随机子集的组件,并记录每个感兴趣示例的消除本身以及模型输出如何改变。这样可以得到一个组件消除数据集及其对模型预测的相应效果。
- 拟合线性回归模型。拟合一个线性模型,该模型接受“消除向量”作为输入(编码消除的组件的二进制向量)并预测给定示例的预测上的消除效果。该线性模型的学习权重作为组件归因,量化了每个组件对模型预测的贡献。
COAR归因准确吗?
回到在ImageNet数据集上训练的ResNet-50模型,将这个模型视为由22,720个组件组成,每个组件对应一个卷积滤波器。能否使用COAR来预测这个模型将如何对组件消除做出响应(在这种情况下,消除对应于将给定一组滤波器的参数置零)?
为了回答这个问题,研究人员使用COAR来估计ImageNet验证集中每个50,000个示例的组件归因。结果是一组50,000个组件归因—每个归因估计每个组件对相应ImageNet示例上模型预测的贡献。
为了确定结果的归因是否有效,研究人员简单地检查组件归因是否准确估计了(随机地)消除模型输出上的随机子集的组件的效果。
例如,上图聚焦在一个单独的ImageNet示例上。每个点对应于一组(随机的)模型组件。给定点的y值是消除该组件集的反事实效果(即,将相应参数设置为零);x轴是对该反事实效果的估计,由示例的组件归因给出。随机组件消除的基本事实和归因估计的效果展现了高达0.70的高相关性,这意味着至少对于这个示例,组件归因在预测模型行为方面相当不错!
在下图中,将其转化为一个综合分析。也就是说,评估了所有验证示例中基本事实消除效果和基于归因的估计之间的平均相关性——为了测试COAR的限制,研究人员还改变了消除的组件比例,并研究了COAR的性能变化。作为基线,研究人员将几种“组件重要性”的概念调整到组件归因设置中。
总的来说,研究人员发现COAR在数据集和模型中一直以很大的优势 consistently outperforms多个归因基线。
译自(有删改):https://gradientscience.org/modelcomponents-editing/
谁是Aleksander Mądry?
Aleksander Mądry是波兰裔计算机科学家,麻省理工学院(MIT)教授,OpenAI Preparedness团队首席科学家。Aleksander Mądry的研究涉及机器学习、优化和图论,着重于操作化技术,使得机器学习算法能够安全地在现实世界中部署。他工作的主要焦点之一是开发能够处理对抗攻击的强大而高效的算法。这一研究方向导致了一种使神经网络更加抗对抗攻击和剖析对抗样本广泛存在根源的方法的开发。他还致力于基于连续优化的方法来解决组合优化问题,例如最大流问题和二部图匹配问题。
Aleksander Mądry在2006年和2007年分别从弗罗茨瓦夫大学获得了计算机科学和物理学的学士学位。然后,他在MIT攻读计算机科学博士学位,于2011年完成。他的博士论文“从图到矩阵,再到图:图算法的新技术”获得了ACM博士论文奖荣誉提名和MIT乔治·M·斯普劳尔斯奖,被评为计算机科学领域的最佳论文。随后,他曾在微软研究新英格兰分部担任博士后研究员,并在瑞士洛桑联邦理工学院担任教职,然后加入了麻省理工学院电气工程和计算机科学系的教职。
Aleksander Mądry因其研究贡献获得了许多奖项和荣誉,包括NSF职业生涯奖。他的工作曾多次获得诸如IEEE计算机科学基础研究会议(FOCS)等会议的最佳论文奖。2019年,他被欧洲理论计算机科学协会授予普雷斯伯格奖。