Goodfire发布vpd方法，攻克注意力层拆解难题

2026-05-06 19:06:40 分类：资讯 | 知识库 | 快讯

币界网消息，Goodfire公司发布了vpd（虚拟参数分解）方法，成功将语言模型的权重参数拆解为约1万个可独立理解和编辑的子组件。这一方法攻克了可解释性领域的长期瓶颈，尤其是在注意力层的拆解方面。与此前的稀疏自编码器不同，vpd拆解的是模型本身的「源代码」，即固化在参数里的计算逻辑。该方法通过将每个权重矩阵分解为一组秩一矩阵，训练辅助网络判断哪些子组件是因果必需的，哪些可以移除而不影响输出。实验中，vpd能跨头提取分布式的注意力算法，找到了可解释的注意力模式。Goodfire还验证了精准编辑能力，直接修改单个子组件能改变模型特定行为，且对其他能力几乎无影响。

郑重声明：本文版权归原作者所有，转载文章仅为传播更多信息之目的，如作者信息标记有误，请第一时间联系我们修改或删除，多谢。