币界网消息,Goodfire公司发布了vpd(虚拟参数分解)方法,成功将语言模型的权重参数拆解为约1万个可独立理解和编辑的子组件。这一方法攻克了可解释性领域的长期瓶颈,尤其是在注意力层的拆解方面。与此前的稀疏自编码器不同,vpd拆解的是模型本身的「源代码」,即固化在参数里的计算逻辑。该方法通过将每个权重矩阵分解为一组秩一矩阵,训练辅助网络判断哪些子组件是因果必需的,哪些可以移除而不影响输出。实验中,vpd能跨头提取分布式的注意力算法,找到了可解释的注意力模式。Goodfire还验证了精准编辑能力,直接修改单个子组件能改变模型特定行为,且对其他能力几乎无影响。
郑重声明:本文版权归原作者所有,转载文章仅为传播更多信息之目的,如作者信息标记有误,请第一时间联系我们修改或删除,多谢。
