Muon训练时自信很准，换到新样本就容易过头

2026-04-27 16:07:13 分类：资讯 | 知识库 | 快讯

币界网消息，Muon优化器在训练时表现出很高的自信度，但在新样本上容易出现过度自信的现象。最新论文《too sharp, too sure: when calibration follows curvature》指出，模型在训练集上能准确判断自己的把握程度，但在测试集上，置信度与实际正确率不符，导致过度自信。实验显示，Muon在CIFAR-10图像分类任务中的测试ECE为0.065，AdamW为0.061，SGD为0.081，SAM为0.020。Muon的训练ECE几乎为0，显示出训练集与测试集之间的落差更明显。论文提出的Calmo方法能将Muon的测试ECE降至0.019，但尚未在大语言模型上验证。DeepSeek V4技术报告显示，部分模块仍使用AdamW，提醒需关注Muon在泛化时的表现。

郑重声明：本文版权归原作者所有，转载文章仅为传播更多信息之目的，如作者信息标记有误，请第一时间联系我们修改或删除，多谢。