Bitcoin86.com

Ramp发布SWE-Bench私有基准:ClaudeFable5以87.5%胜率夺冠

币界网消息,Ramp发布了针对前沿AI编码智能体的私有测试基准Ramp SWE-Bench。该基准包含80个源自Ramp真实生产环境的后端开发任务,旨在解决公共评估数据集因模型预训练而导致的数据泄露与指标饱和问题。根据公布的14款模型横向评测结果,Anthropic最新推出的Claude Fable 5以87.5%的解决率高居榜首,Claude Opus 4.7和GPT-5.5并列第二,解决率均为83.75%。测试数据还揭示了不同模型在价格与性能间的权衡,国产模型Kimi K2.6与GLM 5.1解决率相近,分别为72.5%与71.25%,但Kimi K2.6的平均成本为0.69美元,比GLM 5.1便宜约34%。

郑重声明:本文版权归原作者所有,转载文章仅为传播更多信息之目的,如作者信息标记有误,请第一时间联系我们修改或删除,多谢。