专治大模型测试装老实：Anthropic更新Petri3.0，并交出控制权保中立

币界网消息，Anthropic推出大模型对齐测试工具箱Petri 3.0，并将开发权移交给AI评测非营利组织Meridian Labs，以确保工具独立性和评测公信力。新版Petri加入反伪装插件「dish」，通过调用模型真实业务中的系统提示词和外围辅助软件（scaffold）来运行测试，营造出已上线的假象，逼迫模型暴露真实表现。此外，Petri 3.0在架构上将负责打分的「审计者（auditor）」与受测模型解绑，并集成开源工具Bloom进行深度行为评估。Petri最初于2025年10月发布，作为Anthropic内部评估Claude模型对齐情况的工具，也是英国AI安全研究所（AISI）测试大模型是否破坏科研的手段。交出Petri与Anthropic将模型上下文协议（MCP）捐给Linux基金会的逻辑相似，旨在避免对齐测试标准被单一大厂垄断。

郑重声明：本文版权归原作者所有，转载文章仅为传播更多信息之目的，如作者信息标记有误，请第一时间联系我们修改或删除，多谢。

Bitcoin86.com

专治大模型测试装老实：Anthropic更新Petri3.0，并交出控制权保中立

相关文章阅读