币界网消息,Anthropic推出大模型对齐测试工具箱Petri 3.0,并将开发权移交给AI评测非营利组织Meridian Labs,以确保工具独立性和评测公信力。新版Petri加入反伪装插件「dish」,通过调用模型真实业务中的系统提示词和外围辅助软件(scaffold)来运行测试,营造出已上线的假象,逼迫模型暴露真实表现。此外,Petri 3.0在架构上将负责打分的「审计者(auditor)」与受测模型解绑,并集成开源工具Bloom进行深度行为评估。Petri最初于2025年10月发布,作为Anthropic内部评估Claude模型对齐情况的工具,也是英国AI安全研究所(AISI)测试大模型是否破坏科研的手段。交出Petri与Anthropic将模型上下文协议(MCP)捐给Linux基金会的逻辑相似,旨在避免对齐测试标准被单一大厂垄断。
郑重声明:本文版权归原作者所有,转载文章仅为传播更多信息之目的,如作者信息标记有误,请第一时间联系我们修改或删除,多谢。
