Bitcoin86.com

微软World-R1:用强化学习教视频模型「看懂」3D,不改架构PSNR涨10dB

币界网消息,微软研究院与浙江大学团队提出的World-R1,通过强化学习使文生视频模型学会3D几何一致性,且不修改模型架构。该方法生成视频后,利用预训练的3D基础模型Depth Anything 3重建场景的3D高斯(3DGS),并从新视角渲染与原视频比对,结合重建误差和轨迹偏差形成奖励信号,反馈给视频模型。基座模型为开源的万相WAN 2.1,训练出World-R1-small和World-R1-large,训练数据约3000条纯文本prompt,由Gemini生成。World-R1-large的PSNR(峰值信噪比)比WAN 2.1 14B提升7.91dB,small版提升10.23dB。25人盲测中,几何一致性胜率92%,整体偏好86%。代码已在GitHub开源,许可为CC BY-NC-SA 4.0。

郑重声明:本文版权归原作者所有,转载文章仅为传播更多信息之目的,如作者信息标记有误,请第一时间联系我们修改或删除,多谢。