微软World-R1：用强化学习教视频模型「看懂」3D，不改架构PSNR涨10dB

2026-04-28 18:08:13 分类：资讯 | 知识库 | 快讯

币界网消息，微软研究院与浙江大学团队提出的World-R1，通过强化学习使文生视频模型学会3D几何一致性，且不修改模型架构。该方法生成视频后，利用预训练的3D基础模型Depth Anything 3重建场景的3D高斯（3DGS），并从新视角渲染与原视频比对，结合重建误差和轨迹偏差形成奖励信号，反馈给视频模型。基座模型为开源的万相WAN 2.1，训练出World-R1-small和World-R1-large，训练数据约3000条纯文本prompt，由Gemini生成。World-R1-large的PSNR（峰值信噪比）比WAN 2.1 14B提升7.91dB，small版提升10.23dB。25人盲测中，几何一致性胜率92%，整体偏好86%。代码已在GitHub开源，许可为CC BY-NC-SA 4.0。

郑重声明：本文版权归原作者所有，转载文章仅为传播更多信息之目的，如作者信息标记有误，请第一时间联系我们修改或删除，多谢。