解决视频生成穿帮问题!浙大&微软3000条纯文本让模型理解3D

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
解决视频生成穿帮问题!浙大&微软3000条纯文本让模型理解3D
8169点击    2026-05-16 13:34

视频生成有个老毛病,镜头一动就“穿帮”,终于有了靠谱的解法。


浙大联合微软亚洲研究院最新提出的World-R1,不改架构、不要3D数据,纯靠强化学习就让视频生成模型学会了“理解”三维世界。


解决视频生成穿帮问题!浙大&微软3000条纯文本让模型理解3D


所以,AI视频为啥总穿帮?


现在的视频生成模型,画面精美是精美了,但有个致命伤:不懂三维。


你让镜头转个弯,建筑就扭了;推进去看个近景,物体就消失了。


本质上,这些模型只是在二维像素层面做统计拟合,根本不理解眼前的世界是个三维空间。


以前的解法呢?往模型里硬塞3D模块,但代价是推理成本飙升、泛化能力变差,而且只能做图生视频,文生视频根本搞不定。


World-R1 的思路:不改架构,靠 RL“唤醒”


World-R1 的出发点很简单:


预训练的视频模型里面已经有 3D 知识了,只是“沉睡”着。用强化学习把它叫醒就行。


具体怎么操作?三板斧。


解决视频生成穿帮问题!浙大&微软3000条纯文本让模型理解3D


第一斧:把相机轨迹“藏进”噪声


别人控制相机运动,需要额外训练一个控制网络。


World-R1说:不需要。


它从文字里提取运动关键词(比如“push in”“orbit left”),生成相机轨迹,然后通过光流投影,直接把运动信息编码进扩散模型的初始噪声里。


一行代码不改,一个参数不加,相机就能跟着文字走。


第二斧:让3D模型当“裁判”


RL的核心是奖励函数。


World-R1设计了一套四维复合奖励:元视角评分,用Depth Anything 3把视频“抬”成3D高斯溅射,再从一个完全不同的角度去看。


正面看没问题?换个角度可能就“露馅”了。


用Qwen3-VL当评审员,专门抓“纸片人”。


重建保真度,3D重建完再渲染回去,跟原视频逐像素比对。


轨迹对齐度,看生成的相机运动有没有老实听话。


通用画质,HPSv3 打分,确保画面不变丑。


解决视频生成穿帮问题!浙大&微软3000条纯文本让模型理解3D


整套奖励通过**Flow-GRPO框架优化。


第三斧:让模型“又硬又软”


纯追求3D一致性会出问题:行人不会走路了,旗帜不会飘了,整个世界像冻住了一样。


World-R1的解法是周期性解耦训练:正常阶段,用完整奖励猛练几何一致性;


每100步,切换到“动态专场”,只用通用奖励在高动态数据上训练。


效果直接建筑稳如泰山,旗帜照样飘。


3000条纯文本,没有一帧视频


你可能会问:训练数据从哪来?


答案是:不要视频,不要 3D 资产,纯文本就够了。


研究团队用Gemini生成了约3000条高质量场景描述,涵盖峡谷、城市、深海、蘑菇森林等各类场景,按相机运动难度分了三级。


模型就这样在“纯想象”中,学会了真实世界的物理规律。


实验数据


基于Wan 2.1训练了两个版本:World-R1-Small(1.3B)和 World-R1-Large(14B)。


3D一致性


解决视频生成穿帮问题!浙大&微软3000条纯文本让模型理解3D


Small版比基线PSNR涨了10.23 dB,Large 版涨了7.91 dB。LPIPS 从0.467降到0.201,几何幻觉被干掉了大半。


画质不降反升


解决视频生成穿帮问题!浙大&微软3000条纯文本让模型理解3D


在VBench上,World-R1-Small美学质量65.74、成像质量67.53,全面超越基线Wan 2.1-1.3B。


而那些装了额外相机控制模块的方法(ReCamMaster、DAS),美学质量只有38~42分。


3D增强了,画质也更好了,鱼和熊掌兼得!


眼见为实


解决视频生成穿帮问题!浙大&微软3000条纯文本让模型理解3D


3D重建的点云也能看出差距:基线模型的重建像一堆散沙,World-R1的像一座真实的建筑。


消融:每一刀都切在要害上


解决视频生成穿帮问题!浙大&微软3000条纯文本让模型理解3D


消融实验的结论很清晰:去掉3D感知奖励,几何一致性直接崩盘;


去掉通用生成奖励,画面美学肉眼可见地劣化;


去掉噪声包裹的隐式相机控制,收敛速度慢了一倍;


去掉周期性解耦训练,动态场景的生成能力几乎全废。


四个组件环环相扣,缺一不可。


World-R1让视频模型“理解”三维世界,不必推倒重来——


只需用正确的奖励信号,唤醒它已有的空间感知。


论文链接:https://arxiv.org/abs/

项目主页:https://aka.ms/world-r1

代码:https://github.com/microsoft/World-R1


文章来自于微信公众号 “量子位”,作者 “量子位”

AITNT-国内领先的一站式人工智能新闻资讯网站