视频模型能不能通过生成视频来解决推理问题?——
答案是能。尤其在空间类任务(比如走迷宫)上,比图文模型更擅长,更稳。
DeepWisdom研究团队提出:视频生成模型不仅能画画,更能推理。

它们通过生成连续的视频帧来进行时空规划,这种能力在处理复杂空间任务时,甚至超越了GPT-5和Gemini 2.5 Pro等顶尖的多模态大模型。

为了验证这一观点,团队推出了VR-Bench——这是首个通过迷宫任务评估视频模型空间推理(spatial reasoning)能力的基准测试。
那团队是如何提出这一观点的呢?
试想你在玩一个超复杂的3D迷宫游戏。作为人类,大脑绝不会把这事拆成一串枯燥的文字指令,一边走一边在心里念:“往前走两步”“看到灰墙停下”“再左转九十度”。
这种纯靠文字推理的方式,其实是在对丰富的现实世界进行降维。
三维空间里连续的纵深感、各种物理规律,被硬生生挤压成干瘪的符号,就像你在电话里给朋友指路:你说“在红房子那儿左转”,对方追问“深红还是粉红”;你说“再往前走一点”,对方不知道是五米还是五十米。路线一复杂,信息在语言转译中不断丢失,双方很快会迷路。
而真实情况是,你在脑海中构建的是一个动态的视觉场景。
每一帧画面都承载着大量信息:你不仅看到路怎么走,还能直觉到墙壁的质感、光线明暗,以及前方通道有多深。你会像放电影一样在脑中预演路线,这种连续画面天然地把空间连贯性和因果关系串起来。
于是,你甚至还没迈出第一步,就已经“看见”哪条路是死胡同,凭直觉就能完成复杂的空间规划,而不必费劲把画面翻译成文字。

目前的AI领域正处于一个十字路口:大语言模型(LLM)通过“思维链”(CoT)学会了用文字进行逻辑推理,那么视频生成模型呢?
Sora和Veo3生成的视频虽然逼真,但它们真的理解物理空间和因果逻辑吗?还是仅仅在通过概率“猜”下一帧的像素?
让我们先看看现有方案的局限性。
长期以来,视频生成模型的评测标准一直停留在“好不好看”上——画质是否清晰、动作是否流畅、是否符合文本描述以及物理规律。
这导致我们忽略了视频模型作为World Simulator的核心潜能:对物理世界动态演变的预测与规划能力。
另一方面,目前主流的视觉推理依赖于“视觉语言模型”(VLM)。
它们的做法是“Reasoning via Text”——将看到的图像转化为文本描述,然后在语言的潜在空间里进行推理。
而本论文指出,这种方式在面对复杂的空间导航时存在天然缺陷:当迷宫变大、维度变高(如3D)时,描述环境所需的文本量呈指数级爆炸,导致模型“上下文饱和”,最终迷失方向。
基于这个困境,VR-Bench提出了一个新范式:Reasoning via Video。
在这个范式中,视频模型不是在生成结果,而是在生成过程。
每一帧画面的生成,实际上就是模型在进行一步推理。连续的视频帧构成了“帧链”(Chain-of-Frame),它天然地包含了空间的一致性和时间的因果性。
为了系统性地衡量这种能力,VR-Bench构建了一个包含7920个程序化生成视频的庞大测试场,涵盖五大类高难度空间任务:

为什么 LLM 能通过强化学习学会复杂的数学推理?
核心在于答案是唯一的,对就是对,错就是错。Jason之前提出了一个Verifier Rule,即训练AI解决某项任务的难易程度与该任务的可验证性成正比。
但在视频生成领域,我们长期缺乏这种硬指标。
模型生成了一段视频,到底逻辑对不对?以往我们只能模糊地说“看着不错”,这导致模型难以获得明确的奖励信号来进行评估。
VR-Bench填补了这块空白。它不看颜值,看轨迹。通过像自动驾驶系统一样追踪视频中物体的运动路径,并将其与最优路径进行比对,我们为视频模型建立了一套像数学题一样客观的评分体系:
这一设计的深远意义在于:它构建了一个完美的“奖励机制”。
VR-Bench 首次将视频评测从视觉鉴赏转为理性的路径验证。这套清晰的信号系统,为未来引入强化学习、让视频模型探索空间规律铺平了道路。
有了这套机制,视频生成模型也有望迎来属于它们的“R1时刻”。

VR-Bench的实验结果揭示了视频模型在空间推理上的巨大优势。
在处理简单的迷宫任务时,像GPT-5 High或Gemini 2.5 Pro这样的VLM确实能与顶尖的视频模型分庭抗礼,甚至在某些指标上略胜一筹 。
但一旦我们将迷宫难度提升到困难模式,VLM的性能就会遭遇断崖式下跌。
相比之下,视频生成模型展现出了令人惊讶的泛化鲁棒性。
在面对大规模、高难度的迷宫挑战时,Sora-2和Seedance-1.0-pro等视频模型全面超越了GPT-5等顶尖VLM。
这种逆袭并非偶然,而是源于底层推理范式的根本差异:VLM试图将静态视觉转化为文本Token,随着迷宫规模扩大,海量的Token迅速导致上下文饱和,从而阻断了长程推理能力。
反观视频模型,它们通过构建时空连贯的Chain-of-Frame进行推理,这种“视觉动力学”机制保证了无论场景多么复杂,每帧的视觉 Token 密度都保持稳定,从而天然地维持了空间连续性。
数据更是揭示了一个反直觉的现象:Sora-2在不规则迷宫的高难度设定下,其成功率(SR)甚至出现了不降反升的趋势。
这一发现强有力地证明,视频生成不仅仅是视觉模拟,更是一种比文本更具可扩展性的、原生的空间推理范式。
实验还发现了一个有趣的现象:即便VLM偶尔能找到终点,它们规划的路径往往也是扭曲且冗余的。
数据显示,VLM 的步骤偏差(Step Deviation)极高,意味着它们在瞎走冤枉路。而视频模型生成的路径则平滑、高效,紧贴最优解。这说明视频模型真正理解了空间结构,而不是在瞎猜。

为了验证这种推理能力是否可以被高效学习,作者团队基于开源的Wan2.2-TI2V-5B进行了监督微调(SFT),训练出了 Wan-R1。
值得注意的是,团队进行了一项严苛的对比实验:在完全相同的训练数据和接近的训练设置下,同时微调了Wan2.2-TI2V-5B 和 Qwen2.5-VL-7B。
结果显示,Wan-R1展现出了远超VLM的卓越潜力,证明了“Reasoning via Video”在学习时空逻辑上的天然优势。

此外,Wan-R1 的表现还证明了泛化能力的真实存在:
这有力地反驳了“模型只是记住了地图”的质疑,证明了模型确实内化了通用的空间规划与物理模拟逻辑。
这篇论文引人深思的发现在于视频模型也存在类似于大语言模型的Test-Time Scaling效应。
在大语言模型中,我们知道通过增加推理时的计算量(如Self-Consistency)可以提升准确率。VR-Bench发现,视频模型同理。

当研究人员让视频模型对同一个任务进行多次生成(增加采样数K),并从中通过算法筛选最优解时,模型的推理性能呈现出明显的上升趋势。
实验数据表明,当采样数K从1增加到16时,模型在各类迷宫上的平均性能提升了10-20%。
VR-Bench的发布,标志着视频生成模型正在从“艺术创作”走向“通用智能”。
如果说Sora让大家看到了视频生成的惊艳效果,那Wan-R1更像是我们在“让视频学会思考”这条路上做的一次初步探索。
这项研究真正的价值,在于它为我们打开了一扇通往未来的窗户。
试想一下,未来的具身智能机器人或许不再需要在现实世界中撞得头破血流去试错。
在真正动手之前,它们可以先在脑子里生成一段视频,预演一下机械臂的运动轨迹,或者模拟一下复杂的交通路况下变道会有什么后果。这种通过视频来“预知未来”的能力,让模型不仅能理解当下的物理规则,更能推演未来的连锁反应,这或许才是通往World Simulator那把关键的钥匙。
Reasoning via Video,这场视觉智能的革命才刚刚开始。
目前,作者已在Github开源了代码和数据集。感兴趣的朋友可以自己创造不同的迷宫种类,并用自己的视频模型进行评测。

论文地址:https://arxiv.org/abs/2511.15065
代码地址:https://github.com/FoundationAgents/VR-Bench
数据集:https://huggingface.co/datasets/amagipeng/VR-Bench
网页地址: https://imyangc7.github.io/VRBench_Web/
文章来自于微信公众号 “量子位”,作者 “量子位”
【开源免费】AutoGPT是一个允许用户创建和运行智能体的(AI Agents)项目。用户创建的智能体能够自动执行各种任务,从而让AI有步骤的去解决实际问题。
项目地址:https://github.com/Significant-Gravitas/AutoGPT
【开源免费】MetaGPT是一个“软件开发公司”的智能体项目,只需要输入一句话的老板需求,MetaGPT即可输出用户故事 / 竞品分析 / 需求 / 数据结构 / APIs / 文件等软件开发的相关内容。MetaGPT内置了各种AI角色,包括产品经理 / 架构师 / 项目经理 / 工程师,MetaGPT提供了一个精心调配的软件公司研发全过程的SOP。
项目地址:https://github.com/geekan/MetaGPT/blob/main/docs/README_CN.md
【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台,可以对大语言模型(LLM)和多模态图文模型(VLM)进行预训练和轻量级微调。XTuner 支持多种微调算法,如 QLoRA、LoRA 和全量参数微调。
项目地址:https://github.com/InternLM/xtuner