
「直击行业核心短板」
达摩院联合高校推出WorldOlympiad评测基准,跳出传统视频“唯画质”的评价逻辑,以物理真实性、三维几何一致性、长时序交互保真度三大维度,搭配游戏、机器人、通用实景三大场景,打造一套全方位的视频世界模型评测体系。
该基准配套千级标准数据集与自动化评测链路,完成8款主流长视频模型横评,精准暴露当前技术普遍存在的缺陷,为行业树立全新评测标准,也为技术迭代指明方向。
随着视频世界模型成为机器人仿真、互动游戏、实景模拟的核心底座,模型能力早已不止于画面美观,能否遵循物理规则、维持空间结构、实现连贯交互,才是落地关键。
但传统评测工具存在明显短板:
VBench等主流基准只侧重视觉观感,忽略物理与空间逻辑;MIND、WorldArena等专用基准仅适配单一场景,无法跨模型横向对比;各类早期评测维度残缺,且多依赖人工打分,效率与标准化程度不足。WorldOlympiad的问世,正是为了解决行业评测标准混乱、评价片面的痛点。

图 | WorldOlympiad 整体评测总流程图©【深蓝 AI】编译
传统评测体系各有局限,而WorldOlympiad构建起“三大能力+三大场景”的立体评测模式,兼顾排名与故障诊断,从单纯的“颜值打分”升级为模型综合能力体检。

图 | 主流评测基准能力对比©【深蓝 AI】编译
该基准不再局限单一维度,可精准定位模型问题出在物理规则、三维结构还是交互衔接,同时统一全场景评测标准,让不同路线的模型具备横向对比的条件,适配学术研究与工业测试双重需求。
整套基准由标准化数据集、标注管线、三大评测模块组成,自动化评测结果与人工主观判断高度契合,斯皮尔曼相关系数达0.95,保证了结果真实可信。
数据集总计1000条长视频,划分明确且经过精细化处理,贴合不同场景的应用特性。

图 | WorldOlympiad数据集构成©【深蓝 AI】编译
所有视频均采用三段式标注:先切分为无重叠时序片段,再生成动作与场景描述,最后结合全文本优化标注,匹配当下主流分块式长视频生成逻辑。

图 | 视频分块、标注与优化标准化流程图©【深蓝 AI】编译

图 | 视频世界模型典型错误案例示意图©【深蓝 AI】编译
1. 物理真实性
结合SAM分割与大模型裁判,从力学、热学、材料特性三个方向设置14项规则,检测物体重力、碰撞、物态变化、材质表现是否符合现实。实测发现,主流模型基础力学表现尚可,但热学、相关材料特性极易出错,是普遍弱项。
2. 三维几何一致性
引入高斯泼溅三维重建技术,从重建效果、元视角渲染、相机轨迹三个维度打分。当下几乎所有模型都存在三维短板,二维画面正常,但换视角后易出现物体扭曲、场景丢失,这也是全行业共有的技术瓶颈。
3. 交互保真度
结合CLIP语义匹配与大模型,分单片段、片段过渡、全局三层评测,检验模型是否遵循交互指令、画面衔接是否流畅、长时序状态是否稳定。重点针对分块生成模式,还原真实交互场景下的模型表现。
团队选取8款主流模型开展测试,分为游戏、机器人、通用三大类别,得分直观反映当前行业整体水平。

图 | 八大模型综合得分与排名表©【深蓝 AI】编译
结合数据可总结四大行业特征:

图 | 各模型多维度得分分布图©【深蓝 AI】编译
实测中还总结出高频错误:物体浮空、结构突变、交互时场景重置等问题频发,这类缺陷在观感中不易察觉,却会直接导致仿真、机器人等落地功能失效。
在行业评测体系中,WorldOlympiad属于能力导向型基准,区别于传统画质评测工具,主打物理、几何、交互三大核心能力,同时实现多场景兼容、问题精准定位,有效改善了行业自定标准、榜单公信力不足的乱象。

图 | 人工偏好与自动评测排名对齐表©【深蓝 AI】编译
客观来看,该基准也存在一定局限:
评测结果依赖第三方模型精度,会产生微小误差;测试数据为公开数据集,和工业界极端场景存在差距;暂未针对自动驾驶等细分领域深度优化。
从行业价值而言,WorldOlympiad重新定义了视频世界模型的评价方向,引导研发从“追求画质”转向“模拟真实世界”。结合实测结果,未来技术突破的核心方向集中在三维空间建模、复杂物理推理、超长时序状态维持。
团队后续还将依托该基准,深入研究各类记忆机制对长视频生成的影响,持续迭代评测能力。

如今视频世界模型已是具身智能、交互式仿真的核心技术,而专业评测基准就是技术发展的“风向标”。WorldOlympiad的出现,为整个赛道建立了统一、可信的评价标尺,将持续推动视频世界模型向更真实、更稳定、更具实用性的方向演进。
Ref
论文标题:WorldOlympiad: Can Your World Model Survive a Triathlon?
论文链接:https://arxiv.org/pdf/2606.11129v1
项目链接:https://alibaba-damo-academy.github.io/WorldOlympiad
文章来自于"深蓝AI",作者 "深蓝学院"。