视频大模型新基元：用Object Tokens重塑细节感知与指代理解

7171点击 2025-11-28 09:24

被顶会ICCV 2025以554高分接收的视频理解框架来了！

视频包含的信息远比图像复杂，现有的Video-LLM常靠下采样或Token聚合来“挤”进语言模型，难免会丢细节并造成语义纠缠（entanglement）。

于是，北大和UCSD团队提出VideoOrion——

视频大模型新基元：用Object Tokens重塑细节感知与指代理解

直接把前景里显著的时空动态编码成Object Tokens并与Context Tokens并行喂给LLM，搭建出一个高效、可解释、具指代能力的视频理解框架。

将Object Dynamics显式提炼成离散的Token，既可压缩数据量，又让LLM的对齐更自然。

实验显示，它在MVBench、EgoSchema、Perception-Test、VideoMME、ActivityNet-QA等上整体领先，并自然演化出视频指代问答能力。

视频大模型新基元：用Object Tokens重塑细节感知与指代理解

核心方法：双分支编码+用“检–分–跟”三步组成物体动态tokenizer

传统视频Token多是按空间栅格或特征聚合得到，语义容易纠缠。

VideoOrion把对象及其跨帧演化当作一级语义单位，使LLM在推理时可以沿对象维度整合细节，既提升细粒度问答，也为指代等需要“锁定实例”的任务提供天然接口。

在以下案例中：相比仅场景级描述，模型能说清“红色三轮滑板车+拖地组件”的细节或“黑色泳装+跳板后空翻”的动作要素。

视频大模型新基元：用Object Tokens重塑细节感知与指代理解

据了解，VideoOrion采用双分支并行编码：

Context Tokens：用CLIP（VideoOrion）/SigLIP（VideoOrion+）编码采样帧，经STC Connector投影为上下文Token（如每帧数百个），主要承载背景/场景等泛化信息；

Object Tokens：通过检测—分割—跟踪（detect–segment–track）的pipeline，在以GroundingDINO（通用模式）在关键帧产生对象候选框之后用SAM将候选框细化为对象掩码，确保边界与形状信息；再用XMem跨帧跟踪对象掩码，得到随时间演化的掩码序列；最后对掩码池化后的特征做投影（线性/MLP 即可），形成紧凑的Object Token（数量上限可控，语义disentangle）。

两类Token将被一起输入LLM融合推理。

视频大模型新基元：用Object Tokens重塑细节感知与指代理解

因为视频里前景会进出画面、场景突变，研究另提出按前景物体出现变化自适应切片以稳健检测与关联，避免均匀切段带来的跨段错配。

在对象流水线的替换实验中（提案器/分段策略/跟踪器），无论用RAM++、Mask2Former做提案，还是改为均匀/不切分，或以SAM2替代XMem，整体都稳定优于仅视频分支，最佳组合为RAM++分段 + GroundingDINO提案 + XMem跟踪。

实验与结果：细节理解与指代能力双提升

VideoOrion（7B）在MVBench / EgoSchema / Perception-Test / VideoMME / ActivityNet-QA上，全面超越同backbone的VideoLLaMA2/2.1。

具体相对涨幅分别为+10.1%、+14.6%、+15.6%、+8.7%、+7.8%（VideoOrion+亦有相近或更高增幅），体现了Object Token带来的细粒度语义增益。

进一步看表格数值：在7B LLM设置下，VideoOrion在 MVBench/EgoSchema/Perception-Test/VideoMME（w/o/w subs）/ActivityNet-QA（Acc/Score）达到63.5 / 65.1 / 65.2 / 54.6–55.3 / 57.7–3.7，相对多款开源/闭源同规模模型具有明显优势。

视频大模型新基元：用Object Tokens重塑细节感知与指代理解

得益于显式Object Token，VideoOrion天然支持视频指代——

在提示模板中把目标对象对应的Token填入<o> 即可完成“指这个物体在做什么”的问答。

团队在VideoRef45K上对比Artemis、Merlin等方法，零样本即有效，经小规模指代数据微调后（3 epoch）多项指标（BLEU@4、METEOR、ROUGE_L、CIDEr、SPICE）全面领先，验证Object Token对指代理解的直接助益。

视频大模型新基元：用Object Tokens重塑细节感知与指代理解

消融与分析：Object Token的“必要与适度”

1、有无对象分支：在等数据量下，把对象分支去掉的基础VideoLLaMA2模型在各基准上都落后。

2、对象分支预训练是否重要：对象分支做预训练整体更优，说明Object像视觉Token 一样，需要先学基本语义再对齐文本。

3、Object Token数量：模型在达到最多64个Object Token往往最稳，过少信息不足、过多反而分散注意。

4、仅对象or仅视频：只用Object Token会损失背景与全局线索，性能低于双分支；但在某些偏对象细节的任务上，与仅视频分支相当，显示Object Token的关键信息密度。

5、流水线替换：RAM++自适应分段优于均匀/不分段；XMem跟踪略优于SAM2；不同提案/分段/跟踪组合均显著好于视频-only。

不过，团队也提到这项研究仍存在一定局限性：

额外计算与误检风险：引入专用视觉模型（检测/分割/跟踪）带来约38.5%的时延开销，且低质视频可能导致掩码不准。双分支在一定程度可缓解，但如何降低流水线成本、提升鲁棒性仍待工程优化。

分支对齐与协同：当前仍依赖视频分支提供上下文，对象—场景融合的最优机制与对齐策略是下一步重点。

至此小结一下，VideoOrion把“对象动态”当作视频语义的基本Token，在保证紧凑与可解释的同时，提高了对细节、交互与指代的把握能力。

团队表示，它不是替代视频特征，而是对象—场景双视角的结构化重写——一边看全局，一边抓关键。

这个范式或将影响后续的视频问答、检索、机器人感知与视频创作等多模态应用。

VideoOrion论文链接：

https://openaccess.thecvf.com/content/ICCV2025/papers/Feng_VideoOrion_Tokenizing_Object_Dynamics_in_Videos_ICCV_2025_paper.pdf

文章来自于“量子位”，作者 “北大&UCSD团队”。

关键词: AI , 模型训练 , VideoOrion , AI视频

AITNT资源拓展

根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考

微调

【开源免费】XTuner 是一个高效、灵活、全能的轻量化大模型微调工具库。它帮助开发者提供一个简单易用的平台，可以对大语言模型（LLM）和多模态图文模型（VLM）进行预训练和轻量级微调。XTuner 支持多种微调算法，如 QLoRA、LoRA 和全量参数微调。
项目地址：https://github.com/InternLM/xtuner