一种基于多模态大模型的视频时空理解方法、装置及介质

申请号：CN202511365934

申请日期：2025-09-24

公开号：CN120877194B

公开日期：2025-11-25

类型：发明专利

摘要

本发明属于计算机视觉领域，具体涉及一种基于多模态大模型的视频时空理解方法、装置及介质，将多模态大语言模型和掩码分割模型相连，利用多模态编码器编码视频特征，针对时间任务和空间任务采取不同数量的采样帧数和视觉标记形式表示。视觉标记对齐到文本空间后与文本标记一起输入到大语言模型，解码得到对应的文本回答。对于时间任务，时间戳直接从文本回答中提取，空间信息则通过<SEG>标记编码，其嵌入作为提示输入到掩码解码器，实现采样帧的掩码生成和整个视频的掩码传播。与现有技术相比，本发明实现了细粒度视频时空理解的联合训练，除了对视频的整体理解外，可以实现更精确的事件时空定位。

技术关键词

多模态文本大语言模型标记视觉特征多层感知机解码器编码器记忆计算机视觉注意力机制视频编码输出特征程序图像块视频帧