一种基于多模态大模型的运动视频理解方法及装置

申请号：CN202511374631

申请日期：2025-09-25

公开号：CN120953895A

公开日期：2025-11-14

类型：发明专利

摘要

本发明公开了一种基于多模态大模型的运动视频理解方法及装置，所述方法包括：（1）对输入的运动视频进行均匀采样，提取K个视频帧，并利用视觉编码器提取各视频帧的视觉特征；（2）通过多层感知器将视觉特征映射至大语言模型的隐空间维度，生成映射后的视觉特征；（3）将映射后的视觉特征与用户查询拼接为综合提示，输入大语言模型生成文本响应；（4）采用多阶段训练策略训练多模态大模型，包括视觉语言对齐预训练、视频指令遵循微调训练和体育知识微调训练。本发明能够有效提取视频中的关键视觉信息，从而提升对运动视频中动态复杂场景的理解能力，充分利用视频帧之间的时间依赖关系，以使运动视频理解的准确性和效率得到了显著提升。

技术关键词

视频理解方法多模态多层感知器大语言模型多阶段运动视频帧关键视觉信息非暂态计算机可读存储介质令牌视觉特征提取文本体育处理器注意力机制索引策略