摘要
本发明公开了一种基于多模态大模型的运动视频理解方法及装置,所述方法包括:(1)对输入的运动视频进行均匀采样,提取K个视频帧,并利用视觉编码器提取各视频帧的视觉特征;(2)通过多层感知器将视觉特征映射至大语言模型的隐空间维度,生成映射后的视觉特征;(3)将映射后的视觉特征与用户查询拼接为综合提示,输入大语言模型生成文本响应;(4)采用多阶段训练策略训练多模态大模型,包括视觉语言对齐预训练、视频指令遵循微调训练和体育知识微调训练。本发明能够有效提取视频中的关键视觉信息,从而提升对运动视频中动态复杂场景的理解能力,充分利用视频帧之间的时间依赖关系,以使运动视频理解的准确性和效率得到了显著提升。