摘要
本发明提供一种基于多模态大语言模型的视频理解方法及装置,涉及人工智能领域,其中方法包括:基于第一多模态大语言模型,对目标视频进行密集帧采样,得到多个视频帧,并生成每个视频帧对应的字幕文本;基于第二多模态大语言模型和多个视频帧对应的字幕文本,确定多个视频帧中与用户问题相关的多个关键帧;基于第三多模态大语言模型、用户问题和多个关键帧,得到针对目标视频的、用户问题的推理路径结果;其中,第一多模态大语言模型基于帧字幕数据集进行微调得到;第二多模态大语言模型基于关键帧选择数据集进行微调得到;第三多模态大语言模型基于推理路径数据集进行微调得到。从而提高视频理解的准确性和推理的可解释性。