基于多模态大语言模型的视频理解方法及装置

申请号：CN202510678362

申请日期：2025-05-26

公开号：CN120198838A

公开日期：2025-06-24

类型：发明专利

摘要

本发明提供一种基于多模态大语言模型的视频理解方法及装置，涉及人工智能领域，其中方法包括：基于第一多模态大语言模型，对目标视频进行密集帧采样，得到多个视频帧，并生成每个视频帧对应的字幕文本；基于第二多模态大语言模型和多个视频帧对应的字幕文本，确定多个视频帧中与用户问题相关的多个关键帧；基于第三多模态大语言模型、用户问题和多个关键帧，得到针对目标视频的、用户问题的推理路径结果；其中，第一多模态大语言模型基于帧字幕数据集进行微调得到；第二多模态大语言模型基于关键帧选择数据集进行微调得到；第三多模态大语言模型基于推理路径数据集进行微调得到。从而提高视频理解的准确性和推理的可解释性。

技术关键词

大语言模型多模态视频理解方法关键帧视频帧字幕文本非暂态计算机可读存储介质数据处理器计算机程序产品存储器电子设备模块