基于多模态大语言模型的视频理解方法及装置

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
基于多模态大语言模型的视频理解方法及装置
申请号:CN202510678362
申请日期:2025-05-26
公开号:CN120198838A
公开日期:2025-06-24
类型:发明专利
摘要
本发明提供一种基于多模态大语言模型的视频理解方法及装置,涉及人工智能领域,其中方法包括:基于第一多模态大语言模型,对目标视频进行密集帧采样,得到多个视频帧,并生成每个视频帧对应的字幕文本;基于第二多模态大语言模型和多个视频帧对应的字幕文本,确定多个视频帧中与用户问题相关的多个关键帧;基于第三多模态大语言模型、用户问题和多个关键帧,得到针对目标视频的、用户问题的推理路径结果;其中,第一多模态大语言模型基于帧字幕数据集进行微调得到;第二多模态大语言模型基于关键帧选择数据集进行微调得到;第三多模态大语言模型基于推理路径数据集进行微调得到。从而提高视频理解的准确性和推理的可解释性。
技术关键词
大语言模型 多模态 视频理解方法 关键帧 视频帧 字幕 文本 非暂态计算机可读存储介质 数据 处理器 计算机程序产品 存储器 电子设备 模块