基于视觉语言模型的超长音视频理解方法、系统和设备

申请号：CN202510444847

申请日期：2025-04-10

公开号：CN120336483A

公开日期：2025-07-18

类型：发明专利

摘要

本发明属于人工智能技术领域，涉及一种基于视觉语言模型的超长音视频理解方法、系统和设备，所述方法包括：1)利用微调后的大语言模型对用户问题进行多粒度意图识别，以确定用户问题的询问模式，询问模式包括单图询问模式、音频内容询问模式和视频内容询问模式；2)基于询问模式和用户问题对用户输入的图片、音频和视频进行识别，获得识别内容；3)基于时空提示机制和分层生成机制使用大语言模型对识别内容进行多模态信息融合；4)将用户问题和多模态信息融合结果输入视觉语言模型中，生成用户问题的对应答案。其能够降低计算资源需求、简化系统架构、提升时序信息依赖性以及增强泛化能力，从而有效解决超长音视频理解的技术难题。

技术关键词

多模态信息融合音视频大语言模型视觉意图识别视频识别模式动态关键帧模板音频时间定位生成机制图片自动语音识别技术答案生成用户强化学习方法文本特征向量