摘要
本发明属于人工智能技术领域,涉及一种基于视觉语言模型的超长音视频理解方法、系统和设备,所述方法包括:1)利用微调后的大语言模型对用户问题进行多粒度意图识别,以确定用户问题的询问模式,询问模式包括单图询问模式、音频内容询问模式和视频内容询问模式;2)基于询问模式和用户问题对用户输入的图片、音频和视频进行识别,获得识别内容;3)基于时空提示机制和分层生成机制使用大语言模型对识别内容进行多模态信息融合;4)将用户问题和多模态信息融合结果输入视觉语言模型中,生成用户问题的对应答案。其能够降低计算资源需求、简化系统架构、提升时序信息依赖性以及增强泛化能力,从而有效解决超长音视频理解的技术难题。