基于视觉语言模型的超长音视频理解方法、系统和设备

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
基于视觉语言模型的超长音视频理解方法、系统和设备
申请号:CN202510444847
申请日期:2025-04-10
公开号:CN120336483A
公开日期:2025-07-18
类型:发明专利
摘要
本发明属于人工智能技术领域,涉及一种基于视觉语言模型的超长音视频理解方法、系统和设备,所述方法包括:1)利用微调后的大语言模型对用户问题进行多粒度意图识别,以确定用户问题的询问模式,询问模式包括单图询问模式、音频内容询问模式和视频内容询问模式;2)基于询问模式和用户问题对用户输入的图片、音频和视频进行识别,获得识别内容;3)基于时空提示机制和分层生成机制使用大语言模型对识别内容进行多模态信息融合;4)将用户问题和多模态信息融合结果输入视觉语言模型中,生成用户问题的对应答案。其能够降低计算资源需求、简化系统架构、提升时序信息依赖性以及增强泛化能力,从而有效解决超长音视频理解的技术难题。
技术关键词
多模态信息融合 音视频 大语言模型 视觉 意图识别 视频识别 模式 动态关键帧 模板 音频 时间定位 生成机制 图片 自动语音识别技术 答案 生成用户 强化学习方法 文本特征向量