基于大模型与检索增强生成的长视频多模态理解与问答方法及系统
申请号:CN202510933213
申请日期:2025-07-08
公开号:CN120832362A
公开日期:2025-10-24
类型:发明专利
摘要
本发明公开了一种基于大模型与检索增强生成的长视频多模态理解与问答方法及系统。所述方法包括:1)多模态特征提取模块;2)多模态同步与对齐机制;3)结构化记忆池构建;4)查询驱动生成机制;5)增量更新与记忆压缩策略;6)统一多模态表示空间。本发明提出了一种融合大语言模型与检索增强生成的长视频多模态理解方法,旨在突破传统方法在单模态处理与语义碎片化方面的局限。该方法通过视觉模型(如YOLO、ViT)提取视频图像特征,结合音频模型(如Whisper、Qwen‑Audio)获取语音转写与环境音描述,实现对长视频中视觉、语音、音频的统一编码。随后,通过语义一致性切分与时间戳对齐技术构建结构化记忆池,以存储不同模态的时间片段数据。
技术关键词
多模态
语音识别模型
记忆
带时间
问答方法
分层存储架构
大语言模型
视觉
视频图像特征
物体检测
语义
YOLO模型
音频特征提取
三元组
对齐技术
分片
场景