摘要
本发明涉及多模态信息处理技术领域,具体公开了用于海量执法音视频数据的多模态检索增强生成系统,包括:基于声纹辅助的多模态索引模块,用于根据记录仪音视频生成多模态表示;使用多模态融合编码器处理多模态表示,构建知识图谱数据库;多模态检索与生成模块,用于接收用户查询,提取多模态关键词;查询知识图谱数据库,得到融合检索集;利用VLM和LLM生成关联事件综合分析报告;知识图谱数据库模块,用于存储和管理知识图谱数据库。本发明通过声纹辅助的知识图谱构建和知识驱动的检索机制,实现执法音视频内容的结构化索引、语义关联、跨场景说话人关联、高效内容生成,并最终输出关联事件综合分析报告。