用于海量执法音视频数据的多模态检索增强生成系统

申请号：CN202511342447

申请日期：2025-09-19

公开号：CN120821873A

公开日期：2025-10-21

类型：发明专利

摘要

本发明涉及多模态信息处理技术领域，具体公开了用于海量执法音视频数据的多模态检索增强生成系统，包括：基于声纹辅助的多模态索引模块，用于根据记录仪音视频生成多模态表示；使用多模态融合编码器处理多模态表示，构建知识图谱数据库；多模态检索与生成模块，用于接收用户查询，提取多模态关键词；查询知识图谱数据库，得到融合检索集；利用VLM和LLM生成关联事件综合分析报告；知识图谱数据库模块，用于存储和管理知识图谱数据库。本发明通过声纹辅助的知识图谱构建和知识驱动的检索机制，实现执法音视频内容的结构化索引、语义关联、跨场景说话人关联、高效内容生成，并最终输出关联事件综合分析报告。

技术关键词

知识图谱数据库生成系统音视频多模态关键词构建知识图谱声纹标识生成字幕视觉记录仪交叉注意力机制节点自动语音识别知识图谱构建展示实体编码器模块信息处理技术