用于视频理解的指令感知记忆装置

申请号：CN202510953397

申请日期：2025-07-10

公开号：CN120763358A

公开日期：2025-10-10

类型：发明专利

摘要

本发明提供了一种用于视频理解的指令感知记忆装置，包括：包括文本‑视觉记忆库模块和交叉注意力模块；所述文本‑视觉记忆库模块，用于存储和检索跨模态特征，支持视频分析，所述文本‑视觉记忆库模块与多模态大语言模型集成，通过增量式处理视频数据，克服内存与上下文长度的限制；所述交叉注意力模块，用于融合文本和视觉特征，生成跨模态表示。通过引入文本‑视觉记忆库和交叉注意力模块，实现了视频与文本信息的早期融合与长期记忆管理。能够有效捕捉视频中的细粒度时间依赖关系，提升模型在长视频理解任务中的性能，从而达到提高视频理解的准确性和效率的目的。

技术关键词

记忆装置视觉特征大语言模型文本交叉注意力机制跨模态多模态融合机制指令对齐模块视频分析模态特征生成自然语言时间序列特征记忆管理多模态信息解码机制