摘要
本发明提供了一种用于视频理解的指令感知记忆装置,包括:包括文本‑视觉记忆库模块和交叉注意力模块;所述文本‑视觉记忆库模块,用于存储和检索跨模态特征,支持视频分析,所述文本‑视觉记忆库模块与多模态大语言模型集成,通过增量式处理视频数据,克服内存与上下文长度的限制;所述交叉注意力模块,用于融合文本和视觉特征,生成跨模态表示。通过引入文本‑视觉记忆库和交叉注意力模块,实现了视频与文本信息的早期融合与长期记忆管理。能够有效捕捉视频中的细粒度时间依赖关系,提升模型在长视频理解任务中的性能,从而达到提高视频理解的准确性和效率的目的。