基于检索增强的第一视角视频描述系统

申请号：CN202411111999

申请日期：2024-08-14

公开号：CN119226567A

公开日期：2024-12-31

类型：发明专利

摘要

本发明属于视频处理技术领域，具体为基于检索增强的第一视角视频描述系统。本发明包括：跨视角检索模块、视频编码器、跨模态文本解码器；跨视角检索模块通过构建的第一视角与第三视角视频配对数据，对齐第一视角与第三视角的视觉与文本特征，实现第一视角跨模态、跨视角检索第三视角视频数据辅助第一视角视频描述生成。视频编码器将视频进行时空协同特征提取，通过特征压缩采样器将视频特征降维；跨模态文本解码器采用大语言模型结合跨模态注意力层，将输入文本不断聚焦视觉模态信息实现跨模态信息交互，输出第一视角视频描述。本发明利用第三视角的视频与文本信息，在仅使用极少量第三视角数据作为辅助，可显著提升第一视角视频描述准确率。

技术关键词

视角视觉特征提取跨模态文本编码器视频编码器视频特征提取采样器解码器生成流水线数据代表大语言模型样本交叉注意力机制模块