基于检索增强的第一视角视频描述系统

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
基于检索增强的第一视角视频描述系统
申请号:CN202411111999
申请日期:2024-08-14
公开号:CN119226567A
公开日期:2024-12-31
类型:发明专利
摘要
本发明属于视频处理技术领域,具体为基于检索增强的第一视角视频描述系统。本发明包括:跨视角检索模块、视频编码器、跨模态文本解码器;跨视角检索模块通过构建的第一视角与第三视角视频配对数据,对齐第一视角与第三视角的视觉与文本特征,实现第一视角跨模态、跨视角检索第三视角视频数据辅助第一视角视频描述生成。视频编码器将视频进行时空协同特征提取,通过特征压缩采样器将视频特征降维;跨模态文本解码器采用大语言模型结合跨模态注意力层,将输入文本不断聚焦视觉模态信息实现跨模态信息交互,输出第一视角视频描述。本发明利用第三视角的视频与文本信息,在仅使用极少量第三视角数据作为辅助,可显著提升第一视角视频描述准确率。
技术关键词
视角 视觉特征提取 跨模态 文本编码器 视频编码器 视频特征提取 采样器 解码器 生成流水线 数据 代表 大语言模型 样本 交叉注意力机制 模块