一种多模态多特征端到端密集视频描述方法及系统

申请号：CN202510196090

申请日期：2025-02-21

公开号：CN120088704A

公开日期：2025-06-03

类型：发明专利

摘要

本发明公开了一种多模态多特征端到端密集视频描述方法及系统。该方法包括步骤：提取视频的关键帧；从关键帧中提取视觉区域特征和视觉网格特征，将关键帧输入到ViFi‑CLIP模型提取CLIP特征，分别将视觉区域特征和视觉网格特征映射到CLIP特征，将映射得到的两个新的特征进行融合，获得视觉特征；提取音频特征和文本特征；分别将视觉特征、音频特征和文本特征输入到编码解码模块进行编码和解码后再进行特征融合，获得融合特征；将融合特征分别输入事件边界预测模块、文本描述预测模块和事件计数器，获得视频中的事件边界、每个事件对应的自然语言描述以及事件数量。本发明能提升视频内容理解的深度和描述生成的质量。

技术关键词

关键帧网格特征多模态特征融合视频视觉特征提取注意力融合特征音频特征提取事件计数器解码模块特征提取模块自动语音识别技术文本段落