摘要
本发明公开了一种多模态多特征端到端密集视频描述方法及系统。该方法包括步骤:提取视频的关键帧;从关键帧中提取视觉区域特征和视觉网格特征,将关键帧输入到ViFi‑CLIP模型提取CLIP特征,分别将视觉区域特征和视觉网格特征映射到CLIP特征,将映射得到的两个新的特征进行融合,获得视觉特征;提取音频特征和文本特征;分别将视觉特征、音频特征和文本特征输入到编码解码模块进行编码和解码后再进行特征融合,获得融合特征;将融合特征分别输入事件边界预测模块、文本描述预测模块和事件计数器,获得视频中的事件边界、每个事件对应的自然语言描述以及事件数量。本发明能提升视频内容理解的深度和描述生成的质量。