基于隐式情感增强与注意力机制的多模态视频摘要方法及装置

申请号：CN202410899195

申请日期：2024-07-05

公开号：CN118964667A

公开日期：2024-11-15

类型：发明专利

摘要

本公开提供了一种基于隐式情感增强与注意力机制的多模态视频摘要方法及装置，其中的方法首先利用经典的专家模型提取视频的多模态特征。然后，利用基于注意力机制的公共空间映射方法将各模态特征投影到语义通用空间中，减少不同模态特征之间的纠缠和干扰。接下来，将语义对齐后的多模态特征进行时间掩码限制的特征融合，仅融合同一时刻的多模态特征，从而提升融合特征的准确性。最后，利用融合特征预测每帧的重要性得分，并选取关键镜头生成视频摘要。本发明通过引入情感增强模块和创新的多模态融合机制，在利用情感因素增强视频摘要质量的同时，解决了模态间的纠缠问题，利用多模态的互补信息生成更加准确的视频摘要内容。

技术关键词

视频摘要方法注意力机制生成视频摘要情感特征语义映射方法音频特征掩码矩阵视觉特征镜头边界多模态特征高维特征向量融合特征音频编码器