基于隐式情感增强与注意力机制的多模态视频摘要方法及装置
申请号:CN202410899195
申请日期:2024-07-05
公开号:CN118964667A
公开日期:2024-11-15
类型:发明专利
摘要
本公开提供了一种基于隐式情感增强与注意力机制的多模态视频摘要方法及装置,其中的方法首先利用经典的专家模型提取视频的多模态特征。然后,利用基于注意力机制的公共空间映射方法将各模态特征投影到语义通用空间中,减少不同模态特征之间的纠缠和干扰。接下来,将语义对齐后的多模态特征进行时间掩码限制的特征融合,仅融合同一时刻的多模态特征,从而提升融合特征的准确性。最后,利用融合特征预测每帧的重要性得分,并选取关键镜头生成视频摘要。本发明通过引入情感增强模块和创新的多模态融合机制,在利用情感因素增强视频摘要质量的同时,解决了模态间的纠缠问题,利用多模态的互补信息生成更加准确的视频摘要内容。
技术关键词
视频摘要方法
注意力机制
生成视频摘要
情感特征
语义
映射方法
音频特征
掩码矩阵
视觉特征
镜头边界
多模态特征
高维特征向量
融合特征
音频编码器