一种基于时序对齐和语义增强的多模态视频摘要生成方法
申请号:CN202411730016
申请日期:2024-11-29
公开号:CN119202313B
公开日期:2025-03-28
类型:发明专利
摘要
本发明属于计算机视觉技术领域,涉及一种基于时序对齐和语义增强的多模态视频摘要生成方法,设计了基于时序对齐和语义增强的多模态视频摘要生成模型,根据视频数据输出相应的视频摘要;该模型包括特征提取模块、双尺度注意力模块和视频摘要生成模块,其中,特征提取模块用于提取视觉特征和文本特征,双尺度注意力模块包括条件自注意力网络和协作交互跨模态注意力网络,分别在局部和全局两个尺度上对视觉特征和文本特征进行对齐和融合;该模型利用反向传播算法进行训练,在损失函数中引入了分类损失、基于不同尺度的动态时间规整损失和语义增强铰链损失。与现有技术相比,本发明可以进一步提高视频摘要的生成效果。
技术关键词
视频摘要生成方法
动态时间规整
语义
视觉特征
文本
时序
特征提取模块
矩阵
跨模态
传播算法
注意力机制
截断奇异值
网络
计算机视觉技术
铰链
预训练模型