一种基于时序对齐和语义增强的多模态视频摘要生成方法

申请号：CN202411730016

申请日期：2024-11-29

公开号：CN119202313B

公开日期：2025-03-28

类型：发明专利

摘要

本发明属于计算机视觉技术领域，涉及一种基于时序对齐和语义增强的多模态视频摘要生成方法，设计了基于时序对齐和语义增强的多模态视频摘要生成模型，根据视频数据输出相应的视频摘要；该模型包括特征提取模块、双尺度注意力模块和视频摘要生成模块，其中，特征提取模块用于提取视觉特征和文本特征，双尺度注意力模块包括条件自注意力网络和协作交互跨模态注意力网络，分别在局部和全局两个尺度上对视觉特征和文本特征进行对齐和融合；该模型利用反向传播算法进行训练，在损失函数中引入了分类损失、基于不同尺度的动态时间规整损失和语义增强铰链损失。与现有技术相比，本发明可以进一步提高视频摘要的生成效果。

技术关键词

视频摘要生成方法动态时间规整语义视觉特征文本时序特征提取模块矩阵跨模态传播算法注意力机制截断奇异值网络计算机视觉技术铰链预训练模型

系统为您推荐了相关专利信息

基于提示学习与自适应Mamba门控选择融合跨模态哈希检索方法

跨模态图文全局平均池化融合特征特征提取模块

订单处理方法、系统、设备、存储介质及程序产品

订单查询意图意图识别自然语言文本参数

一种基于LLM的多模态数据治理智能代码生成方法

代码生成方法多角色协同自动化测试用例分类器跨模态