一种跨模态语义注意力协同增强的视频字幕生成方法及系统

申请号：CN202511273488

申请日期：2025-09-08

公开号：CN121009887A

公开日期：2025-11-25

类型：发明专利

摘要

本发明提供了一种跨模态语义注意力协同增强的视频字幕生成方法及系统，属于视频字幕生成领域。为了解决现有视频描述模型在注意力机制层面多停留在一阶关系建模、难以捕捉高阶语义依赖以及多模态特征融合易引入噪声的问题。本发明提出了跨模态语义注意力协同增强模块，该模块包含注意力增强的上下文语义调制与跨模态结构对齐两个关键组件，通过动态调制注意力权重和优化模态对齐结构，有效提升了生成模型对视觉与文本语义的精细建模能力。基于非自回归粗到细视频描述模型进行集成。实验结果表明，本发明方法能够在保持模型规模和计算开销基本不变的前提下，显著提高视频描述生成的准确性和多样性。

技术关键词

视频字幕生成方法语义注意力视觉特征跨模态解码器文本序列矩阵语句多模态特征融合注意力机制语言编码器编码器特征模块可读存储介质