一种跨模态语义注意力协同增强的视频字幕生成方法及系统

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
一种跨模态语义注意力协同增强的视频字幕生成方法及系统
申请号:CN202511273488
申请日期:2025-09-08
公开号:CN121009887A
公开日期:2025-11-25
类型:发明专利
摘要
本发明提供了一种跨模态语义注意力协同增强的视频字幕生成方法及系统,属于视频字幕生成领域。为了解决现有视频描述模型在注意力机制层面多停留在一阶关系建模、难以捕捉高阶语义依赖以及多模态特征融合易引入噪声的问题。本发明提出了跨模态语义注意力协同增强模块,该模块包含注意力增强的上下文语义调制与跨模态结构对齐两个关键组件,通过动态调制注意力权重和优化模态对齐结构,有效提升了生成模型对视觉与文本语义的精细建模能力。基于非自回归粗到细视频描述模型进行集成。实验结果表明,本发明方法能够在保持模型规模和计算开销基本不变的前提下,显著提高视频描述生成的准确性和多样性。
技术关键词
视频字幕生成方法 语义注意力 视觉特征 跨模态 解码器 文本 序列 矩阵 语句 多模态特征融合 注意力机制 语言编码器 编码器特征 模块 可读存储介质