一种用于视频字幕生成的跨模态结构对齐方法及系统

申请号：CN202511273485

申请日期：2025-09-08

公开号：CN120997742A

公开日期：2025-11-21

类型：发明专利

摘要

本发明提供了一种用于视频字幕生成的跨模态结构对齐方法及系统，属于视频字幕生成技术领域。为了解决现有注意力机制中未考虑多模态或语言生成场景下的结构兼容性，且在模态融合过程中会产生噪声的问题。本发明考虑了多模态或语言生成场景下的结构兼容性，可以减少文本特征在和视觉特征融合之后特征损失，减少模态融合产生的噪声，缓解跨模态融合在语义映射空间的天然失配，进而提升模型对高阶语义关系的建模能力以及减少多模态融合后产生的负面影响。

技术关键词

视觉特征对齐方法字幕文本视频生成场景矩阵对齐系统语义可读存储介质多模态生成技术编码器注意力机制非线性跨模态计算机噪声