一种用于视频字幕生成的跨模态结构对齐方法及系统

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
一种用于视频字幕生成的跨模态结构对齐方法及系统
申请号:CN202511273485
申请日期:2025-09-08
公开号:CN120997742A
公开日期:2025-11-21
类型:发明专利
摘要
本发明提供了一种用于视频字幕生成的跨模态结构对齐方法及系统,属于视频字幕生成技术领域。为了解决现有注意力机制中未考虑多模态或语言生成场景下的结构兼容性,且在模态融合过程中会产生噪声的问题。本发明考虑了多模态或语言生成场景下的结构兼容性,可以减少文本特征在和视觉特征融合之后特征损失,减少模态融合产生的噪声,缓解跨模态融合在语义映射空间的天然失配,进而提升模型对高阶语义关系的建模能力以及减少多模态融合后产生的负面影响。
技术关键词
视觉特征 对齐方法 字幕 文本 视频 生成场景 矩阵 对齐系统 语义 可读存储介质 多模态 生成技术 编码器 注意力机制 非线性 跨模态 计算机 噪声