一种基于双向Transformer的多模态视频描述生成方法

申请号：CN202510611366

申请日期：2025-05-13

公开号：CN120544093A

公开日期：2025-08-26

类型：发明专利

摘要

本发明涉及视频处理与自然语言生成技术领域，且公开了一种基于双向Transformer的多模态视频描述生成方法，包括以下步骤：多模态特征提取：分别提取视频的图像特征、运动特征、语音转录文本特征和目标区域特征，并将各特征映射至统一维度；双向解码器处理：利用正向解码器和反向解码器构成的双向Transformer架构，将多模态特征分别输入正向解码器和反向解码器，通过多模态融合注意力机制和多头注意力机制实现多模态信息交互建模；损失函数优化：计算反向解码器和正向解码器的交叉熵损失，并通过预设超参数平衡两者权重。该基于双向Transformer的多模态视频描述生成方法的目的是通过双向Transformer结构和对多模态信息的更好利用，提高视频描述生成的质量。

技术关键词

解码器生成方法运动特征视频融合注意力机制多模态特征多头注意力机制损失函数优化多模态信息自然语言生成技术掩码矩阵文本时序依赖关系自动语音识别超参数置信度阈值