一种基于非增量递归互监督变分融合的多模态神经机器翻译方法

申请号：CN202510327310

申请日期：2025-03-19

公开号：CN120181103A

公开日期：2025-06-20

类型：发明专利

摘要

本发明涉及基于非增量递归互监督变分融合的多模态神经机器翻译方法，属自然语言处理领域。包括：获取具有充分表征的文本，将噪声视觉特征送入自适应噪声掩码学习模块中进行重构和学习视觉信息，得到重构噪声视觉特征；将具有充分表征的文本和重构噪声视觉特征进行以文本为引导的视觉选择融合，得到文本视觉融合的信息；将具有充分表征的文本和重构噪声视觉特征进行跨模态低秩变分蒸馏；将目标语言文本表征、重构噪声视觉特征和文本视觉融合的信息送到视觉增强的Transformer解码端后输出最终预测的目标语言文本。本发明通过逐层跨模态变分蒸馏，逐渐促进了噪声视觉信息与文本数据的对齐和融合，提高了领域特定机器翻译的性能。

技术关键词

视觉特征神经机器翻译方法文本噪声重构嵌入位置编码跨模态多模态开源系统蒸馏情感分析系统模块图像机器翻译模型数据掩码矩阵注意力机制