摘要
本发明涉及自然语言处理技术领域,公开了一种面向应急场景的多模态语义对齐方法,包括获取多模态数据,并将多模态数据中的方言词汇映射至标准语系;使用多语言预训练模型生成文本/语音中初始语义向量;基于目标检测模型识别图像/视频中的特征要素,生成结构化视觉语义标签并嵌入向量;基于跨语言对抗训练消除文本/语音中初始语义向量中的语言特征,生成语言无关的语义向量;基于跨模态对比学习计算语言无关的语义向量与视觉向量的相似度,通过三重损失函数优化模态间距离;同时更新跨语言对抗训练和跨模态对比学习的参数,最小化总损失函数。解决了现有技术中多方言环境下多模态信息处理的难题,提高应急响应的效率和准确性。