一种面向应急场景的多模态语义对齐方法

申请号：CN202511090234

申请日期：2025-08-05

公开号：CN120996191A

公开日期：2025-11-21

类型：发明专利

摘要

本发明涉及自然语言处理技术领域，公开了一种面向应急场景的多模态语义对齐方法，包括获取多模态数据，并将多模态数据中的方言词汇映射至标准语系；使用多语言预训练模型生成文本/语音中初始语义向量；基于目标检测模型识别图像/视频中的特征要素，生成结构化视觉语义标签并嵌入向量；基于跨语言对抗训练消除文本/语音中初始语义向量中的语言特征，生成语言无关的语义向量；基于跨模态对比学习计算语言无关的语义向量与视觉向量的相似度，通过三重损失函数优化模态间距离；同时更新跨语言对抗训练和跨模态对比学习的参数，最小化总损失函数。解决了现有技术中多方言环境下多模态信息处理的难题，提高应急响应的效率和准确性。

技术关键词

语义向量方言词汇对齐方法损失函数优化预训练模型文本语义标签场景多语言视觉语音识别系统样本跨模态多模态特征处理器参数