一种面向应急场景的多模态语义对齐方法

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
一种面向应急场景的多模态语义对齐方法
申请号:CN202511090234
申请日期:2025-08-05
公开号:CN120996191A
公开日期:2025-11-21
类型:发明专利
摘要
本发明涉及自然语言处理技术领域,公开了一种面向应急场景的多模态语义对齐方法,包括获取多模态数据,并将多模态数据中的方言词汇映射至标准语系;使用多语言预训练模型生成文本/语音中初始语义向量;基于目标检测模型识别图像/视频中的特征要素,生成结构化视觉语义标签并嵌入向量;基于跨语言对抗训练消除文本/语音中初始语义向量中的语言特征,生成语言无关的语义向量;基于跨模态对比学习计算语言无关的语义向量与视觉向量的相似度,通过三重损失函数优化模态间距离;同时更新跨语言对抗训练和跨模态对比学习的参数,最小化总损失函数。解决了现有技术中多方言环境下多模态信息处理的难题,提高应急响应的效率和准确性。
技术关键词
语义向量 方言词汇 对齐方法 损失函数优化 预训练模型 文本 语义标签 场景 多语言 视觉 语音识别系统 样本 跨模态 多模态特征 处理器 参数