基于跨模态注意力机制的多模态数据语义对齐方法及装置
申请号:CN202511228563
申请日期:2025-08-29
公开号:CN120724398A
公开日期:2025-09-30
类型:发明专利
摘要
本申请涉及多模态语义对齐领域,提供一种基于跨模态注意力机制的多模态数据语义对齐方法及装置。该方法包括:获取多模态数据及其对应的类别标签,并通过预先训练好的多模态编码器将多模态数据映射为多模态嵌入向量;根据多模态大语言模型生成与多模态数据对应的文本描述,并结合类别标签对文本描述进行筛选,构建多模态知识库;基于多模态知识库,构建多元嵌入中心;通过跨模态注意力机制,将多模态嵌入向量与所述文本描述进行交互,生成语义增强后的多模态嵌入向量;将所述语义增强后的多模态嵌入向量与多元嵌入中心进行对比学习,实现多模态数据的语义对齐。以此方式,增强了语义表征的准确性,且多模态数据在统一语义空间中的对齐效果显著。
技术关键词
多模态
大语言模型
语义
文本编码器
跨模态
对齐方法
标签
数据知识库
多头注意力机制
动态
基础
处理器
可读存储介质
矩阵
对齐装置