摘要
本发明涉及一种基于扩散模型的多模态编码对齐方法及装置,属于多模态编码对齐技术领域,该方法包括:获取待进行语义编码的多模态数据,使用预先训练的多模态编码对齐模型对待进行语义编码的多模态数据进行条件扩散生成文本编码;将文本编码输入大模型解码器或作为RAG编码进行下游任务;其中,生成的文本编码作为多模态数据语义编码使用,与文本编码语义对齐。本发明中预先训练的多模态编码对齐模型利用扩散模型可学习的潜在多模态数据编码信息,通过一种扩散模型结构同时完成多模态的语义编码,同时使用大语言模型编码作为多任务优化方向,使得预先训练的多模态模型编码对齐模型结果更试用于下游任务。