摘要
本申请提供一种跨模态对齐的图像文本匹配方法、装置、设备及介质,涉及跨模态数据处理技术领域。该方法包括:获取待匹配图像、待匹配文本和文本提示词;将待匹配文本和文本提示词输入至图像文本匹配模型的文本编码器,得到文本编码器输出的文本向量和第一转换向量;将待匹配图像输入至图像文本匹配模型的图像编码器,得到图像编码器输出的图像向量和第二转换向量;根据第一转换向量和第二转换向量,确定权重向量;权重向量用于确定图像向量和文本向量中各个维度的权重;根据图像向量、文本向量和权重向量,确定待匹配图像和待匹配文本的相似度;基于相似度,确定待匹配图像和待匹配文本的匹配结果。本申请能够快速准确地实现图像和文本的匹配。