跨模态对齐的图像文本匹配方法、装置、设备及介质

申请号：CN202510184813

申请日期：2025-02-19

公开号：CN120107735A

公开日期：2025-06-06

类型：发明专利

摘要

本申请提供一种跨模态对齐的图像文本匹配方法、装置、设备及介质，涉及跨模态数据处理技术领域。该方法包括：获取待匹配图像、待匹配文本和文本提示词；将待匹配文本和文本提示词输入至图像文本匹配模型的文本编码器，得到文本编码器输出的文本向量和第一转换向量；将待匹配图像输入至图像文本匹配模型的图像编码器，得到图像编码器输出的图像向量和第二转换向量；根据第一转换向量和第二转换向量，确定权重向量；权重向量用于确定图像向量和文本向量中各个维度的权重；根据图像向量、文本向量和权重向量，确定待匹配图像和待匹配文本的相似度；基于相似度，确定待匹配图像和待匹配文本的匹配结果。本申请能够快速准确地实现图像和文本的匹配。

技术关键词

图像文本匹配模型文本编码器文本匹配方法图像编码器交叉注意力机制跨模态标签文本匹配装置元素可读存储介质存储计算机程序数据处理技术处理器编码模块视觉存储器