摘要
本申请公开了一种多模态数据语义检索方法、装置、设备及存储介质,涉及深度学习技术领域,包括:基于预设优化损失函数组合完成对比语言‑图像预训练模型的模型训练操作,基于训练好的目标对比语言‑图像预训练模型接收待处理的多模态数据语义检索任务;基于目标对比语言‑图像预训练模型解析待处理的多模态数据语义检索任务,以确定任务分解结果;基于目标对比语言‑图像预训练模型、任务分解结果中的各子条件及预设相似度度量策略进行逐步的图像筛选;基于筛选出的目标图像集中各候选图像的目标评分、目标对比语言‑图像预训练模型确定目标语义检索结果。本申请能够高效实现CLIP模型在多条件和否定性描述下的语义检索,提升了用户体验感。