图文多模态模型的知识蒸馏方法、图像处理方法及设备

申请号：CN202411073162

申请日期：2024-08-06

公开号：CN118587562B

公开日期：2024-10-22

类型：发明专利

摘要

本申请公开了一种图文多模态模型的知识蒸馏方法、图像处理方法及设备，方法包括：将样本图像输入至多模态模型的第一图像编码器，得到第一图像特征，将提示文本输入至多模态模型的文本编码器，得到文本特征；将样本图像输入至图像处理模型的第二图像编码器，得到第二图像特征；计算第一图像特征和第二图像特征之间的图像对齐损失；以及，计算文本特征和第二图像特征之间的图文对齐损失；基于图像对齐损失和图文对齐损失训练图像处理模型，可以分别从两个不同模态维度对图像处理模型的第二图像编码器进行蒸馏训练，使得图像处理模型的第二图像编码器可以理解复杂的文本语义信息，提升第二图像编码器的收敛速度，保证图像处理模型的图像处理效果。

技术关键词

图像编码器图像处理模型图文知识蒸馏方法文本编码器图像处理方法多模态样本电子设备级联存储器处理器参数语义标记