图文多模态模型的知识蒸馏方法、图像处理方法及设备

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
图文多模态模型的知识蒸馏方法、图像处理方法及设备
申请号:CN202411073162
申请日期:2024-08-06
公开号:CN118587562B
公开日期:2024-10-22
类型:发明专利
摘要
本申请公开了一种图文多模态模型的知识蒸馏方法、图像处理方法及设备,方法包括:将样本图像输入至多模态模型的第一图像编码器,得到第一图像特征,将提示文本输入至多模态模型的文本编码器,得到文本特征;将样本图像输入至图像处理模型的第二图像编码器,得到第二图像特征;计算第一图像特征和第二图像特征之间的图像对齐损失;以及,计算文本特征和第二图像特征之间的图文对齐损失;基于图像对齐损失和图文对齐损失训练图像处理模型,可以分别从两个不同模态维度对图像处理模型的第二图像编码器进行蒸馏训练,使得图像处理模型的第二图像编码器可以理解复杂的文本语义信息,提升第二图像编码器的收敛速度,保证图像处理模型的图像处理效果。
技术关键词
图像编码器 图像处理模型 图文 知识蒸馏方法 文本编码器 图像处理方法 多模态 样本 电子设备 级联 存储器 处理器 参数 语义 标记