摘要
本公开提供了多模态模型训练方法、装置、设备及存储介质,涉及人工智能技术领域,尤其涉及计算机视觉、深度学习、大模型等技术领域。具体实现方案为:利用预设多模态模型的视觉编码网络,对第一文档图像和第二文档图像进行特征提取,以得到融合特征数据,其中,第一文档图像和第二文档图像是基于带有目标掩膜区域的目标文档图像所得,第一文档图像的分辨率与第二文档图像的分辨率不同;利用预设多模态模型的模型推理网络,对融合特征数据进行模型推理,以预测得到目标掩膜区域所掩盖的文本内容;基于预测得到的目标掩膜区域所掩盖的文本内容,对预设多模态模型进行训练,以得到目标多模态模型。