摘要
本申请公开了一种模型训练的方法、装置及电子设备。其中,该方法包括:获取训练数据集,其中,训练数据集用于对预训练模型进行训练,训练数据集包括图像数据和对应的文本数据;将训练数据集依次输入预训练模型中的多个多层感知器网络进行训练,得到多个目标多层感知器网络,其中,上一个多层感知器网络的输出结果作为下一个多层感知器网络的输入;将多个目标多层感知器网络进行融合,得到融合网络;依据训练数据集对融合网络进行训练,得到目标融合网络,并依据目标融合网络确定目标预训练模型。本申请解决了相关技术中的视觉编码器模型在编码过程中忽略了许多细节信息,存在准确性差的技术问题。