摘要
本申请实施例提供了一种视觉文本预训练模型的训练方法、装置、设备及介质,属于人工智能技术领域。该方法包括:将获取到的样本视频和样本文本输入至初始多模态处理模型中,对样本视频进行分割处理得到多个初始视频帧,并从样本文本中提取得到文本特征;对每一初始视频帧中的各个初始像素块进行时空重要性评估得到时空信息;基于时空信息确定遮掩视频帧,并基于文本特征对遮掩视频帧中处于遮掩状态下的部分进行特征重建处理,得到样本重建结果;根据样本重建结果计算损失值,并根据损失值对初始多模态处理模型的模型参数进行调整,得到训练后的目标多模态处理模型。本申请能够提高训练得到的多模态处理模型对多模态信息的理解能力。