摘要
本发明公开一种多模态模型的训练方法和装置,涉及计算机技术领域。该方法的一具体实施方式包括:获取多模态模型的训练样本集,其中包括视频数据和文本数据;使用训练样本集对多模态模型进行训练,通过最小化第一损失函数、最小化第二损失函数和最小化第三损失函数中的至少两种,调整优化多模态模型的参数,得到训练后的多模态模型,第一损失函数是根据文本数据的全局特征与视频数据的全局特征构建的;第二损失函数是根据文本数据的局部特征与视频数据的局部特征构建的;第三损失函数是根据文本数据的全局特征与视频数据的局部特征构建的。该实施方式实现了细粒度化、全面的多模态模型的训练,赋予了多模态模型更细粒度、更深入的理解能力。