摘要
本说明书实施例公开了一种视频语言模型的微调训练方法,该方法在视频语言模型的文本编码器和视频编码器中加入了相应的文本适配网络和视频适配网络,并且文本适配网络和视频适配网络中包含结构和模型参数均相同的共享映射层,可在微调训练时保持视频和文本之间的联系,避免了将文本和视频两路编码器割裂地进行训练。并且,在微调训练时,只对文本适配网络和视频适配网络的模型参数进行调整,而不对原有的视频语言模型中的模型参数进行调整,可以使视频语言模型保持原有的泛化能力,这样,对于任意一种细粒度的分类任务,只要在原有视频语言模型的基础上增加并训练出与该任务适配的文本适配网络和视频适配网络即可,无需耗费大量的训练成本。