一种视频语言模型的微调训练方法、装置及电子设备

申请号：CN202510507176

申请日期：2025-04-22

公开号：CN120597988A

公开日期：2025-09-05

类型：发明专利

摘要

本说明书实施例公开了一种视频语言模型的微调训练方法，该方法在视频语言模型的文本编码器和视频编码器中加入了相应的文本适配网络和视频适配网络，并且文本适配网络和视频适配网络中包含结构和模型参数均相同的共享映射层，可在微调训练时保持视频和文本之间的联系，避免了将文本和视频两路编码器割裂地进行训练。并且，在微调训练时，只对文本适配网络和视频适配网络的模型参数进行调整，而不对原有的视频语言模型中的模型参数进行调整，可以使视频语言模型保持原有的泛化能力，这样，对于任意一种细粒度的分类任务，只要在原有视频语言模型的基础上增加并训练出与该任务适配的文本适配网络和视频适配网络即可，无需耗费大量的训练成本。

技术关键词

网络样本输出特征文本编码器视频编码器大语言模型处理器训练装置电子设备编码模块参数匹配模块级联可读存储介质存储器