一种视频语言模型的微调训练方法、装置及电子设备

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
一种视频语言模型的微调训练方法、装置及电子设备
申请号:CN202510507176
申请日期:2025-04-22
公开号:CN120597988A
公开日期:2025-09-05
类型:发明专利
摘要
本说明书实施例公开了一种视频语言模型的微调训练方法,该方法在视频语言模型的文本编码器和视频编码器中加入了相应的文本适配网络和视频适配网络,并且文本适配网络和视频适配网络中包含结构和模型参数均相同的共享映射层,可在微调训练时保持视频和文本之间的联系,避免了将文本和视频两路编码器割裂地进行训练。并且,在微调训练时,只对文本适配网络和视频适配网络的模型参数进行调整,而不对原有的视频语言模型中的模型参数进行调整,可以使视频语言模型保持原有的泛化能力,这样,对于任意一种细粒度的分类任务,只要在原有视频语言模型的基础上增加并训练出与该任务适配的文本适配网络和视频适配网络即可,无需耗费大量的训练成本。
技术关键词
网络 样本 输出特征 文本编码器 视频编码器 大语言模型 处理器 训练装置 电子设备 编码模块 参数 匹配模块 级联 可读存储介质 存储器