一种基于对比学习的视频文本理解模型训练方法及系统

申请号：CN202510759579

申请日期：2025-06-09

公开号：CN120689793A

公开日期：2025-09-23

类型：发明专利

摘要

一种基于对比学习的视频文本理解模型训练方法及系统，通过对第一多模态数据集中的原始视频进行事件分割，获取原始视频的初始事件视频；对初始事件视频进行筛选，获取满足质量评分及运动幅度要求的目标事件视频；对目标事件视频进行标注，获取第二多模态数据集，第二多模态数据集包括原始视频及其全局描述文本，目标事件视频及其事件描述文本；基于所述第二多模态数据集进行对比学习神经网络模型进行训练，以获取视频文本理解模型。本申请通过事件解构和语义增强的双阶段训练框架，不仅能够构建更大规模、高质量的多模态数据集，而且能显著提升了多模态模型在视频‑文本细粒度对齐能力，以及在复杂动态场景的语义识别和理解能力。

技术关键词

文本理解模型训练方法多模态神经网络模型关键帧文字编码器模型训练系统模型训练模块视频编码器动态场景数据获取模块流水线样本运动检测工具成分分析语义

系统为您推荐了相关专利信息

一种基于大数据信息化教学优化方法

知识点信息化教学动态知识图谱深度学习提取特征多头注意力机制

变电站四遥信息点表生成方法及相关装置

变电站SCD文件生成方法数据处理机图像识别技术识别 AI算法

基于多模态数据融合与动态任务调整的个体态势感知能力智能测评方法与系统

智能测评方法多模态数据融合融合特征生成测评报告多模态特征融合

多模态谣言鉴别方法及系统、电子设备和存储介质

谣言消息识别系统图像多模态

分类模型训练方法、图像分类方法、装置、设备及介质

分类模型训练方法分类网络图像分类方法分支基础