摘要
一种基于对比学习的视频文本理解模型训练方法及系统,通过对第一多模态数据集中的原始视频进行事件分割,获取原始视频的初始事件视频;对初始事件视频进行筛选,获取满足质量评分及运动幅度要求的目标事件视频;对目标事件视频进行标注,获取第二多模态数据集,第二多模态数据集包括原始视频及其全局描述文本,目标事件视频及其事件描述文本;基于所述第二多模态数据集进行对比学习神经网络模型进行训练,以获取视频文本理解模型。本申请通过事件解构和语义增强的双阶段训练框架,不仅能够构建更大规模、高质量的多模态数据集,而且能显著提升了多模态模型在视频‑文本细粒度对齐能力,以及在复杂动态场景的语义识别和理解能力。