一种基于对比学习的视频文本理解模型训练方法及系统

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
一种基于对比学习的视频文本理解模型训练方法及系统
申请号:CN202510759579
申请日期:2025-06-09
公开号:CN120689793A
公开日期:2025-09-23
类型:发明专利
摘要
一种基于对比学习的视频文本理解模型训练方法及系统,通过对第一多模态数据集中的原始视频进行事件分割,获取原始视频的初始事件视频;对初始事件视频进行筛选,获取满足质量评分及运动幅度要求的目标事件视频;对目标事件视频进行标注,获取第二多模态数据集,第二多模态数据集包括原始视频及其全局描述文本,目标事件视频及其事件描述文本;基于所述第二多模态数据集进行对比学习神经网络模型进行训练,以获取视频文本理解模型。本申请通过事件解构和语义增强的双阶段训练框架,不仅能够构建更大规模、高质量的多模态数据集,而且能显著提升了多模态模型在视频‑文本细粒度对齐能力,以及在复杂动态场景的语义识别和理解能力。
技术关键词
文本理解 模型训练方法 多模态 神经网络模型 关键帧 文字编码器 模型训练系统 模型训练模块 视频编码器 动态场景 数据获取模块 流水线 样本 运动 检测工具 成分分析 语义
系统为您推荐了相关专利信息
知识点 信息化教学 动态知识图谱 深度学习提取特征 多头注意力机制
变电站SCD文件 生成方法 数据处理机 图像识别技术识别 AI算法
智能测评方法 多模态数据融合 融合特征 生成测评报告 多模态特征融合
谣言 消息 识别系统 图像 多模态
分类模型训练方法 分类网络 图像分类方法 分支 基础