一种视频标签识别及模型训练方法、装置、设备和介质

申请号：CN202411098346

申请日期：2024-08-12

公开号：CN118747866B

公开日期：2025-01-07

类型：发明专利

摘要

本申请涉及视频处理技术领域，尤其涉及一种视频标签识别及模型训练方法、装置、设备和介质，用以高效准确地识别中视频、长视频的标签。方法包括：对各视频帧分别进行编码，获得相应的全局特征和局部特征，并基于特征相似度，分别对获得的全局特征集和局部特征集进行压缩，得到预设存储长度的全局特征序列和局部特征序列；对预训练获得的全局查询特征和局部查询特征进行拼接后，采用自注意力机制提取出相应的自注意力特征；采用交叉注意力机制，提取自注意力特征与全局特征序列中每个全局特征之间的第一交叉注意力特征，与局部特征序列中每个局部特征之间的第二交叉注意力特征；基于各第一交叉注意力特征和各第二交叉注意力特征，识别视频标签。

技术关键词

查询特征交叉注意力机制记忆单元序列大语言模型视觉特征文本视频帧样本标签识别装置转换器特征提取模块模型训练方法解码器标签识别方法电子设备

系统为您推荐了相关专利信息

一种基于层级知识库的视频帧精准定位方法

知识点关键帧精准定位方法在线教育平台自然语言

场景化的AIGC内容生成方法及系统

人工智能内容内容生成方法序列引导器内容生成系统

一种车间生产调度控制方法

调度控制方法机器运行状态车间代表调度控制技术

测试方法和电子设备

执行测试用例机械臂时空融合特征自动化用例误差

融合分解重构技术与多任务学习的多元负荷联合预测方法

联合预测方法负荷多任务学习模型重构技术序列