一种基于CLIP的视频文本嵌入融合分类方法

申请号：CN202410855760

申请日期：2024-06-27

公开号：CN118864930A

公开日期：2024-10-29

类型：发明专利

摘要

本发明涉及视频动作识别领域，是一种基于CLIP的视频文本嵌入融合分类方法。该方法通过预训练模型CLIP的文本编码器和视觉编码器分别提取文本特征和视频帧级别视觉特征；对视频帧级别视觉特征分别进行多尺度自适应特征融合操作和无参最值特征融合操作并对生成的视频级别嵌入向量进行多层级跨模态关注融合操作最终生成全局视频级别嵌入向量；对全局视频级别嵌入向量和文本嵌入向量计算最大余弦相似度。本发明在保证自动聚焦视频帧中的关键信息的同时减少了训练和推理的计算成本，具有广阔的应用前景。

技术关键词

融合分类方法文本编码器视频帧损失函数计算方法跨模态视觉特征视频动作识别矩阵层级多尺度预训练模型训练集标签优化器超参数注意力