一种基于CLIP的视频文本嵌入融合分类方法

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
一种基于CLIP的视频文本嵌入融合分类方法
申请号:CN202410855760
申请日期:2024-06-27
公开号:CN118864930A
公开日期:2024-10-29
类型:发明专利
摘要
本发明涉及视频动作识别领域,是一种基于CLIP的视频文本嵌入融合分类方法。该方法通过预训练模型CLIP的文本编码器和视觉编码器分别提取文本特征和视频帧级别视觉特征;对视频帧级别视觉特征分别进行多尺度自适应特征融合操作和无参最值特征融合操作并对生成的视频级别嵌入向量进行多层级跨模态关注融合操作最终生成全局视频级别嵌入向量;对全局视频级别嵌入向量和文本嵌入向量计算最大余弦相似度。本发明在保证自动聚焦视频帧中的关键信息的同时减少了训练和推理的计算成本,具有广阔的应用前景。
技术关键词
融合分类方法 文本编码器 视频帧 损失函数计算方法 跨模态 视觉特征 视频动作识别 矩阵 层级 多尺度 预训练模型 训练集 标签 优化器 超参数 注意力