一种基于语义指导多模态融合的小样本动作识别方法

申请号：CN202410937750

申请日期：2024-07-12

公开号：CN118747916A

公开日期：2024-10-08

类型：发明专利

摘要

本发明公开了一种基于语义指导多模态融合的小样本动作识别方法，本发明涉及计算机视觉技术领域。该基于语义指导多模态融合的小样本动作识别方法，通过利用大语言模型生成覆盖各种动作类别的丰富而全面的文本知识，保证提取小样本动作识别任务的语义信息的全面性，通过对提取的具有区分性的语义信息与未知类别样本的视觉信息进行匹配度量来实现在文本分支中的初步分类，并且，在视觉分支设计了一个语义引导的视觉交互模块，促进了语义和视觉信息的有效整合，提高了样本中特征表示的质量，能够更加及时理解只有少量样本的新类别。

技术关键词

动作识别方法视觉特征样本多模态语义原型时序计算机视觉技术度量文本编码器深度神经网络大语言模型数据标签优化器超参数图片分支