基于三阶段多模态视觉语言提示的表情识别方法和系统

申请号：CN202411891224

申请日期：2024-12-20

公开号：CN119763171A

公开日期：2025-04-04

类型：发明专利

摘要

本发明提出了一种基于三阶段多模态视觉语言提示的表情识别方法及系统。涉及计算机视觉与自然语言处理技术领域，针对的问题是：现有方法无法识别面部表情的细微变化，仅关注视频相关信息，忽视帧内信息和文本信息，模型识别不准确。本发明获取动态面部表情视频数据集；通过图像编码器，提取每一帧的面部特征向量，采用三阶段可优化提示学习方法进行优化学习，将优化学得到的融合后的提示输入至时间模型，得到面部视频特征；通过文本编码器中，提取面部表情类别相关的文本特征；将面部视频特征与文本特征进行余弦相似度计算，得到预测概率，确定识别结果。本发明的模型在不增加学习代价的同时显著提高了识别的准确性。

技术关键词

面部视频特征表情识别方法动态面部表情多模态文本编码器图像编码器阶段学习方法视觉面部关键点检测识别面部表情表情识别系统视频特征提取计算机装置特征提取模块处理器