摘要
本发明提出了一种基于三阶段多模态视觉语言提示的表情识别方法及系统。涉及计算机视觉与自然语言处理技术领域,针对的问题是:现有方法无法识别面部表情的细微变化,仅关注视频相关信息,忽视帧内信息和文本信息,模型识别不准确。本发明获取动态面部表情视频数据集;通过图像编码器,提取每一帧的面部特征向量,采用三阶段可优化提示学习方法进行优化学习,将优化学得到的融合后的提示输入至时间模型,得到面部视频特征;通过文本编码器中,提取面部表情类别相关的文本特征;将面部视频特征与文本特征进行余弦相似度计算,得到预测概率,确定识别结果。本发明的模型在不增加学习代价的同时显著提高了识别的准确性。