基于三阶段多模态视觉语言提示的表情识别方法和系统

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
基于三阶段多模态视觉语言提示的表情识别方法和系统
申请号:CN202411891224
申请日期:2024-12-20
公开号:CN119763171A
公开日期:2025-04-04
类型:发明专利
摘要
本发明提出了一种基于三阶段多模态视觉语言提示的表情识别方法及系统。涉及计算机视觉与自然语言处理技术领域,针对的问题是:现有方法无法识别面部表情的细微变化,仅关注视频相关信息,忽视帧内信息和文本信息,模型识别不准确。本发明获取动态面部表情视频数据集;通过图像编码器,提取每一帧的面部特征向量,采用三阶段可优化提示学习方法进行优化学习,将优化学得到的融合后的提示输入至时间模型,得到面部视频特征;通过文本编码器中,提取面部表情类别相关的文本特征;将面部视频特征与文本特征进行余弦相似度计算,得到预测概率,确定识别结果。本发明的模型在不增加学习代价的同时显著提高了识别的准确性。
技术关键词
面部视频特征 表情识别方法 动态面部表情 多模态 文本编码器 图像编码器 阶段 学习方法 视觉 面部关键点检测 识别面部表情 表情识别系统 视频特征提取 计算机装置 特征提取模块 处理器