基于多模态融合与文本增强的面部动作单元识别方法及系统

申请号：CN202510431010

申请日期：2025-04-08

公开号：CN120375440A

公开日期：2025-07-25

类型：发明专利

摘要

本发明公开了一种基于多模态融合与文本增强的面部动作单元识别方法及系统，包括：视觉语言模型提取出面部图像属性集合，基于面部图像属性集合构建自适应文本提示词，采用CLIP对自适应文本提示词进行处理，得到文本语义特征；面部关键点检测模型提取出面部关键点特征；面部表情识别模型提取出面部表情特征；图像语义特征融合模块对面部关键点特征和面部表情特征进行处理，得到多模态图像语义特征；将多模态图像语义特征与文本语义特征输入到多模态特征融合模块，得到文本信息增强后的多模态融合特征；实现对面部图像的面部动作单元的识别。本发明能增强跨模态特征的互补性与联合表征的鲁棒性，有效提升了复杂场景下面部动作的识别精度。

技术关键词

面部表情识别模型面部图像数据面部关键点检测语义特征面部表情特征文本融合特征多模态特征融合面部动作单元注意力出面部图像多尺度自然语言模块