一种基于文本、语音和表情动作的多模态情感识别算法

申请号：CN202411722278

申请日期：2024-11-28

公开号：CN119961634A

公开日期：2025-05-09

类型：发明专利

摘要

本发明涉及人工智能、情感计算领域，提出了一种一种基于文本、语音和表情动作的多模态情感识别算法。首先，设计了一种浅层特征提取网络(Sfen)和并行卷积模块(Pconv)提取语音和文本中的情感特征，在表情动作模态中，将提取面部表情和手部动作的序列特征与双向三层含有注意力机制的LSTM模型相结合；其次，为强化模态间的关联性，设计了一种用于优化语音和文本特征融合的交叉注意力模块；最后，提出一种多性能指标下的模态融合方案，整合不同模态的情感识别结果，实现高精度的情感识别。该系统旨在通过融合音频、文本和表情动作等多模态信息，提高情感识别的准确性。

技术关键词

识别算法文本情感识别模型情感特征 word2vec模型神经网络语言模型深度学习模型融合多模态特征情感状态识别梅尔频率倒谱系数语音特征参数注意力机制浅层特征提取长短期记忆网络数据分词