基于预训练模型的多模态语音情感识别方法及系统

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
基于预训练模型的多模态语音情感识别方法及系统
申请号:CN202411498006
申请日期:2024-10-25
公开号:CN119339743A
公开日期:2025-01-21
类型:发明专利
摘要
本发明提供了一种基于预训练模型的多模态语音情感识别方法,包括如下步骤:步骤1、获取数据集,所述数据集中包括若干数据对,所述数据对包括相对应的文本的数据和音频数据,每个所述数据对设置有情感标签;步骤2、从文本数据中获取文本语义特征,从同一数据对中的音频数据获取音频声学特征和语音情感特征;步骤3、将文本语义特征、音频声学特征和语音情感特征进行特征融合,获得融合特征;步骤4、将融合特征输入至线性分类器当中,通过softmax层后将其输出作为每一种情感的得分,取得分最大值对应的情感标签所对应的情感作为识别结果。该方法并基于注意力机制提出了一种以语音情感为导向的融合策略,显著提高了语音情感的预测准确率。
技术关键词
语音情感识别方法 预训练模型 情感特征 声学特征 语义特征 语音情感识别系统 文本 线性分类器 音频 融合特征 注意力编码器 编码结构 前馈神经网络 数据 特征提取模块 语音特征 标签
系统为您推荐了相关专利信息
令牌 文本处理方法 样本 文本处理装置 语义特征
动态权重优化 多模态特征融合 语义特征 决策算法 条目
血液净化系统 递归神经网络 神经网络模型 样本 序列检测
人体姿态估计 判定参数 评估系统 视频 预训练模型
语义特征 内核 融合特征 多尺度特征提取 分解特征