一种基于扩散增强和多粒度特征融合的语音情感识别方法

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
一种基于扩散增强和多粒度特征融合的语音情感识别方法
申请号:CN202411820247
申请日期:2024-12-11
公开号:CN119296588B
公开日期:2025-03-11
类型:发明专利
摘要
本发明属于情感计算技术领域,具体涉及一种基于扩散增强和多粒度特征融合的语音情感识别方法,该方法将音频转换为梅尔频谱图;将梅尔频谱图输入扩散模型中,再逐步进行正向扩散注入噪声和反向扩散去除噪声,以恢复出更加清晰的音频;提取增强后音频的特征,然后从音频中提取出帧级特征、段级特征和话语级特征,再进行自适应特征选择,通过权重位置依赖进行深层融合;将融合后的多粒度语音特征输入动态图卷积情感分类模型,生成情感状态识别结果。本发明可提供多分类语音情感识别和语音质量增强等服务,从而在交互中提供更加人性化的响应。
技术关键词
语音特征 语音情感识别方法 情感类别 情感分类模型 节点特征 音频 情感状态识别 情感计算技术 记忆 交叉注意力机制 网络 多头注意力机制 邻居 矩阵 描述符 消除方法 冗余