一种听视觉时空特征融合的声乐练声元音发音质量评估方法
申请号:CN202510944393
申请日期:2025-07-09
公开号:CN120636469A
公开日期:2025-09-12
类型:发明专利
摘要
本发明提供一种听视觉时空特征融合的声乐练声元音发音质量评估方法,包括:采集歌唱者的元音发音音频信号及对应视频,构建多模态数据集;对所述音频信号通过自适应阶数的短时分数阶傅里叶变换生成分数阶Mel语谱图;提取所述分数阶Mel语谱图的时序特征与空间特征,并通过门控机制融合生成音频时空特征;提取视频中的人脸视觉特征,并通过交叉注意力机制与所述音频时空特征融合,其中所述交叉注意力机制集成周期性建模网络;将融合后的特征输入分类器,采用动态权重多模态余弦损失函数训练模型,所述动态权重多模态余弦损失函数通过混淆矩阵动态调整样本权重,对分类错误的样本基于其历史误分频次增加权重;输出发音质量评估结果。
技术关键词
听视觉
短时分数阶傅里叶变换
交叉注意力机制
发音
声乐
音频
歌唱者
周期性特征
时序特征
动态
多模态数据采集
面部动作单元
预测类别
样本
视觉特征提取
分类器
跨模态