摘要
本发明公开了一种基于多层级特征融合的掩码自编码声纹识别方法,将原始的音频数据经过短时傅里叶变换和梅尔滤波器组转换为梅尔频谱图;将梅尔频谱图进行分块并随机掩码后输入到编码器中;挑选若干层中间特征,使用投影层将其与编码器最后一层的特征进行语义对齐,使用动态权重融合策略得到融合特征;将融合特征输入到解码器中,以最小化原始梅尔频谱图与重构梅尔频谱图之间的绝对值损失作为优化目标,完成预训练;在微调阶段,使用预训练的编码器作为初始模型,利用带标签数据集进行声纹分类,使用模型输出的每一类别的概率与真实标签之间的交叉熵损失作为优化目标进行微调。本方案增强隐藏空间中的表征质量,提升了在声纹识别任务上的准确率。