语音表征模型训练方法、装置及相关设备

申请号：CN202410764455

申请日期：2024-06-13

公开号：CN118824233A

公开日期：2024-10-22

类型：发明专利

摘要

本公开关于语音表征模型训练方法、装置及相关设备，该方法包括获取样本文本、对应的样本梅尔谱及对应的样本音素序列；通过初始模型的音素编码器对样本音素序列进行编码得到样本音素特征；通过初始模型的语音编码器对样本梅尔谱进行编码得到样本语音特征；对样本语音特征进行量化得到样本语音量化特征；对样本梅尔谱进行截取得到提示梅尔谱；通过初始模型的提示编码器对提示梅尔谱进行编码得到样本提示特征；通过初始模型的语音解码器，基于样本提示特征对样本语音量化特征进行解码得到预测梅尔谱；通过初始模型的音素解码器，对样本语音量化特征进行解码得到预测音素序列；基于模型损失训练初始模型得到语音表征模型。本公开可提升语音表征质量。

技术关键词

样本语音特征编码向量序列语音解码器语音编码器模型训练方法文本计算机程序产品可读存储介质模型训练装置电子设备处理器特征提取模块