摘要
本发明涉及语音技术领域,公开了音频风格向量训练方法及音频风格向量生成方法,包括:获取样本音频、样本音频的样本文本和样本音频特征;采用风格编码层,基于样本音频特征,确定样本风格向量;采用说话人分类器进行分类得到样本分类结果;采用语音合成模型,基于样本风格向量和样本音频特征进行语音合成,得到合成音频;确定合成损失和分类损失;基于合成损失和分类损失进行训练,将训练好的风格编码层集成到训练好的语音合成模型中,得到目标语音合成模型。本发明无需依赖说话人信息的情况下,也能够准确提取音频中的风格向量,从而基于该风格向量进行训练,使得训练出的语音合成模型能够准确提取音频的风格向量,并且准确地进行语音合成。