音频风格向量训练方法及音频风格向量生成方法

申请号：CN202411591238

申请日期：2024-11-08

公开号：CN119479614B

公开日期：2025-05-13

类型：发明专利

摘要

本发明涉及语音技术领域，公开了音频风格向量训练方法及音频风格向量生成方法，包括：获取样本音频、样本音频的样本文本和样本音频特征；采用风格编码层，基于样本音频特征，确定样本风格向量；采用说话人分类器进行分类得到样本分类结果；采用语音合成模型，基于样本风格向量和样本音频特征进行语音合成，得到合成音频；确定合成损失和分类损失；基于合成损失和分类损失进行训练，将训练好的风格编码层集成到训练好的语音合成模型中，得到目标语音合成模型。本发明无需依赖说话人信息的情况下，也能够准确提取音频中的风格向量，从而基于该风格向量进行训练，使得训练出的语音合成模型能够准确提取音频的风格向量，并且准确地进行语音合成。

技术关键词

样本音频特征向量训练方法风格向量生成方法文本自动编码分类器模块语音技术标签搜索算法训练装置存储器生成装置处理器计算机设备