摘要
本发明涉及人工智能技术领域和金融科技领域,公开了一种语音生成方法,通过获取待转换文本和参考语音样本,利用预训练的自监督学习编码器提取参考语音的语音特征,通过文本到语音特征模型将待转换文本转换为语音特征,分析这两组特征的相似度,从中确定目标说话人的语音特征,将两组特征融合,生成最终的融合语音特征,并利用预训练的声码器解码生成语音信号。本发明通过在小样本或零样本条件下进行特征匹配和融合,能够在无需大量语音数据的情况下,生成与目标声音相似的语音,有效提升了语音合成的效率和质量,满足多场景应用需求,尤其适用于未见过的说话者语音生成。