语音生成方法、装置、设备及介质

申请号：CN202411494286

申请日期：2024-10-24

公开号：CN119360819A

公开日期：2025-01-24

类型：发明专利

摘要

本发明涉及人工智能技术领域和金融科技领域，公开了一种语音生成方法，通过获取待转换文本和参考语音样本，利用预训练的自监督学习编码器提取参考语音的语音特征，通过文本到语音特征模型将待转换文本转换为语音特征，分析这两组特征的相似度，从中确定目标说话人的语音特征，将两组特征融合，生成最终的融合语音特征，并利用预训练的声码器解码生成语音信号。本发明通过在小样本或零样本条件下进行特征匹配和融合，能够在无需大量语音数据的情况下，生成与目标声音相似的语音，有效提升了语音合成的效率和质量，满足多场景应用需求，尤其适用于未见过的说话者语音生成。

技术关键词

语音特征语音生成方法转换文本生成程序样本编码器生成语音信号音频声码器生成装置解码计算机设备序列分析模块句法结构特征提取模块人工智能技术