摘要
本发明涉及语音语义技术领域,可应用于金融科技、医疗健康等业务系统平台中,揭露了一种可控零样本语音转换方法、装置、设备及介质,所述方法包括:对未标注语音数据进行自监督语音学习,得到自监督语音表示,提取自监督语音表示的内容特征向量和韵律风格向量,并转化为离散内容令牌和离散韵律令牌,对离散韵律令牌进行掩码生成,得到目标韵律令牌,获取目标用户的参考语音,提取参考语音中的用户风格嵌入,对离散内容令牌、目标韵律令牌和用户风格嵌入进行流匹配,生成目标梅尔频谱图,对目标梅尔频谱图进行语音波形重建与优化,得到零样本语音转换结果。本发明在无标注语音数据条件下,实现个性化、高保真、风格一致的零样本语音转换问题。