摘要
本发明涉及语音合成技术领域,可应用于金融科技、医疗健康等业务系统平台中,公开了一种语音对话及声纹克隆方法、装置、设备及介质,包括:获取用户的语音输入数据,将所述语音输入数据转换为文本数据,利用预先训练的大语言模型根据所述文本数据生成回复文本,获取所述回复文本中每个文本Token所包含的隐藏状态,根据所述回复文本以及所述隐藏状态构建上下文感知序列,获取用户预先选取的声纹样本的声纹特征,利用预设的文本转语音模型根据所述上下文感知序列和所述声纹特征生成所述回复文本的梅尔频谱,将所述梅尔频谱转换为音频数据,得到回复音频,向用户得到并播放回复音频。提升了文本语音转换的效率和精准度。