语音对话及声纹克隆方法、装置、设备及介质

申请号：CN202511228748

申请日期：2025-08-29

公开号：CN120877738A

公开日期：2025-10-31

类型：发明专利

摘要

本发明涉及语音合成技术领域，可应用于金融科技、医疗健康等业务系统平台中，公开了一种语音对话及声纹克隆方法、装置、设备及介质，包括：获取用户的语音输入数据，将所述语音输入数据转换为文本数据，利用预先训练的大语言模型根据所述文本数据生成回复文本，获取所述回复文本中每个文本Token所包含的隐藏状态，根据所述回复文本以及所述隐藏状态构建上下文感知序列，获取用户预先选取的声纹样本的声纹特征，利用预设的文本转语音模型根据所述上下文感知序列和所述声纹特征生成所述回复文本的梅尔频谱，将所述梅尔频谱转换为音频数据，得到回复音频，向用户得到并播放回复音频。提升了文本语音转换的效率和精准度。

技术关键词

文本克隆方法声纹特征序列感知线性预测编码特征梅尔频率倒谱系数动态时间规整算法音频特征语音特征特征提取模型可读存储介质波形大语言模型信号医疗健康数据获取模块