摘要
本申请公开一种基于大语言模型的语音生成方法、设备及存储介质,该方法包括:获取历史通话文本及对应的历史音频数据;将历史通话文本输入至预训练文本模型,获得语义文本特征,并将历史音频数据输入至预训练语音模型,获得语音内容特征;将语义文本特征及语音内容特征输入至待训练的语音合成模型进行融合,并根据融合特征生成预测音频数据,实现了训练输入时的语音内容增强;根据预测音频数据及历史音频数据对待训练的语音合成模型进行训练,获得训练后的语音合成模型;在接收待转换文本时,将待转换文本输入至训练后的语音合成模型,生成待转换文本对应的目标音频数据,有利于提高生成语音的真实性。