基于大语言模型的语音生成方法、设备及存储介质

申请号：CN202511279697

申请日期：2025-09-09

公开号：CN120766658B

公开日期：2025-11-18

类型：发明专利

摘要

本申请公开一种基于大语言模型的语音生成方法、设备及存储介质，该方法包括：获取历史通话文本及对应的历史音频数据；将历史通话文本输入至预训练文本模型，获得语义文本特征，并将历史音频数据输入至预训练语音模型，获得语音内容特征；将语义文本特征及语音内容特征输入至待训练的语音合成模型进行融合，并根据融合特征生成预测音频数据，实现了训练输入时的语音内容增强；根据预测音频数据及历史音频数据对待训练的语音合成模型进行训练，获得训练后的语音合成模型；在接收待转换文本时，将待转换文本输入至训练后的语音合成模型，生成待转换文本对应的目标音频数据，有利于提高生成语音的真实性。

技术关键词

转换文本大语言模型语音生成方法训练语音模型音频语音生成设备语义生成程序融合特征大规模文本数据语音特征提取参数特征提取模型生成语音解码器处理器编码器