基于大语言模型的语音生成方法、设备及存储介质

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
基于大语言模型的语音生成方法、设备及存储介质
申请号:CN202511279697
申请日期:2025-09-09
公开号:CN120766658B
公开日期:2025-11-18
类型:发明专利
摘要
本申请公开一种基于大语言模型的语音生成方法、设备及存储介质,该方法包括:获取历史通话文本及对应的历史音频数据;将历史通话文本输入至预训练文本模型,获得语义文本特征,并将历史音频数据输入至预训练语音模型,获得语音内容特征;将语义文本特征及语音内容特征输入至待训练的语音合成模型进行融合,并根据融合特征生成预测音频数据,实现了训练输入时的语音内容增强;根据预测音频数据及历史音频数据对待训练的语音合成模型进行训练,获得训练后的语音合成模型;在接收待转换文本时,将待转换文本输入至训练后的语音合成模型,生成待转换文本对应的目标音频数据,有利于提高生成语音的真实性。
技术关键词
转换文本 大语言模型 语音生成方法 训练语音模型 音频 语音生成设备 语义 生成程序 融合特征 大规模文本数据 语音特征提取 参数 特征提取模型 生成语音 解码器 处理器 编码器