基于少样本的语音克隆模型训练方法、装置、介质及设备

申请号：CN202510602001

申请日期：2025-05-12

公开号：CN120708590A

公开日期：2025-09-26

类型：发明专利

摘要

本申请公开了一种基于少样本的语音克隆模型训练方法、装置、介质及设备，属于深度学习技术领域。获取训练集；创建语音克隆模型；对于每个训练样本，利用特征序列生成器对源音频、目标文本和目标音频进行处理，将生成的特征拼接成第一特征序列，第一特征序列包括源音频的声音特征和第一语音特征、源音频的第一文本特征和第一音素特征、目标文本的第二文本特征和第二音素特征、目标音频的第二语音特征和位置标识符；利用自回归大语言模型对特征序列进行处理，得到第三语音特征；利用损失函数对第二语音特征和第三语音特征计算损失值，以训练自回归大语言模型的模型参数。本申请能使用少量的样本训练模型，且保证模型输出的声音不失真。

技术关键词

语音特征大语言模型序列生成器模型训练方法拼音样本标识符声码器模型训练装置音频编码器文本编码器计算机设备模块训练集深度学习技术

系统为您推荐了相关专利信息

视频文案生成方法、装置、设备和存储介质

视频营销大语言模型样本摘要文案生成方法

一种基于微调大语言模型的推荐数据增强方法

大语言模型微调技术项目数据推荐系统

一种工作流构建方法、装置、电子设备及存储介质

工作流标识指令数据客户端

智能问诊对话方法、装置、计算机设备及存储介质

疾病特征对话方法大语言模型因子计算机程序指令

基于知识增强提示学习的短文本分类方法及相关装置

标签预训练语言模型文本预测类别学习方法