基于少样本的语音克隆模型训练方法、装置、介质及设备
申请号:CN202510602001
申请日期:2025-05-12
公开号:CN120708590A
公开日期:2025-09-26
类型:发明专利
摘要
本申请公开了一种基于少样本的语音克隆模型训练方法、装置、介质及设备,属于深度学习技术领域。获取训练集;创建语音克隆模型;对于每个训练样本,利用特征序列生成器对源音频、目标文本和目标音频进行处理,将生成的特征拼接成第一特征序列,第一特征序列包括源音频的声音特征和第一语音特征、源音频的第一文本特征和第一音素特征、目标文本的第二文本特征和第二音素特征、目标音频的第二语音特征和位置标识符;利用自回归大语言模型对特征序列进行处理,得到第三语音特征;利用损失函数对第二语音特征和第三语音特征计算损失值,以训练自回归大语言模型的模型参数。本申请能使用少量的样本训练模型,且保证模型输出的声音不失真。
技术关键词
语音特征
大语言模型
序列生成器
模型训练方法
拼音
样本
标识符
声码器
模型训练装置
音频编码器
文本编码器
计算机设备
模块
训练集
深度学习技术