一种基于端云融合的实时声音复刻方法及系统

申请号：CN202510997352

申请日期：2025-07-18

公开号：CN120895021A

公开日期：2025-11-04

类型：发明专利

摘要

本发明提供在一种基于端云融合的实时声音复刻方法及系统，方法包括：云端基于AI大模型对用户少量语音数据进行实时音色复刻与语音合成；用户注册语音音频数据时收集音色样本，大模型同步生成预设文本的用户音色语音数据，用作端侧语音合成模型的微调训练数据；利用预设文本的用户音色语音数据和用户注册的语音音频数据对端侧语音合成模型迁移微调训练，适配用户个性化音色，保证端侧语音合成模型高质量输出，实现个性化声音复刻；将完成训练的端侧语音合成模型下发至用户设备，在无网或弱网环境下独立完成语音复刻。本发明通过用户音色数据自动生成和模型自适应微调，将用户的音色微调后部署至端侧，实现端云协同的高质量、高适应性声音复刻。

技术关键词

语音音频数据预训练模型声学特征文本个性化语音特征语音克隆技术云端样本计算机设备端云协同深度学习算法参数音色特征生成高度生成语音处理器生成用户