摘要
本发明涉及语音技术领域,公开了一种实时情感模拟的声音克隆系统,包括:所述语音特征提取模块用于从预处理后的语音数据中提取关键的音高、音调、频谱特征,为情感建模提供基础,语音特征提取模块与情感建模模块连接,提取的特征作为情感建模的输入;所述语音合成模块用于根据情感建模模块生成的特征;所述质量评估与优化模块用于对生成的语音进行质量评估,并根据评估结果和用户反馈来优化系统。通过生成对抗网络和循环神经网络模型,生成高度逼真的语音,语音输出在音质和自然度上接近真人语音,避免了传统语音合成技术中常见的机械化和单调问题,这一优势特别适用于需要真实语音体验的场景,如虚拟助手、在线教育和客户服务。