摘要
本发明属于图像领域、语音领域和数字人技术领域,尤其涉及一种基于多模态的数字人生成方法。该方法先获取相同文本下不同形象人的有声视频,分离音视频并提取面部特征构建数据集;接着搭建并训练数字人形象克隆模型和音色克隆模型,分别实现从音频到面部特征、面部特征到无声视频的映射以及音色克隆;最后整合两个模型,借助大语言模型驱动实现数字人问答交流。与传统单一模态生成技术相比,本发明通过多模态数据融合,解决了虚拟人外观与音色不一致、情感表达不精准的问题,提升了数字人的真实感与自然度,增强了其在虚拟主播、智能客服等场景的表现力,推动了数字人技术的发展。