摘要
本发明公开了一种基于音素和面部姿态混合的语音口型同步系统,涉及计算机动画和语音合成领域,实现一种高效的文本到语音与口型同步技术,通过TTS服务,首先将文本转换为语音,并生成音素信息,随后根据语音的时长,精确计算每个音素峰值的时间点,设计师将预先准备每个音素对应的口型姿态,在两个音素之间逐步减少上一个音素的权重,同时增加下一个音素的权重,每个音素对应于虚幻引擎姿态资产中的一条曲线,通过动态调整音素权重来修改曲线值,从而生成最终的口型动画,此外通过面部动画蓝图,混合情绪值实现更逼真的面部表情,该方案在实时性和网络延迟方面表现卓越,所需的动画序列资产仅20个,相较于传统方案降低了资源消耗,提升了效率。