摘要
本申请公开了一种口播视频生成方法、装置、设备及存储介质,涉及计算机技术领域,公开的方法包括:接收口播音频样本以及当前文本内容;通过初始人物模型对口播音频样本进行学习,以生成与口播音频样本的音色对应的目标人物模型;通过目标人物模型基于当前文本内容生成口播视频。由于本申请通过利用初始人物模型对口播音频样本进行学习的方式来生成与口播音频样本的音色对应的目标人物模型,因此,相较于现有技术基于文本只能生成默认风格音色的口播视频,本申请通过口播音频样本能够实现对对初始人物模型的音色进行调整,从而能够满足用户需求,有效提高了用户使用体验。