摘要
本发明涉及人工智能领域,公开了一种基于文案生成视频的方法、装置、设备及介质,包括:通过获取待生成视频文案,并通过预设语义理解模型提取对应的关键语义特征,通过预设语音转换模型将待生成视频文案转换为对应的音频数据,并采用文本到语音算法对音频数据标记时间戳,将关键语义特征与预设素材库进行匹配获取图片素材,并生成带有时间戳的图文视频,采用预设动态谈话人脸视频模型对音频数据进行预设口型同步渲染,生成带有时间戳的虚拟人视频,根据图文视频的时间戳与虚拟人视频的时间戳,合并图文视频与虚拟人视频,生成最终视频并上传,解决了目前由于过于模板化的视频生成无法满足不同客户的需求,影响了客户体验的技术问题。