一种基于文案生成视频的方法、装置、设备及介质

申请号：CN202411477972

申请日期：2024-10-22

公开号：CN119364107A

公开日期：2025-01-24

类型：发明专利

摘要

本发明涉及人工智能领域，公开了一种基于文案生成视频的方法、装置、设备及介质，包括：通过获取待生成视频文案，并通过预设语义理解模型提取对应的关键语义特征，通过预设语音转换模型将待生成视频文案转换为对应的音频数据，并采用文本到语音算法对音频数据标记时间戳，将关键语义特征与预设素材库进行匹配获取图片素材，并生成带有时间戳的图文视频，采用预设动态谈话人脸视频模型对音频数据进行预设口型同步渲染，生成带有时间戳的虚拟人视频，根据图文视频的时间戳与虚拟人视频的时间戳，合并图文视频与虚拟人视频，生成最终视频并上传，解决了目前由于过于模板化的视频生成无法满足不同客户的需求，影响了客户体验的技术问题。

技术关键词

视频语义理解模型语义特征图文语音算法声学特征音频特征人脸可读存储介质文本动态脸部特征处理器生成算法标记注意力机制数据模块