摘要
本公开实施例提供一种文本动画视频生成方法、装置、电子设备及存储介质,通过获取视频内容文本,并根据视频内容文本的文本语义,生成多层级语义标签,多层级语义标签用于表征构成视频内容文本的至少两个文本组,以及各文本组的语义信息;根据多层级语义标签和目标音频,生成文本时间戳序列,基于文本时间戳序列,生成各文本组对应的文本动画特效,并基于各文本动画特效生成文本动画视频。使文本动画视频中的各文本组内容的展示时机与目标音频的音频节拍相匹配,实现文本内容的音频卡点展示,提高文本动画视频的特效展示效果,同时提高文本动画视频的生成效率。