摘要
本申请涉及一种人体动作的视频生成方法及装置,其中,方法包括:提取与文本提示词对应的文本嵌入,利用基于注意力机制的神经网络架构将文本嵌入转换为动作索引,并利用预训练后的动作解码器将动作索引解码为目标格式的第一人体动作;利用L2范数过滤第一人体动作;利用关键子动作将第二人体动作中的长人体动作序列分割为至少一个短人体动作序列;将至少一个短人体动作序列和文本提示词输入至训练后的ControlNet模型中,以生成满足预设真实条件的人体动作视频。本申请实施例能够不需要文字‑视频数据集,只需要用户输入文字提示词,达到提高模型泛化性的目的,同时对错误帧以及错误人体动作进行过滤,提高了帧之间的连续性。