摘要
本公开实施例公开了一种动作视频生成方法、相关装置和介质,该方法通过获取与目标虚拟角色关联的目标音频,将目标音频编码为目标音频特征;获取与目标虚拟角色关联的目标引导内容,将目标引导内容和预设提示文本输入到预设的大语言模型进行文本预测,生成至少一个用于描述目标虚拟角色的语义标签,将语义标签编码为语义标签特征;利用扩散模型根据目标音频特征和语义标签特征对预设噪声特征进行去噪,得到目标动作序列;基于目标动作序列生成目标虚拟角色的目标动作视频。本公开能够生成更为契合虚拟角色自身特点的动作数据,提高所生成的动作数据的精细度和准确度,能够广泛地应用在虚拟角色建模、虚拟角色驱动等场景。