一种利用2D视频在文本驱动下生成3D人体运动的方法及系统

申请号：CN202510936160

申请日期：2025-07-08

公开号：CN120876683A

公开日期：2025-10-31

类型：发明专利

摘要

本发明公开了一种利用2D视频在文本驱动下生成3D人体运动的方法及系统，步骤为：采集视频并预处理得二维关键点序列和文本描述；二维关键点序列经时空特征适配器得潜在时空特征序列，残差向量量化器量化输出三维SMP L参数序列，同时映射潜在时空特征与离散Token序列；对文本预处理提取语义向量，将基础量化层Token序列部分遮掩，结合语义向量经预测器重建预测序列，再经细化器得完整序列；构建总损失、文本到动作损失函数，以训练模块；输入文本描述和基础量化层Token至训练好的模块，输出三维SMPL参数序列并渲染生成三维人体网格及动画。本发明仅需二维关键点和文本描述实现从文本到三维SMPL动作的端到端生成。

技术关键词

语义向量序列关键点视频细化器人体基础参数适配器注意力网格文本编码器模块投影模型关节解码器运动动画时序特征