一种利用2D视频在文本驱动下生成3D人体运动的方法及系统

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
一种利用2D视频在文本驱动下生成3D人体运动的方法及系统
申请号:CN202510936160
申请日期:2025-07-08
公开号:CN120876683A
公开日期:2025-10-31
类型:发明专利
摘要
本发明公开了一种利用2D视频在文本驱动下生成3D人体运动的方法及系统,步骤为:采集视频并预处理得二维关键点序列和文本描述;二维关键点序列经时空特征适配器得潜在时空特征序列,残差向量量化器量化输出三维SMP L参数序列,同时映射潜在时空特征与离散Token序列;对文本预处理提取语义向量,将基础量化层Token序列部分遮掩,结合语义向量经预测器重建预测序列,再经细化器得完整序列;构建总损失、文本到动作损失函数,以训练模块;输入文本描述和基础量化层Token至训练好的模块,输出三维SMPL参数序列并渲染生成三维人体网格及动画。本发明仅需二维关键点和文本描述实现从文本到三维SMPL动作的端到端生成。
技术关键词
语义向量 序列 关键点 视频 细化器 人体 基础 参数 适配器 注意力 网格 文本编码器 模块 投影模型 关节 解码器 运动 动画 时序特征