一种基于大语言模型的多模态驱动的人体动作生成方法

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
一种基于大语言模型的多模态驱动的人体动作生成方法
申请号:CN202510674138
申请日期:2025-05-23
公开号:CN120580356A
公开日期:2025-09-02
类型:发明专利
摘要
一种基于大语言模型的多模态人体动作生成方法,基于3D动作数据提取结构化特征,结合大语言模型生成身体部位级原子语义描述,构建包含文本、语音、音乐的多模态对齐数据集;将全身动作按部位解耦,采用独立向量量化编码器进行残差量化,生成与细粒度文本强关联的原子动作token;将文本描述与动作token按身体结构拼接为含特殊标记的混合动作句子;通过大语言模型实现多模态输入的联合建模,同步生成细粒度文本与动作token序列,经解码输出符合语义的3D动作,支持零样本生成及部位级精确控制。该方法突破传统方法粗粒度对齐局限,通过细粒度语义映射、解耦式动作编码与统一序列建模,显著提升动作生成的语义一致性、多模态适应性和局部可控性。
技术关键词
动作生成方法 大语言模型 文本 人体动作数据 多模态 语义 动作特征 编码器 序列 身体结构 解码 音乐 训练语言模型 语音 前馈神经网络 标记 生成动作