基于多模态音乐驱动与频域-空间双流分解的舞蹈视频生成方法

申请号：CN202510387352

申请日期：2025-03-31

公开号：CN120238708A

公开日期：2025-07-01

类型：发明专利

摘要

本发明提供了一种多模态音乐驱动与频域‑空间双流分解的舞蹈视频生成方法，通过复合编码器(Librosa+Jukebox)提取多粒度音乐特征，并使用节拍门控注意力机制，使舞蹈抬手、踢腿等关键动作严格对齐音乐重拍点，经测试数据集验证，同步误差降低至118ms；针对视觉细节丢失问题，提出频域‑空间双流分解架构，利用Butterworth滤波器组将参考图像解耦为低频能量图与高频残差，双流扩散机制分别优化全局姿态与局部细节；针对遮挡场景下的生成稳定性，引入关节置信度预测模块，通过时域滑动窗口加权融合策略，动态修正异常关节点的运动轨迹，使得在50％肢体遮挡率下仍能生成符合人体工学的合理动作。

技术关键词

拉普拉斯金字塔视频生成方法多模态高层语义特征音乐序列跨模态局部纹理特征时序视觉特征身体短时傅里叶变换多头注意力机制离散小波变换网络分辨率提升