基于多模态音乐驱动与频域-空间双流分解的舞蹈视频生成方法

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
基于多模态音乐驱动与频域-空间双流分解的舞蹈视频生成方法
申请号:CN202510387352
申请日期:2025-03-31
公开号:CN120238708A
公开日期:2025-07-01
类型:发明专利
摘要
本发明提供了一种多模态音乐驱动与频域‑空间双流分解的舞蹈视频生成方法,通过复合编码器(Librosa+Jukebox)提取多粒度音乐特征,并使用节拍门控注意力机制,使舞蹈抬手、踢腿等关键动作严格对齐音乐重拍点,经测试数据集验证,同步误差降低至118ms;针对视觉细节丢失问题,提出频域‑空间双流分解架构,利用Butterworth滤波器组将参考图像解耦为低频能量图与高频残差,双流扩散机制分别优化全局姿态与局部细节;针对遮挡场景下的生成稳定性,引入关节置信度预测模块,通过时域滑动窗口加权融合策略,动态修正异常关节点的运动轨迹,使得在50%肢体遮挡率下仍能生成符合人体工学的合理动作。
技术关键词
拉普拉斯金字塔 视频生成方法 多模态 高层语义特征 音乐 序列 跨模态 局部纹理特征 时序 视觉特征 身体 短时傅里叶变换 多头注意力机制 离散小波变换 网络 分辨率提升