摘要
本申请涉及多模态音视频内容生成领域,公开了一种基于多模态视听模块的舞蹈生成系统,包括:输入处理模块用于接收音频和视频输入,分别提取音频的节奏、频谱和音调特征,以及视频的动作关节点和时序特征;同步生成模块通过动态优化方法,根据音频特征和视频特征的匹配度生成音视频同步的舞蹈动作;校正检测模块检测音视频内容的同步误差,并优化视频帧的时间戳;存储分发模块将校正优化后的音视频内容存储,并通过单播或多播方式分发至用户终端;用户交互模块接收用户输入的舞蹈生成参数,以动态调整音视频同步生成过程。本发明实现了音视频的精准同步生成,支持个性化内容定制和高效分发,广泛适用于在线教育、娱乐、虚拟现实等多媒体应用场景。