摘要
本申请涉及一种基于视音频合成的目标视频解说方法、系统及终端,属于视音频处理的技术领域,该目标视频解说方法包括:获取目标视频;根据所述目标视频的目标时长,将所述目标视频分隔为多个调整子视频;将每个所述调整子视频分解为角色层、场景层和互动层;根据所述角色层匹配第一音频、根据所述场景层匹配第二音频、根据所述互动层匹配第三音频;将所述第一音频、所述第二音频和所述第三音频融合,生成子音频;将所述调整子视频与对应的所述子音频关联;在所述目标视频播放至某一所述调整子视频范围时,根据对应所述子音频进行解说。本申请的提高用户的观看体验有益效果。