摘要
本发明提供了一种视频配音语言的转换方法、系统及相关设备,方法包括从待转换视频中获取音轨数据;对音轨数据进行人声提取并按角色分类,获得各角色的单说话人音频;对各角色的单说话人音频进行语音转文本,获得各角色的原始语言文案;对各角色的单说话人音频进行声音克隆获得各角色的音色模型;对各角色的原始语言文案进行目标语言翻译,获得各角色的翻译文案;基于各角色的翻译文案和各角色的音色模型进行文本转语音,获得各角色的翻译音频;对待转换视频中的音轨数据进行各角色翻译音频的替换,获得配音转换视频。本发明技术方案实现了结合说话人音色的换语言视频配音转换,视频更加多元化,更能满足用户需求。