摘要
本发明涉及人工智能技术领域,公开了语音提取方法、装置、设备及介质,该方法包括:先获取目标说话人的参考语音和所有说话人的混合语音;对参考语音和混合语音进行预处理和编码,生成两个离散token序列;融合两个离散token序列形成融合离散token序列;利用语言模型对融合离散token序列进行预测,生成目标说话人的候选离散token序列;通过线性分类器计算候选token序列的概率分布,选取概率高的序列作为目标离散token序列;再将目标离散token序列重建为语音波形,得到目标说话人的语音。本发明将复杂的音频生成问题转换为分类问题,简化了模型训练;利用语言模型的序列建模能力捕捉语音token之间的长期依赖关系,实现高质量的语音重建。