语音提取方法、装置、设备及介质

申请号：CN202510253089

申请日期：2025-03-03

公开号：CN119993130A

公开日期：2025-05-13

类型：发明专利

摘要

本发明涉及人工智能技术领域，公开了语音提取方法、装置、设备及介质，该方法包括：先获取目标说话人的参考语音和所有说话人的混合语音；对参考语音和混合语音进行预处理和编码，生成两个离散token序列；融合两个离散token序列形成融合离散token序列；利用语言模型对融合离散token序列进行预测，生成目标说话人的候选离散token序列；通过线性分类器计算候选token序列的概率分布，选取概率高的序列作为目标离散token序列；再将目标离散token序列重建为语音波形，得到目标说话人的语音。本发明将复杂的音频生成问题转换为分类问题，简化了模型训练；利用语言模型的序列建模能力捕捉语音token之间的长期依赖关系，实现高质量的语音重建。

技术关键词

语音提取方法线性分类器序列特征交叉注意力机制说话人语音特征 K均值聚类算法交互特征波形声学特征可读存储介质分类阈值人工智能技术处理器编码模块计算机设备