语音提取方法、装置、设备及介质

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
语音提取方法、装置、设备及介质
申请号:CN202510253089
申请日期:2025-03-03
公开号:CN119993130A
公开日期:2025-05-13
类型:发明专利
摘要
本发明涉及人工智能技术领域,公开了语音提取方法、装置、设备及介质,该方法包括:先获取目标说话人的参考语音和所有说话人的混合语音;对参考语音和混合语音进行预处理和编码,生成两个离散token序列;融合两个离散token序列形成融合离散token序列;利用语言模型对融合离散token序列进行预测,生成目标说话人的候选离散token序列;通过线性分类器计算候选token序列的概率分布,选取概率高的序列作为目标离散token序列;再将目标离散token序列重建为语音波形,得到目标说话人的语音。本发明将复杂的音频生成问题转换为分类问题,简化了模型训练;利用语言模型的序列建模能力捕捉语音token之间的长期依赖关系,实现高质量的语音重建。
技术关键词
语音提取方法 线性分类器 序列特征 交叉注意力机制 说话人语音特征 K均值聚类算法 交互特征 波形 声学特征 可读存储介质 分类阈值 人工智能技术 处理器 编码模块 计算机设备