实时语音的变音方法、终端设备和存储介质

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
实时语音的变音方法、终端设备和存储介质
申请号:CN202510645848
申请日期:2025-05-20
公开号:CN120183419B
公开日期:2025-08-01
类型:发明专利
摘要
本发明适用于音频处理领域,公开了一种实时语音的变音方法、终端设备和存储介质。实时语音的变音方法包括:根据实时对话音频,生成原始语音数据,并根据原始语音数据,确定条件特征、多样性特征、填充数据掩码;根据条件特征、多样性特征、填充数据掩码,确定第一张量信息,并根据原始语音数据,确定说话人嵌入向量;根据第一张量信息、说话人嵌入向量、填充数据掩码,确定第二张量信息;根据第二张量信息、说话人嵌入向量和原始语音数据的音高频率,生成目标音色音频。本发明显著提升了变声过程对原始音色特征的重构精度,使生成语音在音色相似度、语调自然度等感知维度达到类真人水平,提高了实时语音的变音真实性。
技术关键词
实时语音 音频 数据 流式解码器 一维卷积神经网络 频谱特征 语音特征 终端设备 融合特征 音色特征 可读存储介质 相位对齐 波形 生成语音 处理器 频率 算法 上采样 存储器