歌声转换系统的训练方法、生成音频的方法及相关装置

申请号：CN202510235997

申请日期：2025-02-28

公开号：CN119993117B

公开日期：2025-11-14

类型：发明专利

摘要

本发明实施例提供了一种歌声转换系统的训练方法、基于歌声转换系统生成音频的方法及相关装置，用于提升合成后歌声的音色与待转换歌声音色之间的相似度。本发明实施例方法包括：获取第一目标音色的多条参考音频，将多条参考音频输入至音色编码器，得到音色编码向量；将待转换歌声的音素后验概率和基频输入至文本编码器，得到待转换歌声内容的先验分布参数；根据先验分布参数进行采样，得到待转换歌声内容的文本采样值向量；将文本采样值向量和音色编码向量输入至音色感知注意力机制模块，以确定新音色编码向量；将新音色编码向量作为歌声转换系统中所增加的新输入，计算歌声转换系统的重构损失，根据重构损失对歌声转换系统进行训练。

技术关键词

编码向量文本编码器音素后验概率多头注意力机制音频解码器传播算法重构线性上采样语音编码器模块参数计算机装置计算机程序产品处理器