摘要
本发明提供了一种文本可视化语音编辑方法、系统、存储介质和设备,所述方法包括对输入的原始音频进行特征提取得到第一声音特征,将第一声音特征与第二声音特征进行多层线性层映射处理生成音频标记;通过反向标记将音频标记转换为对应文字内容,对编辑过程所有变更的文字生成文本标记;将生成的文本标记和映射的音频标记转换为统一的语义标记;将第一声音特征和第二声音特征进行特征融合,融合后的声音特征通过条件流匹配算法将语义标记解码为合成音频,得到语音编辑结果。本发明解决了现有技术中存在的语音编辑过程中操作复杂、交互性差和效率低下的问题,使得语音编辑的方式更加自由,同时最终合成的语音质量显著提升。