语音合成方法和装置、电子设备、存储介质与程序产品

申请号：CN202510358710

申请日期：2025-03-25

公开号：CN120199228B

公开日期：2025-10-31

类型：发明专利

摘要

本公开涉及语音合成方法和装置、电子设备、存储介质与程序产品，所述方法包括：获取源视频的源语种字幕文本对应的源语种配音音频，以及源语种字幕文本所翻译成的目标语种字幕文本；利用情绪提取器从源语种配音音频中提取音频情绪特征，音频情绪特征表征源语种配音音频所表达的情绪；将目标语种字幕文本转换成音素序列，并利用文本编码器对音素序列进行编码，得到文本编码特征；将音频情绪特征与文本编码特征进行融合，得到情绪文本特征；利用解码器基于情绪文本特征，生成目标语种音频，所述目标语种音频用于作为源视频在目标语种下的配音音频。由此，能够自动高效地生成带有源配音音频情绪的高质量目标语种音频，成本低且效率高。

技术关键词

情绪特征文本编码器编码特征解码器双语字幕音频组样本错误率语音识别技术非易失性计算机可读存储介质字符语义特征序列音频特征数据情绪识别模型视频