摘要
本发明涉及智能语音合成技术领域,公开一种基于深度学习的智能机器人语音合成方法,包括:步骤1、文本处理:接收输入文本,且对文本进行分词、词性标注和音素标注,得到文本嵌入序列,用于后续的情感分析步骤;步骤2、情感分析:根据生成的文本嵌入序列,使用基于BERT的情感分类模型对文本进行情感分析,得到文本情感嵌入,用于多模态情感融合;步骤3、接收视觉输入,通过卷积神经网络提取视觉情感嵌入,且将视觉情感嵌入输入到多模态情感融合中。通过深度学习模型能学习语音数据,提取出语音中的自然音素、语调和节奏特征,生成自然流畅的语音合成效果,能在语速、语调和音质上贴近人类语音,而增强用户的听觉体验。