一种基于深度学习的智能机器人语音合成方法

申请号：CN202411625436

申请日期：2024-11-14

公开号：CN119446117B

公开日期：2025-08-22

类型：发明专利

摘要

本发明涉及智能语音合成技术领域，公开一种基于深度学习的智能机器人语音合成方法，包括：步骤1、文本处理：接收输入文本，且对文本进行分词、词性标注和音素标注，得到文本嵌入序列，用于后续的情感分析步骤；步骤2、情感分析：根据生成的文本嵌入序列，使用基于BERT的情感分类模型对文本进行情感分析，得到文本情感嵌入，用于多模态情感融合；步骤3、接收视觉输入，通过卷积神经网络提取视觉情感嵌入，且将视觉情感嵌入输入到多模态情感融合中。通过深度学习模型能学习语音数据，提取出语音中的自然音素、语调和节奏特征，生成自然流畅的语音合成效果，能在语速、语调和音质上贴近人类语音，而增强用户的听觉体验。

技术关键词

文本智能机器人多模态声谱视觉卷积神经网络提取语音情感分类模型 BERT模型声码器情感类别语义向量控制接口卷积神经网络模型音频半监督训练情感分类器数据生成方法生成对抗网络