一种语音合成方法和装置

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
一种语音合成方法和装置
申请号:CN202411000066
申请日期:2024-07-24
公开号:CN119152837B
公开日期:2025-09-19
类型:发明专利
摘要
本发明提供一种语音合成方法和装置,涉及语音处理技术领域,方法包括:获取目标图像和说话文稿,并将目标图像和说话文稿输入至预训练的语音合成模型,得到目标合成语音;其中,目标图像包含多个视觉信息,目标合成语音包含多个声学特征,一个视觉信息对应至少一个声学特征;语音合成模型为基于多模态数据集进行训练得到,多模态数据集为对目标数据集进行模态增强得到。通过本发明提供的方法,对现有语音数据集进行模态增强构建多模态数据集,解决数据集稀缺的问题;根据静态图像中的视觉信息与语音音频中的声学特征之间的一一对应关系,基于通过多模态数据集训练得到的语音合成模型,使合成的目标合成语音具有更细粒度的语音风格。
技术关键词
语音解码器 声学特征 多模态 数据 图像编码器 转换器 视觉表征学习 非暂态计算机可读存储介质 关键帧 图像生成模型 风格 处理器 计算机程序产品 语音特征 音频 自然语言 存储器