摘要
本发明涉及人工智能技术领域,可应用于金融科技、医疗健康等业务系统平台中,公开了基于图像指示的语音生成方法、装置、设备及介质,包括:获取提示图像和待生成语音的目标文本;对提示图像进行图像编码处理,获取与提示图像中环境相匹配的声学嵌入特征;将目标文本和声学嵌入特征输入到预先训练的语音生成模型中,以声学嵌入特征作为环境回响条件对目标文本进行环境融合的语音生成处理,生成相应的目标回响语音;通过预先训练的回响分类器对目标回响语音进行回响识别,确认目标回响语音的回响类别。通过图像提示将场景回响嵌入到语音合成的过程中,令生成的语音与文本以及图像中的场景相匹配,自适应地调整混响效果,提高语音沉浸感和真实感。