摘要
本发明涉及语音处理技术领域,可应用于金融科技及医疗健康等业务场景中,公开了一种语音文本双向转换方法、装置、设备及介质,包括:根据输入信息类型,分别执行语音识别或语音合成操作;对于语音信息,结合唇动视频数据生成噪声抑制参数并执行降噪处理,提升识别准确性;对于文本信息,获取预生成的说话人风格向量,并在语音合成过程中引用该向量生成自然的个性化语音,并生成与语音输出同步的唇动信息和触觉反馈。本发明通过融合唇动数据抑制复杂噪声、利用风格向量生成个性语音、输出唇动与触觉信息,实现复杂环境下语音与文本的双向实时转换,有效提升识别准确性、语音自然度和交互同步性。