摘要
本发明提供了一种言语阻滞患者语音矫正方法、装置和存储介质,涉及语音识别技术领域,包括:将待处理的语音转换为文本信息,生成输入文本;将输入文本输入T5模型进行优化和纠错,以获取纠错后的文本,期间在T5模型的解码器模块将正在生成的文本与正在生成的文本的上下文信息进行关联;基于VITS模型对纠错后的文本进行语音合成,以获取矫正后的语音,期间将BERT模型嵌入至VITS模型,以融合BERT模型的语言表示能力和VITS模型的序列生成效果。本发明不仅改善了纠错任务的整体质量,还增强了对个体差异的适应性,为口吃患者的矫正提供了更全面的解决方案。