摘要
本发明涉及智能语音识别领域,具体是基于语音识别的英语口语发音矫正辅助系统,包括数据采集模块、语音识别模块、发音分析模块和发音矫正模块;本发明采用一种基于维度融合与特征简化的视觉动作特征提取方法,捕捉嘴唇的动态动作和细微变化,准确识别标准发音的唇部动作的细节特征已经对应的文本语义,在降维的基础上增加通道数量,捕捉更深刻更细致的唇部视觉信息,为发音矫正提供更为准确的唇部动作指导;本发明通过语义特征引导对唇部动作的理解与识别,引入多头自注意力机制对语义特征进行优化,捕捉唇部动作与语音文本之间的关联关系,并添加对应的位置编码,使模型理解唇部动作中口语文本发音的顺序,实现更精确的唇部动作指导。