摘要
本公开涉及一种语音障碍检测方法、装置、设备及可读存储介质。通过获取标准视听材料,响应于待测对象针对标准视听材料的发音操作,采集多模态发音数据,基于所述发音音频提取音频声学特征,基于所述面部及口腔活动的视频提取视频视觉特征,将所述音频声学特征、所述视频视觉特征以及所述人口学信息编码数据进行多模态特征融合,得到融合特征向量,基于所述融合特征向量以及预训练的预测模型,得到待测对象的语音障碍检测结果。相较于现有技术,本公开实施例通过多模态特征融合,可以提高语音障碍检测的准确性和全面性,提高诊断效率,减少对专业人员的依赖,降低医疗资源的负担,明确发音问题的具体类型,为后续的个性化干预治疗提供科学依据。