摘要
本发明公开了基于唇语增强的语音交互方法、装置、设备及存储介质,基于唇语增强的语音交互方法包括:基于唇部区域的图像序列提取唇语特征,对语音信号进行特征提取得到音频特征;将唇语特征和音频特征进行跨模态融合编码,生成包含视听信息的混合特征;将混合特征输入到大语言模型中,理解交互对象的意图并生成相应的语义回复;最后合成为语音和/后转换为文字。本发明通过引入唇部特征,为语音识别提供额外的视觉线索,能够显著提高语音识别的鲁棒性和准确性;将唇语特征和声音特征进行有效的融合编码,避免了简单独立识别造成的语义信息割裂;且充分利用大模型的能力,实现更自然、更智能的交互体验。