基于唇语增强的语音交互方法、装置、设备及存储介质

申请号：CN202510881883

申请日期：2025-06-27

公开号：CN120600019A

公开日期：2025-09-05

类型：发明专利

摘要

本发明公开了基于唇语增强的语音交互方法、装置、设备及存储介质，基于唇语增强的语音交互方法包括：基于唇部区域的图像序列提取唇语特征，对语音信号进行特征提取得到音频特征；将唇语特征和音频特征进行跨模态融合编码，生成包含视听信息的混合特征；将混合特征输入到大语言模型中，理解交互对象的意图并生成相应的语义回复；最后合成为语音和/后转换为文字。本发明通过引入唇部特征，为语音识别提供额外的视觉线索，能够显著提高语音识别的鲁棒性和准确性；将唇语特征和声音特征进行有效的融合编码，避免了简单独立识别造成的语义信息割裂；且充分利用大模型的能力，实现更自然、更智能的交互体验。

技术关键词

语音交互方法音频特征关键点检测算法唇语特征跨模态人脸检测模型视频流视听语义序列编码面部 Softmax函数预测运动轨迹注意力语音交互装置人脸特征向量图像