会议语音识别方法、装置、电子设备及存储介质

申请号：CN202510686745

申请日期：2025-05-26

公开号：CN120472883A

公开日期：2025-08-12

类型：发明专利

摘要

本申请公开了一种会议语音识别方法、装置、电子设备，属于语音识别技术领域。所述方法包括：对多个拾音设备采集的会议音频进行会议场景一致性判断，获取会议音频中匹配目标会议场景的会议音频；对匹配目标会议场景的会议音频进行分段筛选及多设备拼接处理，获取目标会议场景的拼接音频；对目标会议场景的预先采集的视觉信息和拼接音频进行多模态信息融合，获取多模态融合信息；基于多模态融合信息进行语音识别，得到目标会议场景的会议语音识别结果。本方法利用多拾音设备协同采集单一会议场景的会议音频，确保得到的高质量语音信号；通过在音频信号中融合多模态信息进行语音识别，全面捕捉和处理多种数据，提高了语音识别的准确度和鲁棒性。

技术关键词

会议场景音频多模态信息融合拾音设备语音识别方法融合多模态信息分段语音识别装置语音识别技术语音识别模块视觉电子设备神经网络模型处理器视频背景噪声多设备