摘要
本申请公开了一种会议语音识别方法、装置、电子设备,属于语音识别技术领域。所述方法包括:对多个拾音设备采集的会议音频进行会议场景一致性判断,获取会议音频中匹配目标会议场景的会议音频;对匹配目标会议场景的会议音频进行分段筛选及多设备拼接处理,获取目标会议场景的拼接音频;对目标会议场景的预先采集的视觉信息和拼接音频进行多模态信息融合,获取多模态融合信息;基于多模态融合信息进行语音识别,得到目标会议场景的会议语音识别结果。本方法利用多拾音设备协同采集单一会议场景的会议音频,确保得到的高质量语音信号;通过在音频信号中融合多模态信息进行语音识别,全面捕捉和处理多种数据,提高了语音识别的准确度和鲁棒性。