摘要
本申请提供了一种语音端点检测方法、装置、电子设备及存储介质,涉及音频处理技术领域。方法包括:基于待检测语音信号和所述待检测语音信号关联的视频信号,提取至少两种特征信息,作为多模态特征信息;将所述多模态特征信息进行特征融合,得到融合特征信息;将所述多模态特征信息和所述融合特征信息输入目标语音端点检测模型,得到所述目标语音端点检测模型的输出结果;根据所述输出结果,确定所述待检测语音信号对应的语音段起点和语音段终点。本申请通过多模态特征融合解决单一模态缺陷,在复杂噪声环境下,能够降低噪声干扰,使得检测结果更加准确。