语音端点检测方法、装置、电子设备及存储介质

申请号：CN202511110125

申请日期：2025-08-08

公开号：CN120954414A

公开日期：2025-11-14

类型：发明专利

摘要

本申请提供了一种语音端点检测方法、装置、电子设备及存储介质，涉及音频处理技术领域。方法包括：基于待检测语音信号和所述待检测语音信号关联的视频信号，提取至少两种特征信息，作为多模态特征信息；将所述多模态特征信息进行特征融合，得到融合特征信息；将所述多模态特征信息和所述融合特征信息输入目标语音端点检测模型，得到所述目标语音端点检测模型的输出结果；根据所述输出结果，确定所述待检测语音信号对应的语音段起点和语音段终点。本申请通过多模态特征融合解决单一模态缺陷，在复杂噪声环境下，能够降低噪声干扰，使得检测结果更加准确。

技术关键词

语音端点检测方法视频特征信息音频特征信息高斯混合隐马尔可夫模型融合特征标签语音端点检测装置文本信号电子设备多模态特征融合非语音终点语音识别技术标识特征提取模块