一种基于目标检测和语言特征的音符级自动歌唱转录方法

申请号：CN202410790098

申请日期：2024-06-19

公开号：CN118571262B

公开日期：2025-11-21

类型：发明专利

摘要

本发明提供了一种基于目标检测和语言特征的音符级自动歌唱转录方法，包括以下步骤；步骤1：通过Mel变换、音素分类、线性强度映射和切片的预处理方法将一维音频序列转换为具有相似宽高比的二维梅尔频谱图切片和音素后验图切片；步骤2：对梅尔频谱图和音素后验图切片进行目标检测，将目标检测所得边界框左右边界进行后处理和时间调整，再经过决策筛选获得最终起始时间和结束时间；步骤3：以目标检测边界框的下边界为基频，经过峰值搜索获得最终基频，再将最终基频转换获得MIDI音高值。该方法能有效提高音素特征提取效果、提升音素后验图质量以及提升特征提取和分析效果，从而提高转录准确率。

技术关键词

转录方法切片音频序列决策图像分类器预测类别重构坐标生成算法基础结构时序特征强度频率线性数据嵌套列表