一种基于目标检测和语言特征的音符级自动歌唱转录方法
申请号:CN202410790098
申请日期:2024-06-19
公开号:CN118571262B
公开日期:2025-11-21
类型:发明专利
摘要
本发明提供了一种基于目标检测和语言特征的音符级自动歌唱转录方法,包括以下步骤;步骤1:通过Mel变换、音素分类、线性强度映射和切片的预处理方法将一维音频序列转换为具有相似宽高比的二维梅尔频谱图切片和音素后验图切片;步骤2:对梅尔频谱图和音素后验图切片进行目标检测,将目标检测所得边界框左右边界进行后处理和时间调整,再经过决策筛选获得最终起始时间和结束时间;步骤3:以目标检测边界框的下边界为基频,经过峰值搜索获得最终基频,再将最终基频转换获得MIDI音高值。该方法能有效提高音素特征提取效果、提升音素后验图质量以及提升特征提取和分析效果,从而提高转录准确率。
技术关键词
转录方法
切片
音频
序列
决策
图像
分类器
预测类别
重构
坐标
生成算法
基础结构
时序特征
强度
频率
线性
数据
嵌套
列表