一种基于深度学习的歌唱片段式多维度评价方法及终端

申请号：CN202510040584

申请日期：2025-01-10

公开号：CN119763611A

公开日期：2025-04-04

类型：发明专利

摘要

本发明公开了一种基于深度学习的歌唱片段式多维度评价方法及终端，将中文歌唱数据集中的时间戳标签转换为帧级标签，生成带有细粒度帧级标签的歌词转录数据集；提出基于迁移学习的中文歌唱转录与分割算法，有效提升了转录和分割的准确率；并且，将获取到的测试音频和参考音频转录为对应的音节序列，并对转录后的音节序列进行音节、时间和音高的多维度对齐，能够表现出对漏唱等场景的强鲁棒性；从音准、节奏、音色三个维度建立评价体系进行音节片段的多维评分。以此方式，解决中文歌唱评价领域中的评价粒度粗、维度单一的问题。

技术关键词

多维度评价方法音频音色特征预训练模型序列标签语音编码器数据时间偏移量分割算法分割方法处理器样本终端存储器鲁棒性矩阵