基于声学特征Logit分布动态边界与时序建模的语音识别方法

申请号：CN202510888892

申请日期：2025-06-30

公开号：CN120472889A

公开日期：2025-08-12

类型：发明专利

摘要

本发明公开了基于声学特征Logit分布动态边界与时序建模的语音识别方法，包括：步骤1，构建语音识别训练所需的数据集，将数据集划分为训练集、验证集和测试集；步骤2，对音频文件和标注进行数据清洗；步骤3，统计数据集中的标注生成词表；步骤4，构建语音识别模型；步骤5，使用训练集对步骤4构建的语音识别模型进行训练，训练结束后使用验证集评估语音识别模型训练过程中的性能变化；步骤6，将测试集输入到训练好的语音识别模型中进行测试。本发明利用编码器得到声学特征的Logit分布变化更为精确的实现token级别的对齐，通过长短时记忆网络时序建模优势融合特征，减少空白语音、长停顿对语音识别的影响。

技术关键词

语音识别方法声学特征构建语音识别模型语音识别训练融合特征时序音频文件采样率编码器动态词典多头注意力机制数据优化器标记训练集频谱特征音频特征

系统为您推荐了相关专利信息

模型训练方法、语音处理方法和装置

语音特征提取模型训练方法语音处理单元多任务联合训练样本

基于低秩嵌入与多尺度的异常检测方法、装置及电子设备

融合特征提取异常检测方法图像神经网络模型卷积神经网络提取

驾驶分心识别方法、装置、设备及存储介质

识别方法融合特征注意力机制频谱特征模块

基于预训练模型的多模态语音情感识别方法及系统

语音情感识别方法预训练模型情感特征声学特征语义特征