基于声学特征Logit分布动态边界与时序建模的语音识别方法

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
基于声学特征Logit分布动态边界与时序建模的语音识别方法
申请号:CN202510888892
申请日期:2025-06-30
公开号:CN120472889A
公开日期:2025-08-12
类型:发明专利
摘要
本发明公开了基于声学特征Logit分布动态边界与时序建模的语音识别方法,包括:步骤1,构建语音识别训练所需的数据集,将数据集划分为训练集、验证集和测试集;步骤2,对音频文件和标注进行数据清洗;步骤3,统计数据集中的标注生成词表;步骤4,构建语音识别模型;步骤5,使用训练集对步骤4构建的语音识别模型进行训练,训练结束后使用验证集评估语音识别模型训练过程中的性能变化;步骤6,将测试集输入到训练好的语音识别模型中进行测试。本发明利用编码器得到声学特征的Logit分布变化更为精确的实现token级别的对齐,通过长短时记忆网络时序建模优势融合特征,减少空白语音、长停顿对语音识别的影响。
技术关键词
语音识别方法 声学特征 构建语音识别模型 语音识别训练 融合特征 时序 音频文件采样率 编码器 动态 词典 多头注意力机制 数据 优化器 标记 训练集 频谱特征 音频特征
系统为您推荐了相关专利信息
语音特征提取 模型训练方法 语音处理单元 多任务联合训练 样本
融合特征提取 异常检测方法 图像 神经网络模型 卷积神经网络提取
识别方法 融合特征 注意力机制 频谱特征 模块
语音情感识别方法 预训练模型 情感特征 声学特征 语义特征
噪声特征 融合特征 视觉特征 文本 图像采集设备