一种方言语音识别与转换方法及装置

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
一种方言语音识别与转换方法及装置
申请号:CN202511103791
申请日期:2025-08-07
公开号:CN120600003B
公开日期:2025-10-10
类型:发明专利
摘要
本申请提供一种方言语音识别与转换方法及装置,该方法包括获取方言语音输入数据,利用Conformer模型提取局部特征和全局依赖关系,生成音频特征序列。该序列输入共享GRU编码器,生成隐藏状态序列,并行传递至方言文本与普通话文本的CTC解码器。构建多任务学习框架关联这些组件,控制其参数更新。通过该框架,高效提取方言特征,并行生成方言与普通话文本。本申请结合Conformer与CTC‑GRU模型优势,实现了高准确率、强泛化与鲁棒性的方言语音识别与转换。
技术关键词
文本 转换方法 编码器 音频特征 多任务 焦点损失函数 语音 解码器执行 序列 框架 GRU模型 数据 关系 参数 输出模块 鲁棒性 控制模块