摘要
本发明涉及语音识别技术领域,具体公开了一种基于气骨导双模的深度学习关键词识别方法。首先构建双模态数据集,通过同步采集纯净气导/骨导语音,并向气导语音添加环境噪声形成带噪气导信号,按比例划分训练集、验证集和测试集;其次设计Audiomer‑L神经网络模型,其包括学习向量模块通过在输入序列首部添加可学习向量,聚合分类特征信息;一系列卷积注意力模块采用带压缩激励机制的一维卷积与Performer注意力模块,通过预查询张量和上下文张量实现时序特征强化;最终通过多层感知器MLP模块完成分类决策。本发明采用固定长度分帧处理,通过端到端训练策略,在噪声环境下相比单模态系统显著提升识别准确率,适用于可穿戴设备、助听器等复杂声学场景的语音交互应用。