一种多模态特征的并行交叉注意力融合方法及系统

申请号：CN202411847838

申请日期：2024-12-16

公开号：CN119740572A

公开日期：2025-04-01

类型：发明专利

摘要

本发明公开了一种多模态特征的并行交叉注意力融合方法及系统，该方法包括：S100：对错误检测模块检测的错误汉字，分别提取音频特征和字形特征；S200：使用双线性池化和非线性激活的方法获取音频特征和字形特征的联合表征特征；S300：利用并行交叉注意力融合网络对错误汉字的音频特征和字形特征分别进行融合；S400：将融合后的音频特征和字形特征与错误汉字对应的嵌入特征串接，再经线性变化与非线性融合，得到错误汉字的多模态特征。本申请利用并行交叉注意力融合网络对音频特征和字形特征进行融合，更关注形声字不同模态间的关联性，将本申请方法及系统应用于中文拼写纠错模型中，可进一步提高纠错准确率。

技术关键词

字形特征音频特征注意力子模块融合方法汉字音频编码错误检测模块嵌入特征多模态特征非线性双线性残差归一化网络融合系统申请方法