一种高效的基于多尺度Transformer的密集预测视觉语言识别算法

申请号：CN202411694486

申请日期：2024-11-25

公开号：CN119811366A

公开日期：2025-04-11

类型：发明专利

摘要

本发明公开了一种高效的基于多尺度Transformer的密集预测视觉语音识别算法。该算法针对现有视觉语音识别技术在捕捉长程依赖关系和局部高频特征方面的不足，以及计算复杂度较高的问题，提出了一种创新的MTF‑TCN网络架构。通过结合Inception mixer结构的并行卷积、最大池化路径和自注意力路径，本发明有效学习视觉数据中的高频和低频信息，并通过频率斜坡结构平衡不同层上的频谱成分。此外，引入的稀疏注意力机制和时间卷积技术，降低了模型的计算复杂度，同时保持了对关键视觉特征的敏感性，以及为模型引入了局部连通性的归纳偏差，从而增强了对高局部性特征的提取能力，进一步优化了模型的性能和计算效率。本发明的有益效果包括提高了视觉语音识别的准确性和鲁棒性，同时降低了算法的计算成本，适用于各种噪声环境下的语音识别任务。

技术关键词

语音识别算法多尺度注意力机制高频特征序列数据处理神经架构搜索复杂度网络架构语音识别系统读数据语音识别技术频率斜坡卷积技术网络深度视觉特征