一种基于视觉Transformer的特征聚焦图像语义分割方法

申请号：CN202510095325

申请日期：2025-01-21

公开号：CN119904643A

公开日期：2025-04-29

类型：发明专利

摘要

本发明公开了一种基于视觉Transformer的特征聚焦图像语义分割方法，采用特征金字塔结构，生成四个不同尺寸大小的特征图，在特征图嵌入的过程中使用重叠块嵌入模块以保证特征图在分块的同时保证局部信息一定程度上的连续性，利用位置编码生成模块根据局部邻域信息动态地生成对应位置编码，保持计算机视觉中所需的平移不变性，然后在Transformer编码过程中采用结合了聚焦注意力机制和卷积运算的融合模块，利用自注意力机制把握整体结构和远距离的依赖关系、引入卷积注意力使得模型保持对局部信息的敏感性，使得模型能够同时整合全局和局部细节信息。最后模型各个阶段生成的不同尺寸的特征图输入到解码器中进行分割。本发明方法提高了对目标边界和复杂场景的分割表现。

技术关键词

图像语义分割方法注意力机制多尺度特征金字塔阶段模块编码器上采样解码器远距离计算机视觉连续性融合特征分块动态地策略