一种基于Transformer模型进行语义分割的方法

申请号：CN202410780285

申请日期：2024-06-17

公开号：CN118608787A

公开日期：2024-09-06

类型：发明专利

摘要

本文提供了一种基于Transformer模型进行语义分割的方法，包括步骤:数据准备，进行图像序列化以将输入图像X转换为特征嵌入；特征提取，向第一层Transformer输入数据，每个Transformer层由多头注意力、层归一化、MLP层构成；特征解码，将提取出的特征序列作为输入，经过一个交叉注意力的解码器结构，通过使用交叉注意模块，两者经过交叉注意力的解码器后能获得学习好的特征向量；生成分割结果，将充当解码器的交叉注意力模块输出的新的特征向量送入分割层预测得到最终的分割结果。与现有的大多数基于FCN模型的语义分割模型相比，以Transformer编码器进行语义分割任务的特征提取工作，可以很大程度上增强模型对远程依赖信息的学习；以交叉注意力模块充当解码器，能够让模型更加高效高质量地进行全局上下文信息的提取，提升了语义分割模型的准确性与分割质量。

技术关键词

语义分割方法解码器结构语义分割模型序列编码器注意力机制图像多层感知器学习特征残差网络补丁模块网格输出特征计算方法三元组