一种基于transformer神经网络的图像分类方法
申请号:CN202510493850
申请日期:2025-04-19
公开号:CN120375080A
公开日期:2025-07-25
类型:发明专利
摘要
本发明公开了一种基于Transformer神经网络的图像分类方法,属于图像分类领域,涉及Transformer神经网络技术,包括以下步骤:获取输入图像,使用Sobel算子分别计算输入图像中每个像素的梯度幅值分量;根据所述梯度幅值分量计算输入图像的梯度变异值,并根据所述梯度变异值对输入图像进行动态自适应分块;将所述分块展平为向量序列,根据预训练的ViT模型扩展线性投影层权重,并通过线性投影层将所述向量序列线性投影为d维嵌入向量;为所述嵌入向量加入位置编码并生成特征向量;根据所述动态自适应分块的类型,使用Transformer的多头注意力机制或跨尺度交叉注意力机制对所述特征向量进行处理,输出所述输入图像的类别概率分布;本发明能够平衡图像分类的效率与精度。
技术关键词
图像分类方法
交叉注意力机制
多头注意力机制
生成特征向量
幅值
分块特征
像素
Softmax函数
序列
令牌
线性
神经网络技术
动态
通道
全局平均池化
编码
分阶段
预训练模型