基于千问大模型指导主干网络进行图像分割的方法

申请号：CN202510795227

申请日期：2025-06-15

公开号：CN120318522B

公开日期：2025-09-26

类型：发明专利

摘要

本发明公开了基于千问大模型指导主干网络进行图像分割的方法，包括：将训练集中的文档图片输入到UNet主干分割网络中，得到特征图；将文档图片和人工设计的提示输入千问2多模态大模型中，获得其隐藏层的特征信息；将特征信息放入可变形代理注意力机制中进行融合，得到语义与视觉特征互相融合的更加完整的信息；将可学习的查询向量和融合信息放入解码器层中等步骤，本发明加快模型的收敛速度，使模型训练更加稳定。不仅可以减少计算开销，降低显存使用，同时还能加强代理量获取的灵活性，让模型更加自适应地学习到合理、有用的知识，得到更加灵活的注意力，有效地通过千问的指导，提高了主干分割网络的性能，对文档图片进行了较为清晰地分割。

技术关键词

视觉特征信息融合特征图像分割注意力机制语义特征解码模块网络图片采样方法双线性插值池化方法解码器元素键值多层结构掩膜训练集

系统为您推荐了相关专利信息

一种语音情绪识别方法、系统、设备和介质

语音情绪识别方法文本融合特征情感特征注意力机制

一种基于非标定单视图的三维目标重建方法

图像编码器物体交叉注意力机制图像特征信息点云特征

一种融合机器视觉的增强通感一体化方法及系统

融合机器视觉一体化方法多模态一体化系统关联算法

一种高海拔地区储能电池温度监测方法及系统

温度监测系统粒子滤波模型储能电池电池核心温度 LightGBM模型

基于毫米波雷达的人体感知方法及系统

回波人体感知方法信号序列空洞卷积神经网络