摘要
本发明公开了基于千问大模型指导主干网络进行图像分割的方法,包括:将训练集中的文档图片输入到UNet主干分割网络中,得到特征图;将文档图片和人工设计的提示输入千问2多模态大模型中,获得其隐藏层的特征信息;将特征信息放入可变形代理注意力机制中进行融合,得到语义与视觉特征互相融合的更加完整的信息;将可学习的查询向量和融合信息放入解码器层中等步骤,本发明加快模型的收敛速度,使模型训练更加稳定。不仅可以减少计算开销,降低显存使用,同时还能加强代理量获取的灵活性,让模型更加自适应地学习到合理、有用的知识,得到更加灵活的注意力,有效地通过千问的指导,提高了主干分割网络的性能,对文档图片进行了较为清晰地分割。