一种基于查询解耦和原型分类的通用文档图像分割方法

申请号：CN202510390289

申请日期：2025-03-31

公开号：CN119919946A

公开日期：2025-05-02

类型：发明专利

摘要

本发明涉及图像分割领域，提供一种基于查询解耦和原型分类的通用文档图像分割方法，包括：利用视觉骨架网络对输入文档图像提取多尺度视觉特征，并进行优化得到优化后的多尺度视觉特征；利用文本编码器将每类待分割区域类别的文字描述编码成语义查询向量，并随机初始化预设数量的实例查询向量；将优化后的多尺度视觉特征、语义查询向量以及实例查询向量输入混合查询解码器中得到更新后的语义查询向量和实例查询向量；利用更新后的语义查询向量和实例查询向量分别进行语义分割和实例分割，得到语义分割结果和实例分割结果。本发明不仅能处理多种类型文档图像上的多种分割任务，还能够以任意文档图像和分割任务提示为输入，输出相应的分割结果。

技术关键词

文档图像分割方法语义实例分割交叉注意力机制文本编码器原型混合多尺度前馈神经网络非暂态计算机可读存储介质解码器特征金字塔网络图像分割装置视觉特征提取令牌