摘要
本发明涉及图像分割领域,提供一种基于查询解耦和原型分类的通用文档图像分割方法,包括:利用视觉骨架网络对输入文档图像提取多尺度视觉特征,并进行优化得到优化后的多尺度视觉特征;利用文本编码器将每类待分割区域类别的文字描述编码成语义查询向量,并随机初始化预设数量的实例查询向量;将优化后的多尺度视觉特征、语义查询向量以及实例查询向量输入混合查询解码器中得到更新后的语义查询向量和实例查询向量;利用更新后的语义查询向量和实例查询向量分别进行语义分割和实例分割,得到语义分割结果和实例分割结果。本发明不仅能处理多种类型文档图像上的多种分割任务,还能够以任意文档图像和分割任务提示为输入,输出相应的分割结果。