摘要
本申请提供了一种病理图像视觉定位的方法及系统、设备、存储介质,属于图像识别技术领域,该方法包括:基于目标病理图像提取视觉特征,基于第一文本描述确定语义特征向量和知识特征向量;目标病理图像为待进行目标区域定位的病理图像,知识特征向量用于表征与目标病理图像的内容关联的知识信息;对语义特征向量和知识特征向量进行融合得到融合文本特征;将融合文本特征和视觉特征进行跨模态融合,得到融合多模态特征,基于融合多模态特征得到融合表示;基于融合表示,通过多层感知机对目标病理图像中的目标区域进行定位,得到目标区域的边界框的位置信息。本申请能够提高病理图像区域级别准确灵活定位的能力。