摘要
本发明公开了一种工业缺陷图文联合检测方法及相关设备,其中方法包括如下步骤:获取工业产品图像并提取多尺度视觉特征;获取与图像相关的文本信息并提取文本特征;将图像与文本特征输入具备跨模态注意力机制的大语言模型中进行融合推理,生成缺陷语义特征;基于该特征通过分割解码模块输出像素级缺陷掩膜;最终联合生成缺陷文字描述并与原图叠加形成图文检测结果输出。本发明充分利用视觉感知与文本知识的互补性,具有样本依赖小、鲁棒性强、输出结果具有人类可读性的优点,适用于工业制造过程中的质量监测与缺陷分析场景,具备良好的实用性与推广价值。