用大模型检测工业品异常,复旦腾讯优图新算法入选CVPR 2025

AITNT-国内领先的一站式人工智能新闻资讯网站
# 热门搜索 #
AITNT-国内领先的一站式人工智能新闻资讯网站 搜索
用大模型检测工业品异常,复旦腾讯优图新算法入选CVPR 2025
6605点击    2025-06-06 14:23

AI模型用于工业异常检测,再次取得新SOTA!


相关论文已中稿计算机视觉顶会CVPR 2025


用大模型检测工业品异常,复旦腾讯优图新算法入选CVPR 2025


通俗理解,工业界为了检测产品异常,往往需要更多真实的残次品数据来训练检测模型;为了解决数据稀缺问题,常规做法一般是让模型生成各种逼真 “次品图”,并标注“哪个地方坏了”。


而对于这项任务,复旦大学、腾讯优图实验室等机构的研究人员设计了一种基于扩散模型的少样本异常图像生成新模型DualAnoDiff


实验结果显示,DualAnoDiff相比之前的方法取得了新SOTA。


不仅生成的异常图像最接近原始数据集MVTec中的情形,而且实际用来训练检测模型的效果(检测、定位、分类等下游任务)都更佳。


用大模型检测工业品异常,复旦腾讯优图新算法入选CVPR 2025


那么,它是如何做到的呢?


双分支并行生成机制


目前,工业制造中的异常检测性能受到异常数据稀缺性的限制。


为克服这一挑战,研究人员已开始采用异常生成方法来扩充异常数据集。


然而,现有异常生成方法存在生成异常多样性有限、难以实现异常与原始图像无缝融合的问题,且生成的掩码通常与生成的异常区域不匹配。


对此,团队提出同步生成整体图像与对应异常部分的方法,设计了一种基于扩散模型的少样本异常图像生成新模型DualAnoDiff


以下为DualAnoDiff架构图:


用大模型检测工业品异常,复旦腾讯优图新算法入选CVPR 2025



展开来说,DualAnoDiff采用了双分支并行生成机制


它通过两个分支同步生成异常图像与对应异常区域,二者采用不同但嵌套的提示词。


主分支负责生成包含异常的完整图像,侧重全局视觉一致性;子分支专注于生成局部异常区域,强调细节真实性。


嵌套提示词机制确保两分支生成内容在语义和结构上紧密关联。至于SAIM模块,则用于完成两个分支之间特征的融合与共享。


其次还引入了背景补偿模块(BCM)


从输入的正常图像(或生成的背景部分)中分离出背景的关键特征(Key)和值特征(Value),注入到主分支中,强制限制生成结果的形状,从而稳定模型的生成效果,缓解了少样本图像生成中常见的失真与模糊现象。


实验结果


下表展示了生成结果在真实性与多样性的量化指标上的比较。


可以看到,团队所使用的方法生成了最高质量最多样化的图像数据。


用大模型检测工业品异常,复旦腾讯优图新算法入选CVPR 2025


更多可视化效果也印证了这一点,其方法生成的数据有较好的质量和多样性。


用大模型检测工业品异常,复旦腾讯优图新算法入选CVPR 2025


像素级和图像级的异常检测结果表明,用不同的方法生成的数据,对同一个模型结构进行训练,最终用该团队方法生成的数据获得了整体最优的效果。


用大模型检测工业品异常,复旦腾讯优图新算法入选CVPR 2025


小结一下,这项研究提出了一种用于生成异常图像和掩码的新方法DualAnoDiff。


该方法采用并行双分支扩散机制同步生成异常图像及其对应的异常部分,这确保了生成的异常图像,掩码对具有高度对齐性,同时保证了异常图像的真实感。


此外,为解决复杂场景下的生成挑战,团队引入了背景补偿模块,有效增强了模型对复杂背景的拟合能力。


大量实验表明,与现有异常生成方法相比,新方法性能更优。通过本模型生成的异常数据可显著提升下游异常检测任务的性能。


团队表示,该研究将推动异常图像生成领域的发展。


论文链接:https://arxiv.org/pdf/2408.13509



文章来自微信公众号 “ 量子位 ”,作者 DualAnoDiff团队


用大模型检测工业品异常,复旦腾讯优图新算法入选CVPR 2025

AITNT-国内领先的一站式人工智能新闻资讯网站
AITNT资源拓展
根据文章内容,系统为您匹配了更有价值的资源信息。内容由AI生成,仅供参考
1
prompt

【开源免费】LangGPT 是一个通过结构化和模板化的方法,编写高质量的AI提示词的开源项目。它可以让任何非专业的用户轻松创建高水平的提示词,进而高质量的帮助用户通过AI解决问题。

项目地址:https://github.com/langgptai/LangGPT/blob/main/README_zh.md

在线使用:https://kimi.moonshot.cn/kimiplus/conpg00t7lagbbsfqkq0