AI 技术应用落地的元年,工业是主战场,尤其是工业缺陷检测。
在“生产制造-缺陷检测-工艺优化-生产制造”的智能制造闭环链条中,基于AI的智能缺陷检测扮演着“把关者”的角色。但这个把关者长期以来却缺少一个称手的工具——样本量大、精度高、语义丰富的缺陷数据集。
近日,ECCV2024接收的一篇论文引起业界广泛关注,该工作提出了Defect Spectrum缺陷数据集及DefectGen缺陷生成模型,主攻工业智能检测,可解决模型无法识别的缺陷类别和位置问题,有效提升10.74%召回率,降低33.1%过杀率。
这是港科广和专注于智能制造领域的人工智能独角兽思谋科技联合发布的又一杰作。去年,该合作团队提出的《Ref-NeuS: Ambiguity-Reduced Neural Implicit Surface Learning for Multi-View Reconstruction with Reflection》被选为ICCV最佳论文候选。
Project Page: https://envision-research.github.io/Defect_Spectrum/
Arxiv Page: https://arxiv.org/abs/2310.17316
Github Repo: https://github.com/EnVision-Research/Defect_Spectrum
Dataset Repo: https://huggingface.co/datasets/DefectSpectrum/Defect_Spectrum
突破传统限制,更贴近落地生产
高质量的数据集对CV技术和人工智能的发展起着至关重要的作用。如ImageNet不仅推动了算法的创新,还促进产业发展和进步。
在工业界,MVTec、VISION VI、DAGM2007等数据集帮助视觉学习算法更接近工业生产实际场景,但由于样本量、精度、语义描述的不足,始终限制着AI工业检测的发展。
Defect Spectrum数据集带着突破传统缺陷检测界限的任务而来,为工业缺陷提供了详尽、语义丰富的大规模标注,首次实现了超高精度及丰富语义的工业缺陷检测。
相比其他工业数据集,“Defect Spectrum”数据集提供了5438张缺陷样本、125种缺陷类别,并提供了像素级的细致标签,为每一个缺陷样本提供了精细的语言描述,实现了前所未有的性能突破。
相比其他工业数据集,Defect Spectrum精准度更高、标注更丰富
Defect Spectrum与其他数据集的数量、性质对比
从实际的工业生产来看,工厂对缺陷检测的要求细致,需要在控制缺陷件的同时保证收益率。然而,现有缺陷检测数据集常常缺乏应用所需的精确度和语义丰富性,无法良好支持实际生产。
例如,一件衣服的拉链齿出现了错位,虽然缺陷尺寸不大但却影响衣物功能,导致拉链无法正常使用,消费者不得不将其退回工厂进行修复。然而,如果缺陷发生在衣物的面料上,比如轻微的钩丝或颜色略有差异,这时就需要仔细权衡其尺寸和影响。小规模的面料缺陷可被归类在可接受的范围内,允许这些产品通过不同的分销策略销售,比如以打折价格进行销售,在不影响整体质量的同时保有收益。
传统数据集如MVTEC和AeBAD尽管提供了像素级的标注,但常常局限于binary mask,无法细致区分缺陷类型和位置。Defect Spectrum数据集通过与工业界四大基准的合作,重新评估并精细化已有的缺陷标注,对细微的划痕和凹坑进行了更精确的轮廓绘制,且通过专家辅助填补了遗漏的缺陷,确保了标注的全面性和精确性。
通过Defect Spectrum数据集这个强大的工具,工厂缺陷检测系统能够迅速识别、立即标记,并采取相关修复策略。
革命性生成模型,专攻缺陷样本不足
港科大和思谋科技研究团队还提出了缺陷生成模型Defect-Gen,一个两阶段的基于扩散的生成器。
Defect-Gen两阶段生成流程示意图
Defect-Gen专门解决当前数据集中缺陷样本不足的问题,通过利用极少量的工业缺陷数据生成图像与像素级缺陷标签,即使在有限的数据集上也能工作,为AI在复杂工业环境中的应用开辟了新的可能。
Defect-Gen具体通过两个关键方法提高图像的多样性和质量:一是使用Patch级建模,二是限制感受野。
为弥补Patch级建模在表达整个图像结构上的不足,研究团队首先在早期步骤中使用大感受野模型捕捉几何结构,然后在后续步骤中切换到小感受野模型生成局部Patch,可在保持图像质量的同时,显著提升了生成的多样性。通过调整两个模型的接入点和感受野,模型在保真度和多样性之间实现了良好的平衡。而生成数据同样可以作为数据飞轮的一部分,并加速其运转。
目前,Defect Spectrum数据集的5438张缺陷样本中,有1920张由Defect-Gen生成。研究团队对应用Defect-Gen生成模型的Defect Spectrum数据集进行了全面的评估,验证了Defect Spectrum在各种工业缺陷检测挑战中的适用性和优越性。
部分缺陷检测网络在Defect Spectrum数据集上的测评结果
Defect Spectrum数据集上的实际评估标准
Defect Spectrum在实际评估中的优异表现
比起原有的数据集,在Defect Spectrum数据集上训练的模型召回率(recall)提升10.74%,过杀率(False Positive Rate)降低了33.1%。
Defect Spectrum数据集的引入,犹如为工业生产注入了一剂强心针。它让缺陷检测系统更加贴近实际生产需求,实现了高效、精准的缺陷管理。同时为未来的预测性维护提供了宝贵的数据支持,通过记录每个缺陷的类别和位置,工厂可以不断优化生产流程,改进产品修复方法,最终实现更高的生产效益和产品质量。
目前Defect Spectrum数据集已应用于思谋科技缺陷检测视觉模型的预训练中,未来将与IndustryGPT等工业大模型融合,深度落地并服务于工业质检业务。AI技术落地驱动产业发展,也正是学术界和工业界共同努力方向。