万千字符 1个对策——深度学习OCR

供稿:杭州海康机器人股份有限公司

ocr(1)_看图王.jpg


OCR知多少


OCR(Optical Character Recognition)是指光学字符识别,通过光学技术和计算机技术将印在物体表面的字符转换成计算机可以识别的信息。

在工业领域,OCR技术被普遍应用在食药品包装、3C电子、汽车零配件生产、烟草等行业,实现生产日期、批号、产品编号等信息的自动识别。


 1.png


 🔺OCR的应用行业


     在工业生产中,对OCR的识别率要求较高,一般识别率需大于99.9%。大部分工业应用场景环境固定,产品一致性较好,字体规范,识别率较高。但是, 面对并不理想环境或复杂字符,业内的综合识别率只有90%甚至更低。这样的识别率远远达不到实际应用的需求。

 

 2.png


在以上场景中,深度学习OCR以其泛化能力强,在复杂场景下表现更好的特点,从机器视觉众多方案中脱颖而出,开始应用于各种行业中。


产品与方案

海康威视深度学习OCR技术在2017年3月刷新了ICDARRobustReading竞赛数据集的全球最好成绩。


其基本的技术原理为:通过设计一个数十层的卷积神经网络来完成待识别字符图像的信息编码,然后使用启发式的注意力模型,实现从特征到字符的解码。其中,专为字符识别设计的启发式机制,模拟人脑的思维模式对注意力模型提取的特征进行合理性评估,使注意力模型在复杂场景中具有的强大适应性,可实现大于99.9%的极高字符识别率。

  

7.png

🔺原理架构图


在产品方案中,我们通常使用PC-Base+VM算法平台的方式搭建视觉检测系统,主要有以下几个部分组成:


  9.png

🔺系统构成


深度学习OCR算法的行业应用


本文以深度学习OCR算法在物流、食药品、汽车金属三个行业的应用为例,对深度学习OCR算法的效果做出解析。


物流行业


某跨国海运仓储中心的包装箱上贴有面单,需要对上面的字符串进行识别。由于运输产品来源广泛,字符串的一致性很差,具体有以下问题: 

▪ 字体和大小不同,字间距、单字笔画大小难以统一

▪ 表面材质不同,部分场景易反光,明暗变化大

▪ 位置不同,传统方式对字符定位方案复杂


🔺包装箱上的ID信息


这些难点正是深度学习OCR主要解决的问题。我们选择使用深度学习OCR算法,主要基于两点:


1、 深度学习OCR工具在文本定位时的优势。传统的OCR算法以二值化作为文本行提取的基础,针对复杂背景,二值化无法减少噪声,提取文本行的能力较差。深度学习OCR算法能够利用深度学习网络,在版面中直接应用训练的文本特征进行定位,无需担心噪声造成的干扰。


2、深度学习OCR算法能够容忍字符粘连,对变文本体进行识别。针对字符粘连、模糊等干扰,传统OCR算法进行字符切割十分困难。而深度学习OCR算法使用启发式的注意力模型,以模拟人脑的方式将各种字符的主要的特征提取出来,相比传统算法只能提取边缘阈值的方式有着更强大的适应能力。


实际生产中所包含的面单种类不止上述四种,场景十分复杂。在使用了深度学习OCR算法后,整体的识别率可达99.95%,远高于传统OCR算法。


食、药品行业


食品、药品包装表面的生产日期标识对于生产企业至关重要。打错、漏打的生产日期可能直接导致产品的退回,影响产品的信誉度。在此场景下主要有如下困难:

▪  字符扭曲、歪斜,同种字符的形态多样,传统算法在此方面的泛化能力不足。

▪  点阵字符及字符粘连对于传统OCR来说难以分割。

   

4-11.png

4-12.png


4-13.png


🔺包装上的生产信息


深度学习OCR算法能够将更多同类但不同形状的字体进行识别。它可针对文本行进行整行识别,在复杂场景下有着更好的表现。在实际生产中,可实现99.95%以上的准确率。


汽车、金属行业


由于产线的环境及油污等问题,金属表面由于产线的环境及油污等问题,金属表面上的背景通常不同,打光后字符也会以不同灰度值的形式呈现。一般成像效果如下图所示:

 

5-11.png

5-12.png 

🔺金属打光后字符效果示例



在上图中,边缘字符与中间字符灰度不同,背景灰度也不同,使得传统OCR算法在设置阈值参数时难以选择。深度学习OCR算法可以跳过对阈值选取的困难,直接进行文本行的定位与识别。在使用深度学习OCR进行训练后,识别率得到了有效提升。


更多应用

 

 6-1.png

6-2.png

6-3.png

 

深度学习OCR算法还可应用到PCB板上字符识别、包装箱表面字符识别、瓶盖表面文本识别、化工材料表面文本识别等。

   


发布时间:2019年9月25日 17:11 人气: 审核编辑:王妍
更多内容请访问(杭州海康机器人股份有限公司

我有需求