360 Digital OCR国际技术竞赛冠军,如何最好地确定超市门票的文本线?

机器心脏社论部

在ICDAR(国际文档分析与认可国际会议)中,在OCR身份识别领域最有权威的会议之一,360 Digital赢得了ICDAR2019-SROIE列表中的第一名。

列表地址:https://rrc.cvc.uab.es/?ch=13cOM=evaluationTask=2

作为计算机视野领域的重要分支,OCR(光学特征识别)技术主要包括三个方面,即文本检测,文本识别和视觉信息提取。文本检测是通过OCR算法在图像中找到汉字,通常使用四个侧面或矩形框来指示字符的位置。文本识别是使用识别算法或模型以字符串形式以给定文本片段图像来音译。视觉信息提取是提取图像中人员定义的关键信息,例如名称,性别,电话号码等。

1 SROIE2019活动介绍

在ICDAR2019强大阅读比赛的6轨上[16],SROIE2019更多地关注超市票务文本线的检查,标识和信息提取,这也是OCR领域中当前的困难。

由于其技术难度极高和实用性,ICDAR竞争一直是主要科学研究机构和技术公司竞争的重点,吸引了国内外的许多团队参加。

1.1事件简介

SROIE2019分为三个子任务:文本检测(需要原始图片中文本区域的位置坐标),文本识别(基于给定的文本区域裁剪图,正确识别文本内容)和视觉信息提取(提取识别的文本线中的关键信息,例如价格,价格,日期等)。

在这场比赛中,我们专注于SROIE的文本识别任务,其评估指标使用F1分数来评估模型的性能。 F1分数是召回率召回率的谐波平均值和精度精度。这三个的计算方法显示在公式(1)(2)(3)中。

其中,TP,FP和FN分别代表真正的积极,假积极和假阴性。 TP,FP和FN的定义基于已确定的文本行的比较和Word给定的GT Word的比较,这完全正确地确定了识别是正确的。 SROIR文本识别任务数据集包含33626个训练集和19385测试集样本,其中训练集的注释格式是给定的文本图像和相应的文本,如下图1 [1]。

图1:训练集数据样本。

1.2困难

该活动有以下困难:

文本字体字体模糊。官方的比赛数据集全部来自超市结算收据的扫描图像。由于收据都是机器制造的,并且存储了太长时间,因此扫描的文本线条具有严重的磨损和损失,不完整的字体笔触等,这给OCR识别算法带来了巨大的挑战。文本线图像出现弯曲。在给定的文本线图像中出现了很大一部分弯曲。当今的主流文本识别算法在水平文本识别方面相对稳定,而弯曲文本线识别是OCR识别行业的困难。标签歧义。给定的文本线根本不存在于相应的文本图像,空间标记错误和类似形状的字符标记错误,这对算法的概括产生了巨大影响。 2个技术解决方案

算法,数据和计算能力是使深度学习向前发展的三个支柱。在本节中,我们将详细介绍上述三个部分,并提出相应的解决方案,以解决1.2中提到的事件的困难。

对于SROIE中的文本线识别,我们首先采用了CRNN [7]技术解决方案,并在CRNN中的编码器和解码器部分进行了大量分析和比较实验,以获得一个很好的基线模型。

其次,鉴于这次不清楚的文本问题,我们生成了将近5000W的数据集并在此数据集上进行了培训以获得验证的模型。基于验证的模型,该模型大大提高了5.4。最后,在响应文本线弯曲问题时,我们提出了一个基于TPS+UNET自学习的预处理模块,该模型进一步提高了2.6。

通过优化上述技术解决方案,召回,精度和F1分数的最终得分分别达到97.68,97.79和97.74,所有这三个评估指标都排名第一。

此外,我们还探索了选择语言错误校正模型,损失和培训策略的一些解决方案,这为最终模型效应带来了一定的改进。

2.1 CRNN模型简介

图2:CRNN体系结构图。

对于文本识别模型,我们指的是CRNN将模型的主体分为两个部分,即特征编码图像数据的编码器(对应于上图中的CNN层)和解码文本序列的解码器(对应于上图中图中的复发层和转录层)。

对于编码器,我们在当前的OCR技术中尝试了主流Mobilenet [8],EfficityNet [9],Resnet [10]等,最后选择了在性能和参数数量上非常出色的Resnet,并在不同层的重置上进行了实验。

对于解码器,它可以进一步分为将图像切片序列转换为文本序列的部分,以及解码和输出文本序列的部分。在第一部分中,我们尝试当前主流序列模型,例如变压器[11],LSTM [12]等。最终,我们选择了Bilstm,这在性能和稳定性方面更好[13]。与普通的LSTM不同,Bilstm可以按顺序捕获双向文本信息,这与此竞争数据所呈现的语义特征一致。

在解码的第二部分中,我们通过当前流行变压器模型的启发进行了CTC [14]和注意[15]。通过实验结果,我们发现CTC在长文本中的表现更好,而注意力在处理短文中的表现更好。

鉴于此竞争数据的文本长度分布的较大差异,我们尝试了两个模型:CTC和注意力。

2.2模型优化

2.2.1数据预处理

360 Digital OCR国际技术竞赛冠军,如何最好地确定超市门票的文本线?

该竞赛的数据是文本线图像,每个数据的大小都不同。为此,我们对齐所有图像,以确保模型输入中的一致性。通过分析整个数据集的尺寸分布,我们对不同的图像宽度和高度以及两个不同的对齐操作进行了试验,并进行了调整大小和填充。最后,采用了填充对齐,并将模型的F1得分提高了3.2。

2.2.2模型预处理模块

该竞赛的图像数据的特征是模糊和低对比度。为此,我们增强了图像,以确保网络输入图像的清晰度。我们选择使用U-NET [16]网络自动学习适合整体模型的图像增强方法。通过使用传统方法(例如图像易感性和超分辨率网络)进行比较实验,U-NET可以适应地学习适合网络学习的图像增强方法。

图3:U-NET图。

此外,该竞赛的某些图像在文本线上显示了倾斜的特征。与水平文本相比,偏斜文本的识别更具挑战性。

为了应对这种情况,我们采用了处理偏斜文本的TPS网络[17]。网络可以预测TPS校正所需的K参考点,并根据参考点执行TPS转换以生成采样网格,最后在采样网格上执行双线性插值以实现校正文本的目的。

图4:TPS图。

最后,在U-NET自适应增强和TPS校正之后,Model F1评分提高了2.6。

2.2.3损失选择

对于在文本识别任务中难以识别的问题,例如“ 0”和“ O”。我们采用中心损失[18],这可以通过缩小每个分类代码与其所属类别的中心之间的距离来更好地区分相似类别。使用中心损失后,模型F1分数增加了0.6。

2.2.4优化器选择

如上所述,文本线识别模型由多个部分组成,每个部分的学习任务因数据域(图像/文本)到数据格式(单个/序列)的差异很大。

为此,我们选择了自适应优化器Adadelta [19]来解决它。在使用Adadelta训练模型以收敛后,当将图像处理的编码参数冷冻时,使用更快的收敛ADAM [20]进一步训练了解码器部分的参数。使用上述策略后,模型F1分数增加了0.3。

2.3高尺度数据集的预训练模型培训

在这项比赛中,我们使用了正式给予的33626培训集,并且还通过模拟各种字体,各种语料库类别(数字/名称/句子)和各种图片样式(磨损/倾斜/分数)生成了5000万个数据集,并使用20 V100 V100图形卡进行了分布式培训。根据预先训练的模型,Model F1得分得到了极大的提高(5.4),这也是我们在这场比赛中冠军的关键。

2.4语言错误校正模型

首先,我们融合了训练注意模型和CTC模型。为了信心低下的结果,我们认为识别错误的可能性很高,我们需要使用语言模型来纠正它们。通过2.5的BadCase分析,我们可以看到,除了空间识别错误之外,还有大约56的其他错误。因此,我们训练了一个没有空间的注意力识别模型,并使用该模型的识别结果来替代对原始融合模型的信心较低的识别结果,从而避免了空间在识别上的干扰。

然后,我们扩展了软屏蔽的BERT [21],在Bi-Gru [22]错误检测网络中,除了预测每个字符是错别字的概率外,我们还添加了该字符之后需要添加该字符的概率。如果预测是错误的,我们将根据概率线性将角色的嵌入与掩模的嵌入。如果添加了预测,则在字符之后直接添加掩码的嵌入。在BET错误校正网络中,我们添加了一个空标记来识别需要删除的字符。

最后,我们基于坏蛋分析产生了100万个培训数据,在使用上述策略之后,F1分数增加了0.7。

图5:软遮盖的Bert的示意图。

2.5坏蛋分析

通过采用2.12.4策略,我们的模型得到了极大的改进。通过对验证集中的坏蛋分析,发现主要存在以下类型:空间识别误差,相等长度的样本识别误差和不等的长度样本识别误差。每个误差的比例如图6所示,其中空间识别误差的比例达到44,其他两个误差是相等的长度和不相等的误差。以下介绍并为上述情况提供了我们的解决方案。

图6:坏蛋分配图。

首先,空间识别误差意味着该模型无法正确识别空间或我们的空间作为其他字符,如下图所示。为了应对这种情况,我们人为地为语料库提供了很多空间。同时,为了解决空间距离的主观性,我们在将空间插入语料库中时使用了不确定长度的空间,以使模型学习以控制空间距离。

此外,我们计算了模型中的空间前后的字符分布预测了空间误差结果,并根据此分布控制了插入语料库中的空间位置。

图7:空间识别示例。

其次,相等的长度误差意味着模型识别的结果等于GT,但是存在一些字符识别错误,占总识别错误的33。这种误差主要集中在难以正确识别字符的情况下,如下图所示。 GT是“ 1个小锥”,我们的模型被识别为“ 1个小C0NE”。

为了解决此类配对的字符预测误差,我们在模型预测的字符集和字符对中计算了常见的困难字符对。成对,我们将语料库中的某些字符替换为难以分离对的字符,例如“ A0C”和“ AOC”,并将替换库的前后添加到我们的数据集中。

通过成对添加困难的角色语料库,我们的模型预测会大大降低了字符未对准的状况。此外,我们发现,由于此数据的文本线条在裁剪时的左和右较不那么白,因此这使得模型预测很容易在开始和结束时出现错误。为此,我们在选择替换字符时会增加起点和结束位置的重量。

360 Digital OCR国际技术竞赛冠军,如何最好地确定超市门票的文本线?

图8:等距识别误差。

第三,不等式的错误是模型识别的结果不如GT。这主要着重于标记错误,文本线太长和样本失衡。

响应太长文本行的问题,我们选择了少数字符来手动重复一些语料库并将其输入模型以进行训练,以便模型可以获得一定的重复数据删除能力。

为了应对类别不平衡的问题,当生成语料库提取字符时,我们给出了低频字符的重量更大,并且高频和低频字符的发生比已增加到10:1,这与实际环境中的语料库情况更加一致。

3摘要和前景

计算机视觉在金融领域的应用主要包括面部识别,实时检测,OCR,AI数字人类和图像篡改等。这一挑战以某种方式验证了我们OCR算法的有效性,并检查了我们现有算法的遗漏和缺陷。

目前,在360个数字技术中实施的OCR的业务方案主要包括学术资格认证,专业证书认证,票务认可,驾驶执照认可,驾驶执照识别和业务许可等,并且还为上述业务方案开发了支持图像反欺诈识别算法。展望未来,计算机视觉团队将继续遵循最新的行业趋势,以维持先进的技术并更好地为公司的业务团队服务。

4报价

[1] Huang Z,Chen K,He J等。 ICDAR2019扫描收据OCR和信息提取[C] //2019年国际文档分析与认可会议(ICDAR)的竞争。 IEEE,2019: 1516-1520。

[2] ICCV 2019。

[3] Ali Furkan Biten,Ruben Tito,Andres Mafla,Lluis Gomez,MaralRusiol,Ernest Valveny,C.V。 Jawahar,Dimostenis Karatzas,“场景文本视觉问题回答”,ICCV 2019。

[4] C. Chng,Y。Liu,Y。Sun等人,“ ICDAR 2019 2019年度关于任意形状的文本RRC-Art的良好阅读挑战”,载于Proc。 ICDAR 2019。

[5] Zhang R,Zhou Y,Jiang Q等。 ICDAR 2019强大的阅读挑战在阅读中文文本[C] //2019年国际文档分析与认可会议(ICDAR)。 IEEE,20193360 1577-1581。

[6] Nayef N,Patel Y,Busta M等。 ICDAR2019关于多语言场景文本检测和识别的强大阅读挑战-RRC-MLT-2019 [C] //2019年国际文档分析与认可会议(ICDAR)。 IEEE,2019: 1582-1587。

[7] Shi,Baoguang,Xiang Bai和Cong Yao。 “用于基于图像的序列识别及其在场景文本识别中的应用的端到端可训练的神经网络。” IEEE模式分析和机器智能交易39.11(2016): 2298-2304。

[8] Howard A G,Zhu M,Chen B等。 Mobilenets:用于移动视觉应用的有效卷积神经网络[J]。 ARXIV预印型ARXIV:1704.04861,2017。

[9] Tan M,Le Q.效应Net3360卷积神经网络[C] //机器学习国际会议的重新思考模型缩放。 PMLR,2019: 6105-6114。

[10]他,Kaiming等。 “图像识别的深度残留学习”。 IEEE计算机视觉和模式识别会议论文集。 2016。

[11] Vaswani A,Shazeer N,Parmar N等。您需要注意[J]。神经信息处理系统的高级,2017年,第30页。

[12] Graves A.长期记忆[J]。具有复发性神经网络的监督序列标记,2012: 37-45。

[13] Zhang,Shu等。 “双向长期短期记忆网络进行分类。”第29个太平洋亚洲语言,信息和计算会议论文集。 2015。

[14] Graves A.连接派时间分类[M] //具有复发性神经网络的监督序列标记。施普林格,柏林,海德堡,2012: 61-93。

[15] Sun,Chao等。 “卷积复发性神经网络,具有关注框架,以单声道记录中的语音分离。”科学报告11.1(2021): 1-14。

[16] Ronneberger,Olaf,Philipp Fischer和Thomas Brox。 “ U-NET:生物医学图像分割的卷积网络。”国际医学图像计算机化和计算机辅助干预会议。史普林格,Cham,2015年。

[17] Shi,Baoguang等。 “强大的场景文本识别,并自动纠正。” IEEE计算机视觉和模式识别会议论文集。 2016。

[18] Wen,Yandong等。 “一种歧视性的特征学习方法,用于深度识别。”欧洲计算机视觉会议。施普林格,Cham,2016年。

[19] Zeiler,Matthew D.“ Adadelta:一种自适应学习率方法。” ARXIV预印型ARXIV:1212.5701(2012)。

[20] Kingma D P,Ba J. ADAM:随机优化的方法[J]。 ARXIV预印型ARXIV:1412.6980,2014。

用户评论


回忆未来

太牛了!国内OCR技术越来越厉害了,这360数科团队可真强大,未来商超的消费记录和数据分析都能更精准了。希望他们能继续做突破性研究,带动整个OCR行业的进步!

    有6位网友表示赞同!


青墨断笺み

商业小票文本识别确实是最基础但也最考验技术的环节, 感觉这个国际技术竞赛很严苛,360数科能够取得冠军实至名归,值得借鉴学习。

    有5位网友表示赞同!


青衫故人

我一直都用手机拍照扫码支付的小票,但还是需要人工填入信息才能完成交易记录,这样步骤太繁琐了。不知道这次获得冠军的360数科有没有开发直接识别小票信息的应用呢?希望这么智能的技术能更快速地应用到现实生活中!

    有12位网友表示赞同!


荒野情趣

这个标题让我想到超市里那些歪斜难懂的小票,真的是让人头大。这360数科团队能不能解决一下这个问题?让小票的识别率更高一些!

    有16位网友表示赞同!


tina

ocr技术一直在发展,这次比赛360数科的成果很不错,希望能促进更多研发人员关注这一方向,把科技更好地应用到商超行业中去。

    有5位网友表示赞同!


傲世九天

虽然我平时不怎么购物,但看到这篇文章,还是对OCR技术的进步感到非常兴奋。未来说不定真的可以用一部手机就能识别任何东西!

    有14位网友表示赞同!


慑人的傲气

每次在超市结账,那张小票总是被收银员随意扔到一旁,信息混乱不说,如果能够直接识别和录入数据岂不是更方便快捷?360数科的这项技术也许能改变传统的购物流程。

    有14位网友表示赞同!


绳情

感觉这篇文章写的有点过于专业了,普通用户不太能理解。能不能简化一下语言,让更多人知道这些技术的厉害之处?

    有14位网友表示赞同!


琴断朱弦

虽然360数科取得冠军了,但这项技术的商业价值还需要深入探索。仅仅识别小票信息可行性有限,应该延伸到更广泛的领域,实现更大的应用价值。

    有12位网友表示赞同!


一笑抵千言

希望360数科能够将这项技术推向大众市场,方便更多人使用!

    有11位网友表示赞同!


|赤;焰﹏゛

很想知道360数科在比赛中使用了哪些具体的算法和方法?文章里只提到了“最佳”,希望能看到更详细的技术解读,才能真正的理解其成就。

    有14位网友表示赞同!


烬陌袅

商业小票文本识别是一个挑战性很高的问题,毕竟各种店铺的小票类型繁多,字体、布局也各不相同。360数科能克服这些难题并获得冠军实属不易!

    有17位网友表示赞同!


浮殇年华

期待未来更多关于OCR技术的发展和应用的文章,这方面的研究前景非常广阔啊!希望科学家们能够持续突破,为我们带来更智能的科技成果。

    有8位网友表示赞同!


此生一诺

说实话,我对这类技术的商业价值没有太多了解。360数科能将其转化为市场竞争优势吗?值得期待未来他们的发展轨迹。

    有14位网友表示赞同!


掉眼泪

这篇文章比较专业了,对一些不懂技术的人来说可能不太好理解。希望能在未来看到更多能够普及OCR技术的科普作品!

    有16位网友表示赞同!


珠穆郎马疯@

很高兴看到中国人工智能领域取得如此辉煌的成就! 希望360数科能继续坚持研发创新,不断提升科研水平,为世界带来更多科技成果。

    有20位网友表示赞同!


搞搞嗎妹妹

我对360数科的这款技术感兴趣,但希望它能够更好地保护用户隐私信息。数据安全应该始终放在首位!

    有8位网友表示赞同!


江山策

这个小票文本识别技术太强了,会不会有一天我们连用手写的小纸条都能直接录入电脑?

    有14位网友表示赞同!

上一篇
下一篇

为您推荐

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

联系我们

联系我们

0898-88881688

在线咨询: QQ交谈

邮箱: email@zhutibaba.com

工作时间:周一至周五,9:00-17:30,节假日休息
关注微信
微信扫一扫关注我们

微信扫一扫关注我们

手机访问
手机扫一扫打开网站

手机扫一扫打开网站

返回顶部