OCR技术与深度学习的关系与应用

来源：语言识别时间：2022/10/5

郑州白癜风医院 http://m.39.net/baidianfeng/a_4304133.html

传统技术OCR，特指应用领域，比如：识别身份证，银行卡，驾照，车牌等。应用深度学习的OCR技术，可以使用在泛领域的文字、文档识别等。

一、简单介绍

OCR的英文全称是OpticalCharacterRecognition，中文叫做光学字符识别；它是一种存在已久的计算机视觉任务，在某些特定领域它表现的非常好，根本不需要如今火热的深度学习的技术。

在年如日中天的深度学习之前，OCR有许多不同的实现，这可以追溯到年。可能会有人说，OCR技术的挑战已经都被解决了？答案是：NO！使用深度学习的神经网络来训练OCR的任务会更精准，应用领域更多。

通常来说，任何实践过计算机视觉或者机器学习的人都知道，不存在已经解决的任务，这种情况也不例外。相反，在一些特定的领域，OCR会产生一个很好的结果，所以某一些OCR的任务，还是非常具有挑战性的，所以使用深度学习来训练OCR的识别任务还是非常有挑战性的。

看完本篇文章你会知道：

1.你的车在北京，为什么收到来自上海的超速罚款？

2.为什么一些app上扫描银行卡号时，个别字母识别不出来？

3.深度学习比传统的OCR技术要好吗？

4.深度学习的识别文字原理和框架是什么？

5.如何直接使用OCR文本识别功能？

我会尽量说的小白一点，方便不同专业的同学都能看懂^_^

二、OCR的种类

OCR的应用有多种领域，之前也提过。简单的说，就是在图片上提取文字，图片上的文字排版越标准，识别的就越精准，比如印刷的书的某一页，或者标准的打印文档；当然也能识别涂鸦，也就是在极不规范的原素材上识别。我们日常中常见的OCR应用领域有车辆牌照、自动识别验证码、街景标志等等。

每种OCR任务都有自己不同的难度，俗话说“inthewild”是最难的。

列举几个常用的OCR任务的属性：

文本密度：印刷体、书写体的文字密度都很高；但是在一张街景的图片上，文字确实很稀疏的文本的结构：页面上的文本是结构化的，大多数情况下是按严格的行排列的，而野外的文本则可能以不同的旋转方式散布在各处。字体：打印字体比较容易，因为它们比嘈杂的手写字符更结构化。字符类型：文本可能以不同的语言出现，而彼此之间可能会有很大不同。此外，文字的结构可能与数字不同，例如门牌号码等。伪影：显然，室外图像比舒适的扫描仪要嘈杂得多。位置：某些任务包括裁剪/居中的文本，而在其他任务中，文本可能位于图像中的随机位置。

三、SVHN数据集

SVHN（街景房号数据集）是一个很好的起点。顾名思义，这是从Google街景视图中提取的房屋编号数据集。任务难度中等。数字有各种形状和书写样式，但是每个门牌号都位于图像的中间，因此不需要检测。图像的分辨率不是很高，它们的排列可能有些奇怪。

SVHN数据集:

转载请注明：http://www.0431gb208.com/sjszlff/1844.html

上一篇文章：语音识别大战又添明星AI公司依图联合微软

下一篇文章：双麦阵列离线语音识别音频模块你一定不