点击上方Z先生点记,加为星标第一时间收到Python技术干货!文字OCR识别技术现在已经相当成熟了,无论其准确度还是识别速度都能够满足我们的日常需要;今天给大家介绍一个Python包,该包的主要功能就是用于OCR识别的,包的名字叫Pyteeseract,借助这个包几行代码就能快速识别一张文本图片Pytesseract包是由开源工具Tesseract得到的,由HewlettPackard实验室开发,在年实行开源;自年之后由谷歌和一些优秀的开源贡献者共同开发维护Tesseract在3.x版本之后逐渐成熟,支持多种图片格式并且逐步加入多语言文本识别;但Tesseract3.x版本依旧基于传统计算机视觉算法,在过去的几年得益于DeepLearning的快速迭代,无论是准确率与速度方面都要优于传统算法;在4.0版本之后Tesseract加入了DeepLearning模块,是基于Recognition的LSTM,而LSTM就是可归类为RNN(循环卷积神经网络);本篇文章的实验是基于Tesseract3.05版本实现的,最后在中文语言识别方面准确率稍次,可能是因为没有使用4.0+的原因在,后来才了解已经有4.0+版本甚至5.0+(但不太稳定)且都是基于DeepLearning模块的,但因为太懒就不想改了,,,先交代一下实验环境:os:Win10;Python3.8;pyteeseract0.3.8;Tesseract3.05;pyteeseract安装1,安装tesseract工具相对其它程序包,pyteeseract的安装步骤会相对繁琐一点,因为pyteeseract识别功能是基于tesseract开源工具完成的,所以第一步安装tesseract,安装包下载链接:
转载请注明:http://www.0431gb208.com/sjslczl/6037.html