01背景介绍
很久之前公司扫描了一批文件,但是由于时间太久电子编辑版已经丢失,但是里边的信息非常重要,怎么办?要求提给了我,希望能够通过一些技能批量识别信息(多页的扫描版),第一个想法就想到了Python,因为在爬取网站信息时,有的网站会使用识别码,来反爬所以,经过研究可以考虑使用TesseractOCR(OpticalCharacterRecognition,光学字符识别),OCR技术有门槛,开发成本高,也就意味着技术垄断,所以免费开源的库非常少,其中一个免费的工具就是谷歌出品的tesseract,下面来具体介绍。
02安装
安装tesseractOCR,我在处理过程中也遇到很多问题接下来就做一个分享,希望大家少走弯路。
第一步需要下载tesseractOCR安装包(百度网上很多资源,如果搜到CSDN分析的文章里边的下载地址还是比较靠谱的,其他的要慎重,不要中病毒,如果懒得百度可以后台私信无偿发你),还是注意安装位置,后边要设置环境变量
第二步下载语言包,可以搜索已经训练好的现成的语言包(GitHub官方搜索下载,因为GITHUB是外网,下载速度不稳定,如果下载不下来可以百度或者后台私信无偿发)下载后解压好,放在安装好的文件夹下
第三步配置环境变量,右击我的电脑,属性,高级系统设置,直接上图以下是我安装的位置
另外系统变量也加上
第四步安装Python的两个库(打开cmd输入:pipinstallpytesseract和pipinstallpillow)如果安装成功,可以输入piplist,可以看到下图的安装包。
最后打开jupyternotebook,或者你的pycharm
输入代码,就成了
识别后效果
不过我的扫描件都是表格,tesseract,识别失败,最后用Python调用百度AI做的的识别,但是遗憾的是因为扫描的表格中线和文字都黏在一起了,效果并不理想,如果清晰地表格和文字应该是没问题的,以后有空再把调用百度AI的代码分享出来。
转载请注明:http://www.0431gb208.com/sjszyzl/6587.html