Python好用的文字识别神器

来源：语言识别时间：2024/1/20

白癜风可以完全治愈吗 http://m.39.net/disease/a_5602607.html

01背景介绍

很久之前公司扫描了一批文件，但是由于时间太久电子编辑版已经丢失，但是里边的信息非常重要，怎么办？要求提给了我，希望能够通过一些技能批量识别信息（多页的扫描版），第一个想法就想到了Python，因为在爬取网站信息时，有的网站会使用识别码，来反爬所以，经过研究可以考虑使用TesseractOCR（OpticalCharacterRecognition，光学字符识别），OCR技术有门槛，开发成本高，也就意味着技术垄断，所以免费开源的库非常少，其中一个免费的工具就是谷歌出品的tesseract，下面来具体介绍。

02安装

安装tesseractOCR，我在处理过程中也遇到很多问题接下来就做一个分享，希望大家少走弯路。

第一步需要下载tesseractOCR安装包（百度网上很多资源，如果搜到CSDN分析的文章里边的下载地址还是比较靠谱的，其他的要慎重，不要中病毒，如果懒得百度可以后台私信无偿发你），还是注意安装位置，后边要设置环境变量

第二步下载语言包，可以搜索已经训练好的现成的语言包（GitHub官方搜索下载，因为GITHUB是外网，下载速度不稳定，如果下载不下来可以百度或者后台私信无偿发）下载后解压好，放在安装好的文件夹下

第三步配置环境变量，右击我的电脑，属性，高级系统设置，直接上图以下是我安装的位置

另外系统变量也加上

第四步安装Python的两个库（打开cmd输入：pipinstallpytesseract和pipinstallpillow）如果安装成功，可以输入piplist，可以看到下图的安装包。

最后打开jupyternotebook，或者你的pycharm

输入代码，就成了

识别后效果

不过我的扫描件都是表格，tesseract，识别失败，最后用Python调用百度AI做的的识别，但是遗憾的是因为扫描的表格中线和文字都黏在一起了，效果并不理想，如果清晰地表格和文字应该是没问题的，以后有空再把调用百度AI的代码分享出来。

转载请注明：http://www.0431gb208.com/sjszjzl/6917.html

上一篇文章：日语语音识别怎么转文字三种简单的方法教

下一篇文章：没有了