毕业论文
您现在的位置: 语言识别 >> 语言识别优势 >> 正文 >> 正文

Python好用的文字识别神器

来源:语言识别 时间:2024/1/20
白癜风可以完全治愈吗 http://m.39.net/disease/a_5602607.html

01背景介绍

很久之前公司扫描了一批文件,但是由于时间太久电子编辑版已经丢失,但是里边的信息非常重要,怎么办?要求提给了我,希望能够通过一些技能批量识别信息(多页的扫描版),第一个想法就想到了Python,因为在爬取网站信息时,有的网站会使用识别码,来反爬所以,经过研究可以考虑使用TesseractOCR(OpticalCharacterRecognition,光学字符识别),OCR技术有门槛,开发成本高,也就意味着技术垄断,所以免费开源的库非常少,其中一个免费的工具就是谷歌出品的tesseract,下面来具体介绍。

02安装

安装tesseractOCR,我在处理过程中也遇到很多问题接下来就做一个分享,希望大家少走弯路。

第一步需要下载tesseractOCR安装包(百度网上很多资源,如果搜到CSDN分析的文章里边的下载地址还是比较靠谱的,其他的要慎重,不要中病毒,如果懒得百度可以后台私信无偿发你),还是注意安装位置,后边要设置环境变量

第二步下载语言包,可以搜索已经训练好的现成的语言包(GitHub官方搜索下载,因为GITHUB是外网,下载速度不稳定,如果下载不下来可以百度或者后台私信无偿发)下载后解压好,放在安装好的文件夹下

第三步配置环境变量,右击我的电脑,属性,高级系统设置,直接上图以下是我安装的位置

另外系统变量也加上

第四步安装Python的两个库(打开cmd输入:pipinstallpytesseract和pipinstallpillow)如果安装成功,可以输入piplist,可以看到下图的安装包。

最后打开jupyternotebook,或者你的pycharm

输入代码,就成了

识别后效果

不过我的扫描件都是表格,tesseract,识别失败,最后用Python调用百度AI做的的识别,但是遗憾的是因为扫描的表格中线和文字都黏在一起了,效果并不理想,如果清晰地表格和文字应该是没问题的,以后有空再把调用百度AI的代码分享出来。

转载请注明:http://www.0431gb208.com/sjszjzl/6917.html

  • 上一篇文章:
  • 下一篇文章: 没有了