七行代码实现OCR图片转文字

共 1153字,需浏览 3分钟

 ·

2022-04-20 19:56

↑ 关注 + 星标 ,每天学Python新技能

后台回复【大礼包】送你Python自学大礼包

tesseract简介


OCR,即Optical Character Recognition,光学字符识别,是指通过扫描字符,然后通过其形状将其翻译成电子文本的过程。


下载安装包


tesseract下载地址:https://digi.bib.uni-mannheim.de/tesseract/

进入下载页面。

可以看到有各种.exe文件的下载列表,根据自己需求下载(其中文件名中带有dev的为开发版本,不带dev的为稳定版本,可以选择下载不带dev的版本,例如可以选择下载tesseract-ocr-setup-4.0.0-alpha.20170804。)


安装


下载后傻瓜式安装即可。



这里选择语言包,简体中文(但勾选语言包较多时下载较慢,本人建议直接安装,安装后根据需要再去下载语言包。)


选择合适的安装路径完成安装。


环境变量配置


设置环境变量,进入环境变量中,找path,新建路径。如图:


测试


查看是否安装成功,打开cmd,输入tesseract -v回车,若显示版本号即为安装成功。如图:


测试文件


我在网上随便找了两首古诗竟是文字识别测试,如下



python库


所需第三方库安装方式

# pytesseract安装:
pip install pytesseract

# PIL安装:
pip install pillow


测试结果


短短七行代码即可实现图片转文字,结果如下:



问题汇总


Tesseract在安装过程中出现Download error Status of equ: Send Request Error. Click OK to continue!!!已解决



出错的原因应该是,墙的问题,,请求失败,尝试管理员身份还是失败,,,既然download失败,那么就换种方式下载


Github上下载自己需要的语言包

https://tesseract-ocr.github.io/tessdoc/Data-Files ,


获取到语言包后直接解压,并且再次配置环境变量如下:

点击我的电脑–>属性–>高级设置—>环境变量---->path下面的—>新建—>变量名:TESSDATA_PREFIX---->变量值:前面的加上\tessdata



将下载好的语言包解压,打开tessdata文件夹


然后将其复制到tessdata中。


最后,重启一下电脑!!!!

然后win+R 快捷打开cmd,输入tesseract --list-langs 就可,就可以看到所有的语言类型了。




  1. 惊呆了!小姐姐用图解 Python,这也太秀了吧?

  2. PyCharm为什么这么牛?

  3. 恭喜!您已关注公众号满1年, 诚邀您免费加入网易数据分析培训营!




浏览 33
点赞
评论
收藏
分享

手机扫一扫分享

分享
举报
评论
图片
表情
推荐
点赞
评论
收藏
分享

手机扫一扫分享

分享
举报