Python3.6使用tesseract-ocr的正确方法


Posted in Python onOctober 17, 2018

Tesseract介绍

tesseract是一个挺不错的OCR引擎,目前的问题是最新的中文资料相对较少,过时、不准确的信息偏多。

tesseract是一个google支持的开源ocr项目,其项目地址:https://github.com/tesseract-ocr/tesseract,目前最新的源码可以在这里下载。

实际使用tesseract ocr也有两种方式:1. 动态库方式 libtesseract  2. 执行程序方式 tesseract.exe

环境

  • Python 3.6.3
  • pip 9.0.1
  • tesseract-ocr-setup-3.05.00dev.exe
  • Windows10

安装

1.tesseract-orc

  • Tesseract:开源的OCR识别引擎,初期Tesseract引擎由HP实验室研发,后来贡献给了开源软件业,后经由Google进行改进,消除bug,优化,重新发布。

安装的时候需要自行选择安装的语言,一些其他国家的语言可以不选择安装,我之按安装了中文,英文和日语。安装过程和其他软件一样。

2.pytesseract

pip install pytesseract

配置环境

1.设置 tesseract-orc路径

默认情况下tesseract-orc是不被添加到系统的path路径的,这样在使用的时候发生FileNotFoundError: [WinError 2] 系统找不到指定的文件错误。

解决方法:

  • 方法1:将 C:\Program Files (x86)\Tesseract-OCR添加到系统路径(路径因安装过程而异)
  • 方法2:修改pytesseract.py文件

设置训练集的位置

下载的默认训练集也没有添加到系统路径,会报错

pytesseract.pytesseract.TesseractError: (1, 'Error opening data file \\Program Files (x86)\\Tesseract-OCR\\tessdata/chi_sim.traineddata')

解决方法:

设置环境变量 TESSDATA_PREFIX
C:\Program Files (x86)\Tesseract-OCR\tessdata

实例程序

import pytesseract
from PIL import Image
image = Image.open('test.png')
code = pytesseract.image_to_string(image)
print(code)

更多参考:https://pypi.python.org/pypi/pytesseract

总结

以上就是这篇文章的全部内容了,希望本文的内容对大家的学习或者工作具有一定的参考学习价值,谢谢大家对三水点靠木的支持。如果你想了解更多相关内容请查看下面相关链接

Python 相关文章推荐
python通过imaplib模块读取gmail里邮件的方法
May 08 Python
Python删除windows垃圾文件的方法
Jul 14 Python
Python上传package到Pypi(代码简单)
Feb 06 Python
举例讲解Python中的list列表数据结构用法
Mar 12 Python
利用python发送和接收邮件
Sep 27 Python
网站渗透常用Python小脚本查询同ip网站
May 08 Python
python将文本分每两行一组并保存到文件
Mar 19 Python
Python处理CSV与List的转换方法
Apr 19 Python
python递归法实现简易连连看小游戏
Mar 25 Python
flask利用flask-wtf验证上传的文件的方法
Jan 17 Python
python利用百度云接口实现车牌识别的示例
Feb 21 Python
python3中布局背景颜色代码分析
Dec 01 Python
python学生信息管理系统(初级版)
Oct 17 #Python
学生信息管理系统python版
Oct 17 #Python
python 使用sys.stdin和fileinput读入标准输入的方法
Oct 17 #Python
Python实现Dijkstra算法
Oct 17 #Python
使用Python抓取豆瓣影评数据的方法
Oct 17 #Python
python 对key为时间的dict排序方法
Oct 17 #Python
解决python中os.listdir()函数读取文件夹下文件的乱序和排序问题
Oct 17 #Python
You might like
PHP SPL使用方法和他的威力
2013/11/12 PHP
ThinkPHP3.1新特性之对Ajax的支持更加完善
2014/06/19 PHP
浅析Yii2 GridView实现下拉搜索教程
2016/04/22 PHP
PHP预定义变量9大超全局数组用法详解
2016/04/23 PHP
php源码之将图片转化为data/base64数据流实例详解
2016/11/27 PHP
PHP实现查询手机归属地的方法详解
2017/04/28 PHP
PHP数据库操作三:redis用法分析
2017/08/16 PHP
javascript编程起步(第二课)
2007/01/10 Javascript
js对象数组按属性快速排序
2011/01/31 Javascript
再谈javascript面向对象编程
2012/03/18 Javascript
js实现鼠标悬浮给图片加边框的方法
2015/01/30 Javascript
JavaScript获取指定元素位置的方法
2015/04/08 Javascript
jQuery实现动画效果circle实例
2015/08/06 Javascript
关于JavaScript的单双引号嵌套问题
2017/08/20 Javascript
AngularJS中的作用域实例分析
2018/05/16 Javascript
JavaScript简单实现关键字文本搜索高亮显示功能示例
2018/07/25 Javascript
jQuery表单校验插件validator使用方法详解
2020/02/18 jQuery
vue 实现tab切换保持数据状态
2020/07/21 Javascript
Python中类的继承代码实例
2014/10/28 Python
mac安装pytorch及系统的numpy更新方法
2018/07/26 Python
Python Opencv实现图像轮廓识别功能
2020/03/23 Python
pyenv虚拟环境管理python多版本和软件库的方法
2019/12/26 Python
python orm 框架中sqlalchemy用法实例详解
2020/02/02 Python
解决安装新版PyQt5、PyQT5-tool后打不开并Designer.exe提示no Qt platform plugin的问题
2020/04/24 Python
python如何操作mysql
2020/08/17 Python
HTML5 Canvas中绘制椭圆的4种方法
2015/04/24 HTML / CSS
L*SPACE官网:比基尼、泳装和度假服装
2019/03/18 全球购物
June Jacobs尊积帕官网:知名的spa水疗护肤品牌
2019/03/21 全球购物
施华洛世奇匈牙利官网:SWAROVSKI匈牙利
2019/07/06 全球购物
车间核算员岗位职责
2014/07/01 职场文书
幼儿园感恩节活动总结
2015/03/24 职场文书
信仰纪录片观后感
2015/06/08 职场文书
2016全国“质量月”活动标语口号
2015/12/26 职场文书
Python-OpenCV教程之图像的位运算详解
2021/06/21 Python
Python实现视频自动打码的示例代码
2022/04/08 Python
索尼ICF-5900W收音机测评
2022/04/24 无线电