Python3.6使用tesseract-ocr的正确方法


Posted in Python onOctober 17, 2018

Tesseract介绍

tesseract是一个挺不错的OCR引擎,目前的问题是最新的中文资料相对较少,过时、不准确的信息偏多。

tesseract是一个google支持的开源ocr项目,其项目地址:https://github.com/tesseract-ocr/tesseract,目前最新的源码可以在这里下载。

实际使用tesseract ocr也有两种方式:1. 动态库方式 libtesseract  2. 执行程序方式 tesseract.exe

环境

  • Python 3.6.3
  • pip 9.0.1
  • tesseract-ocr-setup-3.05.00dev.exe
  • Windows10

安装

1.tesseract-orc

  • Tesseract:开源的OCR识别引擎,初期Tesseract引擎由HP实验室研发,后来贡献给了开源软件业,后经由Google进行改进,消除bug,优化,重新发布。

安装的时候需要自行选择安装的语言,一些其他国家的语言可以不选择安装,我之按安装了中文,英文和日语。安装过程和其他软件一样。

2.pytesseract

pip install pytesseract

配置环境

1.设置 tesseract-orc路径

默认情况下tesseract-orc是不被添加到系统的path路径的,这样在使用的时候发生FileNotFoundError: [WinError 2] 系统找不到指定的文件错误。

解决方法:

  • 方法1:将 C:\Program Files (x86)\Tesseract-OCR添加到系统路径(路径因安装过程而异)
  • 方法2:修改pytesseract.py文件

设置训练集的位置

下载的默认训练集也没有添加到系统路径,会报错

pytesseract.pytesseract.TesseractError: (1, 'Error opening data file \\Program Files (x86)\\Tesseract-OCR\\tessdata/chi_sim.traineddata')

解决方法:

设置环境变量 TESSDATA_PREFIX
C:\Program Files (x86)\Tesseract-OCR\tessdata

实例程序

import pytesseract
from PIL import Image
image = Image.open('test.png')
code = pytesseract.image_to_string(image)
print(code)

更多参考:https://pypi.python.org/pypi/pytesseract

总结

以上就是这篇文章的全部内容了,希望本文的内容对大家的学习或者工作具有一定的参考学习价值,谢谢大家对三水点靠木的支持。如果你想了解更多相关内容请查看下面相关链接

Python 相关文章推荐
Python3基础之基本运算符概述
Aug 13 Python
Python中多线程thread与threading的实现方法
Aug 18 Python
python的即时标记项目练习笔记
Sep 18 Python
在Python中使用sort()方法进行排序的简单教程
May 21 Python
python实现查找excel里某一列重复数据并且剔除后打印的方法
May 26 Python
PyQt5每天必学之拖放事件
Aug 27 Python
python使用openpyxl库修改excel表格数据方法
May 03 Python
Python函数中的可变长参数详解
Sep 12 Python
Python @property使用方法解析
Sep 17 Python
pycharm 2018 激活码及破解补丁激活方式
Sep 21 Python
PyChon中关于Jekins的详细安装(推荐)
Dec 28 Python
Python实现视频自动打码的示例代码
Apr 08 Python
python学生信息管理系统(初级版)
Oct 17 #Python
学生信息管理系统python版
Oct 17 #Python
python 使用sys.stdin和fileinput读入标准输入的方法
Oct 17 #Python
Python实现Dijkstra算法
Oct 17 #Python
使用Python抓取豆瓣影评数据的方法
Oct 17 #Python
python 对key为时间的dict排序方法
Oct 17 #Python
解决python中os.listdir()函数读取文件夹下文件的乱序和排序问题
Oct 17 #Python
You might like
动画 《Pokemon Sword·Shield》系列WEB动画《薄明之翼》第2话声优阵容公开!
2020/03/06 日漫
初级的用php写的采集程序
2007/03/16 PHP
php有效防止同一用户多次登录
2015/11/19 PHP
PHP按指定键值对二维数组进行排序的方法
2015/12/22 PHP
CI框架扩展系统核心类的方法分析
2016/05/23 PHP
yii2.0整合阿里云oss删除单个文件的方法
2017/09/19 PHP
学习YUI.Ext第七日-View&JSONView Part Two-一个画室网站的案例
2007/03/10 Javascript
window.open被浏览器拦截后的自定义提示效果代码
2007/11/19 Javascript
JS判断两个时间大小的示例代码
2014/01/28 Javascript
setInterval计时器不准的问题解决方法
2014/05/08 Javascript
javascript动态添加删除tabs标签的方法
2015/07/06 Javascript
js实现微博发布小功能
2017/01/12 Javascript
JavaScript基于replace+正则实现ES6的字符串模版功能
2017/04/25 Javascript
slideToggle+slideup实现手机端折叠菜单效果
2017/05/25 Javascript
Easyui在treegrid添加控件的实现方法
2017/06/23 Javascript
jQuery查找和过滤_动力节点节点Java学院整理
2017/07/04 jQuery
全面解析jQuery中的$(window)与$(document)的用法区别
2017/08/15 jQuery
Nodejs中的JWT和Session的使用
2018/08/21 NodeJs
vue单页缓存存在的问题及解决方案(小结)
2018/09/25 Javascript
element form 校验数组每一项实例代码
2019/10/10 Javascript
浅谈Node新版本13.2.0正式支持ES Modules特性
2019/11/25 Javascript
JS替换字符串中指定位置的字符(多种方法)
2020/05/28 Javascript
vue项目在线上服务器访问失败原因分析
2020/08/14 Javascript
Python实现脚本锁功能(同时只能执行一个脚本)
2017/05/10 Python
python 读取txt中每行数据,并且保存到excel中的实例
2018/04/29 Python
python 字典修改键(key)的几种方法
2018/08/10 Python
对Python Class之间函数的调用关系详解
2019/01/23 Python
用Python去除图像的黑色或白色背景实例
2019/12/12 Python
python实现tail -f 功能
2020/01/17 Python
用python实现学生管理系统
2020/07/24 Python
python 解决selenium 中的 .clear()方法失效问题
2020/09/01 Python
Stefania Mode英国:奢华设计师和时尚服装
2017/10/23 全球购物
办理护照工作证明
2014/10/10 职场文书
MySQL GRANT用户授权的实现
2021/06/18 MySQL
python四种出行路线规划的实现
2021/06/23 Python
【海涛教你打dota】体验一超神发条:咱是抢盾专业户
2022/04/01 DOTA