Python图像处理之图片文字识别功能(OCR)


Posted in Python onJuly 30, 2019

OCR与Tesseract介绍

将图片翻译成文字一般被称为光学文字识别(Optical Character Recognition,OCR)。可以实现OCR 的底层库并不多,目前很多库都是使用共同的几个底层OCR 库,或者是在上面进行定制。

Tesseract 是一个OCR 库,目前由Google 赞助(Google 也是一家以OCR 和机器学习技术闻名于世的公司)。Tesseract 是目前公认最优秀、最精确的开源OCR 系统。

了极高的精确度,Tesseract 也具有很高的灵活性。它可以通过训练识别出任何字体(只要这些字体的风格保持不变就可以),也可以识别出任何Unicode 字符。

Tesseract的安装与使用

Tesseract的Windows安装包下载地址为: http://digi.bib.uni-mannheim.de/tesseract/tesseract-ocr-setup-4.00.00dev.exe  ,下载后双击直接安装即可。安装完后,需要将Tesseract添加到系统变量中。在CMD中输入tesseract -v, 如显示以下界面,则表示Tesseract安装完成且添加到系统变量中。

Python图像处理之图片文字识别功能(OCR) 

Linux 用户可以通过apt-get 安装:

$sudo apt-get tesseract-ocr

用Tesseract可以识别格式规范的文字,主要具有以下特点:

• 使用一个标准字体(不包含手写体、草书,或者十分“花哨的”字体)
• 虽然被复印或拍照,字体还是很清晰,没有多余的痕迹或污点
• 排列整齐,没有歪歪斜斜的字
• 没有超出图片范围,也没有残缺不全,或紧紧贴在图片的边缘

下面将给出几个tesseract识别图片中文字的例子。

首先是E://figures/other/poems.jpg, 输入命令 tesseract E://figures/other/poems.jpg E://figures/other/poems.txt, 则会将poems.jpg中的识别文字写入到poems.txt中,如下图:

Python图像处理之图片文字识别功能(OCR)
Python图像处理之图片文字识别功能(OCR)
Python图像处理之图片文字识别功能(OCR) 

接着是稍微有点倾斜的文字图片th.jpg,识别情况如下:

Python图像处理之图片文字识别功能(OCR)
Python图像处理之图片文字识别功能(OCR) 

可以看到识别的情况不如刚才规范字体的好,但是也能识别图片中的大部分字母。
最后是识别简体中文,需要事先安装简体中文语言包,下载地址为: https://github.com/tesseract-ocr/tessdata/find/master/chi_sim.traineddata   ,再讲chi_sim.traineddata放在C:\Program Files (x86)\Tesseract-OCR\tessdata目录下。我们以图片timg.jpg为例:

Python图像处理之图片文字识别功能(OCR) 

输入命令:

tesseract E://figures/other/timg.jpg E://figures/other/timg.txt -l chi_sim

识别结果如下:

Python图像处理之图片文字识别功能(OCR) 

只识别错了一个字,识别率还是不错的。

最后加一句,Tesseract对于彩色图片的识别效果没有黑白图片的效果好。

pytesseract

pytesseract是Tesseract关于Python的接口,可以使用pip install pytesseract安装。安装完后,就可以使用Python调用Tesseract了,不过,你还需要一个Python的图片处理模块,可以安装pillow.

输入以下代码,可以实现同上述Tesseract命令一样的效果:

import pytesseract
from PIL import Image
pytesseract.pytesseract.tesseract_cmd = 'C://Program Files (x86)/Tesseract-OCR/tesseract.exe'
text = pytesseract.image_to_string(Image.open('E://figures/other/poems.jpg'))
print(text)

运行结果如下:

Python图像处理之图片文字识别功能(OCR)

总结

以上所述是小编给大家介绍的Python图像处理之图片文字识别功能(OCR),希望对大家有所帮助,如果大家有任何疑问请给我留言,小编会及时回复大家的。在此也非常感谢大家对三水点靠木网站的支持!
如果你觉得本文对你有帮助,欢迎转载,烦请注明出处,谢谢!

Python 相关文章推荐
Python  __getattr__与__setattr__使用方法
Sep 06 Python
简单介绍Ruby中的CGI编程
Apr 10 Python
python通过post提交数据的方法
May 06 Python
使用Python导出Excel图表以及导出为图片的方法
Nov 07 Python
将python代码和注释分离的方法
Apr 21 Python
python 爬虫 批量获取代理ip的实例代码
May 22 Python
对PyQt5的输入对话框使用(QInputDialog)详解
Jun 25 Python
Python之修改图片像素值的方法
Jul 03 Python
python同步windows和linux文件
Aug 29 Python
python 星号(*)的多种用途
Sep 21 Python
python实现简单文件读写函数
Feb 25 Python
python基础之文件处理知识总结
May 23 Python
python爬虫 爬取58同城上所有城市的租房信息详解
Jul 30 #Python
python join方法使用详解
Jul 30 #Python
python实现屏保程序(适用于背单词)
Jul 30 #Python
python实现各种插值法(数值分析)
Jul 30 #Python
Django 通过JS实现ajax过程详解
Jul 30 #Python
django 微信网页授权认证api的步骤详解
Jul 30 #Python
Python Pandas 如何shuffle(打乱)数据
Jul 30 #Python
You might like
提升PHP速度全攻略
2006/10/09 PHP
Jquery Validation插件防止重复提交表单的解决方法
2010/03/05 Javascript
js去除重复字符串两种实现方法
2013/01/09 Javascript
模拟多级复选框效果的jquery代码
2013/08/13 Javascript
Javascript中string转date示例代码
2013/11/01 Javascript
如何通过javascript操作web控件的自定义属性
2013/11/25 Javascript
Flash图片上传组件 swfupload使用指南
2015/03/14 Javascript
js检测用户输入密码强度
2015/10/22 Javascript
JavaScript:Array类型全面解析
2016/05/19 Javascript
jQuery使用正则表达式限制文本框只能输入数字
2016/06/18 Javascript
原生js获取元素样式的简单方法
2016/08/06 Javascript
百度搜索框智能提示案例jsonp
2016/11/28 Javascript
详解Vue快速零配置的打包工具——parcel
2018/01/16 Javascript
Python利用Nagios增加微信报警通知的功能
2016/02/18 Python
深入学习Python中的装饰器使用
2016/06/20 Python
python:socket传输大文件示例
2017/01/18 Python
python判断一个集合是否为另一个集合的子集方法
2018/05/04 Python
python导入模块交叉引用的方法
2019/01/19 Python
python数据库操作mysql:pymysql、sqlalchemy常见用法详解
2020/03/30 Python
Python偏函数Partial function使用方法实例详解
2020/06/17 Python
关于PyCharm安装后修改路径名称使其可重新打开的问题
2020/10/20 Python
利用CSS3实现自定义滚动条代码分享
2016/08/18 HTML / CSS
详解HTML5中垂直上下居中的解决方案
2017/12/20 HTML / CSS
Hunkemöller西班牙:欧洲最大的内衣连锁店
2018/08/15 全球购物
土木工程专业推荐信
2014/02/19 职场文书
大学生职业生涯规划书参考模板
2014/03/05 职场文书
伦敦奥运会口号
2014/06/13 职场文书
水污染治理工程专业自荐信
2014/06/21 职场文书
机械专业求职信范文
2014/07/15 职场文书
党支部创先争优承诺书
2014/08/30 职场文书
领导班子个人对照检查剖析材料
2014/09/29 职场文书
2015年世界无烟日活动总结
2015/02/10 职场文书
综合办公室主任岗位职责
2015/04/01 职场文书
团组织推荐意见
2015/06/05 职场文书
2016年清明节寄语
2015/12/04 职场文书
python基础之类属性和实例属性
2021/10/24 Python