Python图像处理之图片文字识别功能(OCR)


Posted in Python onJuly 30, 2019

OCR与Tesseract介绍

将图片翻译成文字一般被称为光学文字识别(Optical Character Recognition,OCR)。可以实现OCR 的底层库并不多,目前很多库都是使用共同的几个底层OCR 库,或者是在上面进行定制。

Tesseract 是一个OCR 库,目前由Google 赞助(Google 也是一家以OCR 和机器学习技术闻名于世的公司)。Tesseract 是目前公认最优秀、最精确的开源OCR 系统。

了极高的精确度,Tesseract 也具有很高的灵活性。它可以通过训练识别出任何字体(只要这些字体的风格保持不变就可以),也可以识别出任何Unicode 字符。

Tesseract的安装与使用

Tesseract的Windows安装包下载地址为: http://digi.bib.uni-mannheim.de/tesseract/tesseract-ocr-setup-4.00.00dev.exe  ,下载后双击直接安装即可。安装完后,需要将Tesseract添加到系统变量中。在CMD中输入tesseract -v, 如显示以下界面,则表示Tesseract安装完成且添加到系统变量中。

Python图像处理之图片文字识别功能(OCR) 

Linux 用户可以通过apt-get 安装:

$sudo apt-get tesseract-ocr

用Tesseract可以识别格式规范的文字,主要具有以下特点:

• 使用一个标准字体(不包含手写体、草书,或者十分“花哨的”字体)
• 虽然被复印或拍照,字体还是很清晰,没有多余的痕迹或污点
• 排列整齐,没有歪歪斜斜的字
• 没有超出图片范围,也没有残缺不全,或紧紧贴在图片的边缘

下面将给出几个tesseract识别图片中文字的例子。

首先是E://figures/other/poems.jpg, 输入命令 tesseract E://figures/other/poems.jpg E://figures/other/poems.txt, 则会将poems.jpg中的识别文字写入到poems.txt中,如下图:

Python图像处理之图片文字识别功能(OCR)
Python图像处理之图片文字识别功能(OCR)
Python图像处理之图片文字识别功能(OCR) 

接着是稍微有点倾斜的文字图片th.jpg,识别情况如下:

Python图像处理之图片文字识别功能(OCR)
Python图像处理之图片文字识别功能(OCR) 

可以看到识别的情况不如刚才规范字体的好,但是也能识别图片中的大部分字母。
最后是识别简体中文,需要事先安装简体中文语言包,下载地址为: https://github.com/tesseract-ocr/tessdata/find/master/chi_sim.traineddata   ,再讲chi_sim.traineddata放在C:\Program Files (x86)\Tesseract-OCR\tessdata目录下。我们以图片timg.jpg为例:

Python图像处理之图片文字识别功能(OCR) 

输入命令:

tesseract E://figures/other/timg.jpg E://figures/other/timg.txt -l chi_sim

识别结果如下:

Python图像处理之图片文字识别功能(OCR) 

只识别错了一个字,识别率还是不错的。

最后加一句,Tesseract对于彩色图片的识别效果没有黑白图片的效果好。

pytesseract

pytesseract是Tesseract关于Python的接口,可以使用pip install pytesseract安装。安装完后,就可以使用Python调用Tesseract了,不过,你还需要一个Python的图片处理模块,可以安装pillow.

输入以下代码,可以实现同上述Tesseract命令一样的效果:

import pytesseract
from PIL import Image
pytesseract.pytesseract.tesseract_cmd = 'C://Program Files (x86)/Tesseract-OCR/tesseract.exe'
text = pytesseract.image_to_string(Image.open('E://figures/other/poems.jpg'))
print(text)

运行结果如下:

Python图像处理之图片文字识别功能(OCR)

总结

以上所述是小编给大家介绍的Python图像处理之图片文字识别功能(OCR),希望对大家有所帮助,如果大家有任何疑问请给我留言,小编会及时回复大家的。在此也非常感谢大家对三水点靠木网站的支持!
如果你觉得本文对你有帮助,欢迎转载,烦请注明出处,谢谢!

Python 相关文章推荐
python中 ? : 三元表达式的使用介绍
Oct 09 Python
python网络编程学习笔记(三):socket网络服务器
Jun 09 Python
python中使用mysql数据库详细介绍
Mar 27 Python
设计模式中的原型模式在Python程序中的应用示例
Mar 02 Python
matplotlib设置legend图例代码示例
Dec 19 Python
PyQt5 pyqt多线程操作入门
May 05 Python
使用Python开发SQLite代理服务器的方法
Dec 07 Python
对Python 检查文件名是否规范的实例详解
Jun 10 Python
Python利用matplotlib绘制约数个数统计图示例
Nov 26 Python
Python3 xml.etree.ElementTree支持的XPath语法详解
Mar 06 Python
浅析Python 责任链设计模式
Sep 11 Python
Python实现归一化算法详情
Mar 18 Python
python爬虫 爬取58同城上所有城市的租房信息详解
Jul 30 #Python
python join方法使用详解
Jul 30 #Python
python实现屏保程序(适用于背单词)
Jul 30 #Python
python实现各种插值法(数值分析)
Jul 30 #Python
Django 通过JS实现ajax过程详解
Jul 30 #Python
django 微信网页授权认证api的步骤详解
Jul 30 #Python
Python Pandas 如何shuffle(打乱)数据
Jul 30 #Python
You might like
在 PHP 中使用随机数的三个步骤
2006/10/09 PHP
PHP正则表达式之定界符和原子介绍
2012/10/05 PHP
PHP数据类型的总结分析
2013/06/13 PHP
php ImageMagick windows下安装教程
2015/01/26 PHP
php-fpm中max_children的配置
2019/03/15 PHP
function, new function, new Function之间的区别
2007/03/08 Javascript
基于jQuery的消息提示插件之旅 DivAlert(三)
2010/04/01 Javascript
js判断checkbox是否选中个数的方法(超简单)
2016/08/19 Javascript
js中获取键盘事件的简单实现方法
2016/10/10 Javascript
jQuery EasyUI tree 使用拖拽时遇到的错误小结
2016/10/10 Javascript
JS实现拖拽的方法分析
2016/12/20 Javascript
AngularJS中使用three.js的实例详解
2017/07/21 Javascript
浅谈vue中数据双向绑定的实现原理
2017/09/14 Javascript
Angular4实现鼠标悬停3d倾斜效果
2017/10/25 Javascript
Jquery实现无缝向上循环滚动列表的特效
2019/02/13 jQuery
对layui中table组件工具栏的使用详解
2019/09/19 Javascript
layui 上传插件 带预览 非自动上传功能的实例(非常实用)
2019/09/23 Javascript
viewer.js一个强大的基于jQuery的图像查看插件(支持旋转、缩放)
2020/04/01 jQuery
[02:40]DOTA2英雄基础教程 巨牙海民
2013/12/23 DOTA
python 测试实现方法
2008/12/24 Python
实例解析Python的Twisted框架中Deferred对象的用法
2016/05/25 Python
Python Selenium Cookie 绕过验证码实现登录示例代码
2018/04/10 Python
Python 获取指定文件夹下的目录和文件的实现
2019/08/30 Python
Python openpyxl读取单元格字体颜色过程解析
2019/09/03 Python
Python如何优雅获取本机IP方法
2019/11/10 Python
Python中文分词库jieba,pkusegwg性能准确度比较
2020/02/11 Python
python/golang 删除链表中的元素
2020/09/14 Python
马克华菲官方商城:Mark Fairwhale
2016/09/04 全球购物
北美三大旅游网站之一:Travelocity
2017/08/12 全球购物
澳大利亚波希米亚风时尚品牌:Tree of Life
2019/09/15 全球购物
车工岗位职责
2013/11/26 职场文书
事业单位接收函
2014/01/10 职场文书
优秀技术工人先进材料
2014/02/17 职场文书
《童趣》教学反思
2014/02/19 职场文书
SpringBoot SpringEL表达式的使用
2021/07/25 Java/Android
SONY600GR,国产收音机厂商永远的痛
2022/04/05 无线电