python利用Tesseract识别验证码的方法示例


Posted in Python onJanuary 21, 2019

无论是是自动化登录还是爬虫,总绕不开验证码,这次就来谈谈python中光学识别验证码模块tesserocrpytesseracttesserocrpytesseract是Python的一个OCR识别库,但其实是对tesseract做的一层Python API封装,pytesseract是Google的Tesseract-OCR引擎包装器;所以它们的核心是tesseract,因此在安装tesserocr之前,我们需要先安装tesseract

下载安装

下载地址:https://digi.bib.uni-mannheim.de/tesseract/tesseract-ocr-w64-setup-v4.0.0.20181030.exe

下载完成后,双击安装,可以勾选Additional language data(download)选项来安装OCR识别支持的语言包,但下载语言包实在是慢,我们可以直接从https://github.com/tesseract-ocr/tessdata/下载zip的语言包压缩文件,解压后将tessdata-master中的文件复制到Tesseract的安装目录C:\Program Files (x86)\Tesseract-OCR\tessdata目录下,最后我们配置下环境变量,我们将C:\Program Files (x86)\Tesseract-OCR添加到环境变量中。进入命令提示符,输入tesseract,显示下图结果,说明配置完成

python利用Tesseract识别验证码的方法示例

查看安装了的语言包:tesseract --list-langs

python利用Tesseract识别验证码的方法示例

显示我一共安装了167种语言包,里边包含英文或者其他字符。

测试

实验用的二维码

python利用Tesseract识别验证码的方法示例

基本使用语法
tesseract image.png result (tesseract 图片名称 生成文件名称)

结果

python利用Tesseract识别验证码的方法示例

由结果来看,识别出来了P、2和X,但是把C识别成了G,识别度还是比较高,接下来看在python中的使用

python引入tesseract

在python下使用pip命令即可完成下载安装 pip install pytesseract

识别验证码脚本

import pytesseract
from PIL import Image
im=Image.open('pin.png')
print(pytesseract.image_to_string(im))

结果

python利用Tesseract识别验证码的方法示例

这样识别的结果同样跟上文一样,个别字符识别的不是很准确

图像处理

现在网站上的二维码设计的通常很难复杂,如果直接识别的话很难识别出来,下面这段代码是进行灰度处理和二值化

import pytesseract
from PIL import Image
im=Image.open('5.jpg')
#进行置灰处理
im=im.convert('L')
#这个是二值化阈值
threshold=150
table=[]
for i in range(256):
 if i<threshold:
  table.append(0)
 else:
  table.append(1)
#通过表格转换成二进制图片,1的作用是白色,0就是黑色
im=im.point(table,"1")
im.show()
print(pytesseract.image_to_string(im))

原图

python利用Tesseract识别验证码的方法示例

置灰和二值化后

python利用Tesseract识别验证码的方法示例

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持三水点靠木。

Python 相关文章推荐
介绍Python中内置的itertools模块
Apr 29 Python
Python win32com 操作Exce的l简单方法(必看)
May 25 Python
浅谈python迭代器
Nov 08 Python
如何优雅地处理Django中的favicon.ico图标详解
Jul 05 Python
python直接获取API传递回来的参数方法
Dec 17 Python
Laravel+Dingo/Api 自定义响应的实现
Feb 17 Python
python实现图片压缩代码实例
Aug 12 Python
Python+opencv+pyaudio实现带声音屏幕录制
Dec 23 Python
python 实现图像快速替换某种颜色
Jun 04 Python
Python 删除List元素的三种方法remove、pop、del
Nov 16 Python
Python 数据科学 Matplotlib图库详解
Jul 07 Python
关于 Python json中load和loads区别
Nov 07 Python
对python过滤器和lambda函数的用法详解
Jan 21 #Python
利用Python正则表达式过滤敏感词的方法
Jan 21 #Python
Python 实现王者荣耀中的敏感词过滤示例
Jan 21 #Python
opencv python统计及绘制直方图的方法
Jan 21 #Python
python numpy 按行归一化的实例
Jan 21 #Python
python树莓派红外反射传感器
Jan 21 #Python
python实现自动解数独小程序
Jan 21 #Python
You might like
php db类库进行数据库操作
2009/03/19 PHP
PHP借助phpmailer发送邮件
2015/05/11 PHP
Yii2 rbac权限控制操作步骤实例教程
2016/04/29 PHP
PHP文件下载实例代码浅析
2016/08/17 PHP
PHP与JavaScript针对Cookie的读写、交互操作方法详解
2017/08/07 PHP
PHP+MySQL实现模糊查询员工信息功能示例
2018/06/01 PHP
php常用日期时间函数实例小结
2019/07/04 PHP
JS 常用校验函数
2009/03/26 Javascript
Node.js和PHP根据ip获取地理位置的方法
2014/03/14 Javascript
JavaScript中继承用法实例分析
2015/05/16 Javascript
javascript实现可键盘控制的抽奖系统
2016/03/10 Javascript
JavaScript实现的简单Tab点击切换功能示例
2018/07/06 Javascript
package.json中homepage属性的作用详解
2020/03/11 Javascript
浅谈Vue3.0新版API之composition-api入坑指南
2020/04/30 Javascript
jquery实现图片放大镜效果
2020/12/23 jQuery
[01:09:24]Ti4开幕式
2014/07/19 DOTA
[01:16:01]VGJ.S vs Mski Supermajor小组赛C组 BO3 第一场 6.3
2018/06/04 DOTA
Python的面向对象思想分析
2015/01/14 Python
Python操作Access数据库基本步骤分析
2016/09/19 Python
Python处理命令行参数模块optpars用法实例分析
2018/05/31 Python
python实现按长宽比缩放图片
2018/06/07 Python
Python函数的定义方式与函数参数问题实例分析
2019/12/26 Python
在pycharm中文件取消用 pytest模式打开的操作
2020/09/01 Python
python邮件中附加文字、html、图片、附件实现方法
2021/01/04 Python
Ruby如何实现动态方法调用
2012/11/18 面试题
物流专业大学生求职信范文
2013/10/28 职场文书
职业生涯规划书基本格式
2014/01/06 职场文书
计算机学生求职信范文
2014/01/30 职场文书
幼师自我鉴定
2014/02/01 职场文书
个人查摆剖析材料
2014/02/04 职场文书
企业厂务公开实施方案
2014/03/26 职场文书
爱祖国演讲稿
2014/05/04 职场文书
社区巾帼文明岗事迹材料
2014/06/03 职场文书
保密工作整改情况汇报
2014/11/06 职场文书
2015年领导干部廉洁自律工作总结
2015/05/26 职场文书
提高系统的吞吐量解决数据库重复写入问题
2022/04/23 MySQL