Python+Selenium+PIL+Tesseract自动识别验证码进行一键登录


Posted in Python onSeptember 20, 2017

本文介绍了Python+Selenium+PIL+Tesseract自动识别验证码进行一键登录,分享给大家,具体如下:

  • Python 2.7
  • IDE Pycharm 5.0.3
  • Firefox浏览器:47.0.1
  • Selenium
  • PIL
  • Pytesser
  • Tesseract

扯淡

​ 我相信每个脚本都有自己的故事,我这个脚本来源于自己GRD教务系统,每次进行登录时,即使我输入全部正确,第一次登录一定是登不上去的!我不知道设计人员什么想法?难道是为了反爬机制?你以为一次登不上,我tm就不爬了?我要是不高兴了,信不信秒秒钟访问你1000+让大家都上不去咯~咳咳,有点跑题了。

Talk is cheap, Show me the code

自动识别验证码模拟登陆,注意是自动,一键登录,不是那种扫出验证码,然后手动输入登录!首先来代码实现吧!

# -*- coding: utf-8 -*-
#Author:哈士奇说喵
from selenium import webdriver
import os
import pytesser
import sys,time
from PIL import Image,ImageEnhance

#shift+tab多行缩进(左)
reload(sys)
PostUrl = "http://yjsymis.hrbeu.edu.cn/gsmis/indexAction.do"

driver=webdriver.Firefox()
driver.get(PostUrl)


i=0
while 1:#sb登录系统,即使输对所有消息还是登不进去的,需要登录两次及以上

  i=i+1
  try:
    elem_user = driver.find_element_by_name('id')
    elem_psw = driver.find_element_by_name('password')
    elem_code = driver.find_element_by_name('checkcode')
  except:
    break
  #-------------------对验证码进行区域截图,好吧,这方法有点low------------------
  driver.get_screenshot_as_file('C:\Users\MrLevo\image1.jpg')#比较好理解
  im =Image.open('C:\Users\MrLevo\image1.jpg')
  box = (516,417,564,437) #设置要裁剪的区域
  region = im.crop(box)   #此时,region是一个新的图像对象。
  #region.show()#显示的话就会被占用,所以要注释掉
  region.save("e:/image_code.jpg")

  #-------------------------------------------------------------------

  #--------------ImageGrab.grab()直接可以区域截图,但是有bug,截图不全-------
  '''
  bbox = (780, 0, 1020, 800)
  img = ImageGrab.grab()
  img.save("E:\image_code.jpg")
  img.show()
  '''
  #-------------------------手动输入验证码:适用范围更广,但不够方便------------------------------
  '''
  response = opener.open(CaptchaUrl)
  picture = response.read()
  with open('e:/image.jpg', 'wb') as local:
    local.write(picture)
  # 保存验证码到本地

  #------------对于不能用pytesser+ocr进行识别,手动打开图片手动输入--------
  # 打开保存的验证码图片 输入
  #SecretCode = raw_input('please enter the code: ')
  #----------------------------------------------------------------------
  '''

  #--------------------图片增强+自动识别简单验证码-----------------------------
  #time.sleep(3)防止由于网速,可能图片还没保存好,就开始识别
  def image_file_to_string(file):
    cwd = os.getcwd()
    try :
      os.chdir("C:\Users\MrLevo\Anaconda2\Lib")
      return pytesser.image_file_to_string(file)
    finally:
      os.chdir(cwd)
  im=Image.open("E:\\image_code.jpg")
  imgry = im.convert('L')#图像加强,二值化
  sharpness =ImageEnhance.Contrast(imgry)#对比度增强
  sharp_img = sharpness.enhance(2.0)
  sharp_img.save("E:\\image_code.jpg")
  #http://www.cnblogs.com/txw1958/archive/2012/02/21/2361330.html
  #imgry.show()#这是分布测试时候用的,整个程序使用需要注释掉
  #imgry.save("E:\\image_code.jpg")

  code= pytesser.image_file_to_string("E:\\image_code.jpg")#code即为识别出的图片数字str类型
  print code
  #打印code观察是否识别正确


  #----------------------------------------------------------------------
  if i <= 2: # 根据自己登录特性,我这里是验证码失败一次,重填所有,失败两次,重填验证码
    elem_user.send_keys('S315080092')
    elem_psw.send_keys('xxxxxxxxxx')

  elem_code.send_keys(code)
  click_login = driver.find_element_by_xpath("//img[@src='main_images/images/loginbutton.gif']")
  click_login.click()


#time.sleep(5)#搜索结果页面停留片刻
#driver.save_screenshot('C:\Users\MrLevo\image.jpg')
#driver.close()
#driver.quit()

Show Gif ( :

第一次放动图,心理还有点小激动~

Python+Selenium+PIL+Tesseract自动识别验证码进行一键登录

遇到问题及解决方法

1:验证码取得问题,因为每次刷新之后验证码动态刷新,所以如果不采用cookie的话(我还不太会用cookie),根本捉不到元素,这个我在下篇文章中采用cookie来登录的,但不是调用浏览器,这个跑远了,下次说。

1:解决方案:用了driver.get_screenshot_as_file方法,机智的进行全截图,然后采用PIL中的crop进行再截图操作,可能有人会说,为什么不采用ImageGrab.grab()函数来做,好吧,因为这个函数在win10上尽然!截不了全图!!自己试了才知道,btw,我的分辨率1920x1080,难道和分辨率有关?反正这个我截了好久都没有成功,到最后才想到,截全部看看,结果,tmd只有一半,我说怎么都找不到要截图的部分!

2:验证码验证错误率高问题

2:解决方案,采用PIL强大的图像处理功能,我先将图片二值化,本来是蓝色字体的,,然后再进行对比度强化来锐化图片,然后再调用Tesseract.exe进行处理,提高的识别精度不是一点两点:看图比较,左1是用cookie抓的原图,右边是全景截图,再定位截图,再进行二值化和锐化处理的图,本来我想着用matlab做图像识别的,但是想想还要调用,感觉有点麻烦。。。

Python+Selenium+PIL+Tesseract自动识别验证码进行一键登录

3:调用Tesseract.exe问题

3:解决方案因为程序执行图像识别需要调用Tesseract.exe,所以必须把路径切到有这个exe的路径下,刚开始,以为和包依赖,结果根本没有识别出任何图!折腾一个多小时才写好验证码识别的问题—-单独测试的确很重要,记一笔!

4:登录失败问题?mdzz学校教务系统二次验证

4:解决方案,写了一个while循环,把主程序很大部分都扔进去了,目的也很明确,如果第一次登录失败,再重复进行登录,注意采用try试探元素是否仍然存在,except来抛出break结束循环,因为登录成功后,比如说driver.find_element_by_name('id')是不存在的!所以当这个元素在登陆后的界面找不到时,那就说明登录成功,ok,跳出循环,进行下一步操作。

5:明明图片已截取,为什么没有识别

5:解决方案,这个我真的没想到,我一直以为可能因为save时候还没下载好,导致库中没有这张图,那就不能识别,但是我用time.sleep函数让它停下来缓缓,还是不行,我就很无语了,想了半天,可能是因为图片被占用!因为我有一个img.show()函数,为了检测有没有截取到标准的图,然后show之后这个图像就被占用了!就像你在编辑word时候,是无法删除word文档一样!果然在注释掉show之后,一切可行,真是差错查了小半天啊!!

6:元素一切就位,为什么不执行操作

6:解决方案,这个有点脑残了,不过的确是我遇到的,还是记上一笔,然后骂自己一遍sb,没有click()你让它怎么处理!!!就像用cookie登录时候还有个ENTRY呢!

7:两次验证失败后,用户名重复累加

7:解决方案,直接加了个变量,计数循环次数,观察到只要超过两次没有登录上,就会累加登录名和用户密码,直接写了个if进行判断,完事!

8:im.crop(box)裁剪区域选择困难症

8:解决方案,多试几次,反正我是试出来的。。。。当然,你点击图片进行审查元素时候,可以看到图片大小,那么,你就可以知道横纵坐标差值多少,但是大范围区域还得自己试,如有更好的办法,请告知,以下为我截图实验次数,次数30+

Python+Selenium+PIL+Tesseract自动识别验证码进行一键登录

9:导入不了Image,ImageEnhance

9:解决方案,因为PIL用的是第三方库,所以,采用的导入方式是这样的,多看看官方文档就可以,官方描述如下
Usefrom PIL import Imageinstead ofimport Image.

10:找不到应该键入的元素

10:这个问题,请单击要输入的空白处右键,审查元素,就可以看到,然后根据driver.find_element_by_各种方法来定位元素,如果输入进行了隐藏,在当前页面找不到怎么办,就像如下图,需要先点击我的图书馆,才能看到输入的账户和密码,那么先找我的图书馆的元素,进行click操作,之后再找元素,一句话,把自己想成浏览器,阿不,把python想成浏览器。。。。。

Python+Selenium+PIL+Tesseract自动识别验证码进行一键登录

上图的代码我也放上,大同小异,比有验证码的简单,但是多了一个click操作。

# -*- coding: utf-8 -*-
#Author:哈士奇说喵
from selenium import webdriver
import time
import sys


#shift+tab多行缩进(左)
reload(sys)
PostUrl = "http://lib.hrbeu.edu.cn/#"
driver=webdriver.Firefox()
driver.get(PostUrl)

elem_user = driver.find_element_by_name('number')
elem_psw = driver.find_element_by_name('passwd')

#选择我的图书馆,点击后才能看到输入账号密码
click_first = driver.find_element_by_xpath("//ul[@id='imgmenu']/li[4]")
click_first.click()
elem_user.send_keys('S315080092')
elem_psw.send_keys('xxxxxxxx')

#点击登录
click_second = driver.find_element_by_name('submit')
click_second.click()

time.sleep(5)
#登陆后选择
click_third = driver.find_element_by_xpath("//*[@id='mainbox']/div/div/ul/li/a")
click_third.click()

time.sleep(5)#搜索结果页面停留片刻
#driver.save_screenshot('C:\Users\MrLevo\image.jpg')

driver.close()
driver.quit()

 最后

(虽然我知道以后肯定会再补充):断断续续差不多两天时间来实现这个操作,虽然对大家来说应该不算难,但是对自己还是有蛮大提升的,对selenium有了基本的概念和操作,对PIL也进行了使用,还有ocr的调用,虽然调用firefox来执行操作表面上看起来很酷炫,但是执行效率和占用内存是很大的内伤,但作为可视化的模拟浏览器登录,这点做的还是十分绚丽的。

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持三水点靠木。

Python 相关文章推荐
Python序列之list和tuple常用方法以及注意事项
Jan 09 Python
Python文件和流(实例讲解)
Sep 12 Python
CentOS7下python3.7.0安装教程
Jul 30 Python
详解django的serializer序列化model几种方法
Oct 16 Python
Flask框架模板渲染操作简单示例
Jul 31 Python
python Kmeans算法原理深入解析
Aug 23 Python
基于Python执行dos命令并获取输出的结果
Dec 30 Python
使用pickle存储数据dump 和 load实例讲解
Dec 30 Python
Python各种扩展名区别点整理
Feb 27 Python
python之pygame模块实现飞机大战完整代码
Nov 29 Python
python实现简单反弹球游戏
Apr 12 Python
用python实现监控视频人数统计
May 21 Python
python select.select模块通信全过程解析
Sep 20 #Python
基于python的字节编译详解
Sep 20 #Python
MySQL适配器PyMySQL详解
Sep 20 #Python
Python字符串格式化的方法(两种)
Sep 19 #Python
python3 pillow生成简单验证码图片的示例
Sep 19 #Python
Python文件操作之合并文本文件内容示例代码
Sep 19 #Python
使用Python &amp; Flask 实现RESTful Web API的实例
Sep 19 #Python
You might like
谈谈PHP连接Access数据库的注意事项
2016/08/12 PHP
用 Javascript 验证表单(form)中多选框(checkbox)值
2009/09/08 Javascript
JavaScript设置IFrame高度自适应(兼容各主流浏览器)
2013/06/05 Javascript
AngularJS ng-blur 指令详解及简单实例
2016/07/30 Javascript
Bootstrap选项卡动态切换效果
2016/11/28 Javascript
Vue开发中整合axios的文件整理
2017/04/29 Javascript
AngularJS路由删除#符号解决的办法
2017/09/28 Javascript
你可能不知道的CORS跨域资源共享
2019/03/13 Javascript
ajax跨域访问遇到的问题及解决方案
2019/05/23 Javascript
搭建一个nodejs脚手架的方法步骤
2019/06/28 NodeJs
微信小程序开发摇一摇功能
2019/11/22 Javascript
jQuery操作动画完整实例分析
2020/01/10 jQuery
es6数组的flat(),flatMap()函数用法实例分析
2020/04/18 Javascript
解决Vue大括号字符换行踩的坑
2020/11/09 Javascript
[07:20]2018DOTA2国际邀请赛寻真——逐梦Mineski
2018/08/10 DOTA
[02:38]DOTA2 夜魇暗潮2020活动介绍官方视频
2020/11/04 DOTA
Python用threading实现多线程详解
2017/02/03 Python
对python3 中方法各种参数和返回值详解
2018/12/15 Python
Python中的 ansible 动态Inventory 脚本
2020/01/19 Python
TensorFlow设置日志级别的几种方式小结
2020/02/04 Python
浅谈Pycharm的项目文件名是红色的原因及解决方式
2020/06/01 Python
Python闭包装饰器使用方法汇总
2020/06/29 Python
PyCharm 2020.1版安装破解注册码永久激活(激活到2089年)
2020/09/24 Python
python快速安装OpenCV的步骤记录
2021/02/22 Python
css3实现一款模仿iphone样式的注册表单
2013/03/20 HTML / CSS
英国领先的互联网葡萄酒礼品商:Vintage Wine & Port
2019/05/24 全球购物
.net面试题
2016/09/17 面试题
JVM是一个编译程序还是解释程序
2012/09/11 面试题
上班睡觉检讨书
2014/01/09 职场文书
在校生自我鉴定
2014/01/23 职场文书
小学生评语集锦
2014/04/18 职场文书
上班迟到检讨书300字
2014/10/18 职场文书
党校毕业个人总结
2015/02/28 职场文书
Nginx 502 Bad Gateway错误原因及解决方案
2021/03/31 Servers
Pygame Draw绘图函数的具体使用
2021/11/17 Python
Python自动化工具之实现Excel转Markdown表格
2022/04/08 Python