编程 Python

python selenium UI自动化解决验证码的4种方法

Posted in Python onJanuary 05, 2018

本文介绍了python selenium UI自动化解决验证码的4种方法，分享给大家，具体如下：

测试环境

windows7+
firefox50+
geckodriver # firefox浏览器驱动
python3
selenium3

selenium UI自动化解决验证码的4种方法：去掉验证码、设置万能码、验证码识别技术-tesseract、添加cookie登录，本次主要讲解验证码识别技术-tesseract和添加cookie登录。

1. 去掉验证码

去掉验证码，直接通过用户名和密码登陆网站。

2. 设置万能码

设置万能码，就是不管什么情况，输入万能码，都可以成功登录网站。

3. 验证码识别技术-tesseract

准备条件

tesseract，下载地址：https://github.com/parrot-office/tesseract/releases/tag/3.5.1
Python3.x，下载地址：https://www.python.org/downloads/
pillow（Python3图像处理库）

安装好Python，通过pip install pillow安装pillow库。然后将tesseract中的tesseract.exe和testdata文件夹放到测试脚本所在目录下，testdata中默认有eng.traineddata和osd.traineddata，如果要识别汉语，请自行下载对应包。

以下是两个主要文件，TesseractPy3.py是通过python代码去调用tesseract以达到识别验证码的效果。code.py是通过selenium获取验证码图片，进而使用TesseractPy3中的函数得到验证码，实现网站的自动化登陆。

TesseractPy3.py

#coding=utf-8

import os
import subprocess
import traceback
import logging

from PIL import Image # 来源于Pillow库

TESSERACT = 'tesseract' # 调用的本地命令名称
TEMP_IMAGE_NAME = "temp.bmp" # 转换后的临时文件
TEMP_RESULT_NAME = "temp" # 保存识别文字临时文件
CLEANUP_TEMP_FLAG = True # 清理临时文件的标识
INCOMPATIBLE = True # 兼容性标识

def image_to_scratch(image, TEMP_IMAGE_NAME):
  # 将图片处理为兼容格式
  image.save(TEMP_IMAGE_NAME, dpi=(200,200))

def retrieve_text(TEMP_RESULT_NAME):
  # 读取识别内容
  inf = open(TEMP_RESULT_NAME + '.txt','r')
  text = inf.read()
  inf.close()
  return text

def perform_cleanup(TEMP_IMAGE_NAME, TEMP_RESULT_NAME):
  # 清理临时文件
  for name in (TEMP_IMAGE_NAME, TEMP_RESULT_NAME + '.txt', "tesseract.log"):
    try:
      os.remove(name)
    except OSError:
      pass

def call_tesseract(image, result, lang):
  # 调用tesseract.exe，将识读结果写入output_filename中
  args = [TESSERACT, image, result, '-l', lang]
  proc = subprocess.Popen(args)
  retcode = proc.communicate()

def image_to_string(image, lang, cleanup = CLEANUP_TEMP_FLAG, incompatible = INCOMPATIBLE):
  # 假如图片是不兼容的格式并且incompatible = True，先转换图片为兼容格式（本程序将图片转换为.bmp格式），然后获取识读结果;如果cleanup=True,操作之后删除临时文件。
  logging.basicConfig(filename='tesseract.log')
  try:
    try:
      call_tesseract(image, TEMP_RESULT_NAME, lang)
      text = retrieve_text(TEMP_RESULT_NAME)
    except Exception:
      if incompatible:
        image = Image.open(image)
        image_to_scratch(image, TEMP_IMAGE_NAME)
        call_tesseract(TEMP_IMAGE_NAME, TEMP_RESULT_NAME, lang)
        text = retrieve_text(TEMP_RESULT_NAME)
      else:
        raise
    return text
  except: 
    s=traceback.format_exc()
    logging.error(s)
  finally:
    if cleanup:
      perform_cleanup(TEMP_IMAGE_NAME, TEMP_RESULT_NAME)

code.py

#coding=utf-8

from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.common.keys import Keys
from selenium.webdriver.support.ui import Select
from selenium.common.exceptions import NoSuchElementException
from selenium.common.exceptions import NoAlertPresentException
from PIL import Image
import unittest, time, re
from TesseractPy3 import *

class lgoin(unittest.TestCase):
  def setUp(self):
    self.driver = webdriver.Ie()
    self.driver.implicitly_wait(30)
    self.base_url = 'http://127.0.0.1:8080/test' # 要测试的链接
    self.title = '某管理平台' # 测试网站的Title
    self.verificationErrors = []
    self.accept_next_alert = True

  def test_lgoin(self):
    driver = self.driver
    driver.get(self.base_url)
    driver.maximize_window()
    driver.save_screenshot('All.png') # 截取当前网页，该网页有我们需要的验证码
    imgelement = driver.find_element_by_class_name('kaptchaImage')
    location = imgelement.location # 获取验证码x,y轴坐标
    size = imgelement.size # 获取验证码的长宽
    rangle = (int(location['x']),int(location['y']),int(location['x']+size['width']),int(location['y']+size['height'])) # 写成我们需要截取的位置坐标
    i = Image.open("All.png") # 打开截图
    result = i.crop(rangle) # 使用Image的crop函数，从截图中再次截取我们需要的区域
    result.save('result.jpg')
    text = image_to_string('result.jpg', 'eng').strip()

    assert self.title in driver.title

    driver.find_element_by_id(u'userCode').clear()
    driver.find_element_by_id(u'userCode').send_keys('XXXXXX') # 用户名
    driver.find_element_by_id(u'password').clear()
    driver.find_element_by_id(u'password').send_keys('XXXXXX') # 密码
    #driver.find_element_by_name('verifyCode').clear()
    driver.find_element_by_name('verifyCode').send_keys(text)
    driver.find_element_by_name('submit').submit()


  def is_element_present(self, how, what):
    try: self.driver.find_element(by=how, value=what)
    except NoSuchElementException as e: return False
    return True

  def is_alert_present(self):
    try: self.driver.switch_to_alert()
    except NoAlertPresentException as e: return False
    return True

  def close_alert_and_get_its_text(self):
    try:
      alert = self.driver.switch_to_alert()
      alert_text = alert.text
      if self.accept_next_alert:
         alert.accept()
      else:
        alert.dismiss()
      return alert_text
    finally: self.accept_next_alert = True

  def tearDown(self):
    #self.driver.quit()
    self.assertEqual([], self.verificationErrors)

if __name__ == "__main__":
  unittest.main()

最后，执行命令python code.py，就可以成功自动登录网站。

注意：

由于受验证码图片质量以及清晰度的影响，并不是每一次都能成功登陆。

4. 添加cookie登录

首先获取网站登陆后的cookie，然后通过添加cookie的方式，实现网站登陆的目的。我们用cook来表示xxxxxx的登录后的cookie。

# coding=utf-8

from selenium import webdriver
import time 

driver = webdriver.Firefox()
driver.get("http://www.xxxxxx.com/") # 要登陆的网站

driver.add_cookie(cook) # 这里添加cookie，有时cookie可能会有多条，需要添加多次
time.sleep(3) 

# 刷新下页面就可以看到登陆成功了
driver.refresh()

注意：

登录时有勾选下次自动登录的请勾选，浏览器提示是否保存用户密码时请选择确定，这样获取的cookie成功登陆的机率比较高

以上就是本文的全部内容，希望对大家的学习有所帮助，也希望大家多多支持三水点靠木。

python selenium UI自动化解决验证码的4种方法

- Author -

地空神一

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Python 相关文章推荐

Python工程师面试题与Python基础语法相关

Jan 14 Python

再谈Python中的字符串与字符编码（推荐）

Dec 14 Python

Python实现的简单模板引擎功能示例

Sep 02 Python

放弃 Python 转向 Go语言有人给出了 9 大理由

Oct 20 Python

使用python语言,比较两个字符串是否相同的实例

Jun 29 Python

编写多线程Python服务器最适合基础

Sep 14 Python

Python并发:多线程与多进程的详解

Jan 24 Python

python重试装饰器的简单实现方法

Jan 31 Python

超简单使用Python换脸实例

Mar 27 Python

Python+Selenium自动化环境搭建与操作基础详解

Mar 13 Python

Python matplotlib 利用随机函数生成变化图形

Apr 26 Python

python获取带有返回值的多线程

May 02 Python

轻松实现TensorFlow微信跳一跳的AI

Jan 05 #Python

OpenCV-Python实现轮廓检测实例分析

Jan 05 #Python

django2 快速安装指南分享

Jan 05 #Python

Python实现改变与矩形橡胶的线条的颜色代码示例

Jan 05 #Python

用python制作游戏外挂

Jan 04 #Python

Python学习之Anaconda的使用与配置方法

Jan 04 #Python

Windows下Anaconda的安装和简单使用方法

Jan 04 #Python

You might like

PHP 类相关函数的使用详解

2013/05/10 PHP

php数组索引与键值操作技巧实例分析

2015/06/24 PHP

Maps Javascript

2007/01/22 Javascript

使用JS操作页面表格，元素的一些技巧

2007/02/02 Javascript

javascript 表单的友好用户体现

2009/01/07 Javascript

jquery关于图形报表的运用实现代码

2011/01/06 Javascript

JavaScript获取和设置CheckBox状态的简单方法

2013/07/05 Javascript

jqGrid增加时--判断开始日期与结束日期(实例解析)

2013/11/08 Javascript

使用JQUERY进行后台页面布局控制DIV实现左右式

2014/01/07 Javascript

利用js读取动态网站从服务器端返回的数据

2014/02/10 Javascript

Javascript中call和apply函数的比较和使用实例

2015/02/03 Javascript

谈谈JavaScript中function多重理解

2015/08/28 Javascript

jQuery判断浏览器并动态调整select宽度的方法

2016/03/02 Javascript

Angularjs使用directive自定义指令实现attribute继承的方法详解

2016/08/05 Javascript

浅谈jQuery hover(over, out)事件函数

2016/12/03 Javascript

详解Angular 4.x Injector

2017/05/04 Javascript

jQuery Easyui Treegrid实现显示checkbox功能

2017/08/08 jQuery

使用Angular CLI从蓝本生成代码详解

2018/03/24 Javascript

详解vuex commit保存数据技巧

2018/12/25 Javascript

[06:53]DOTA2每周TOP10 精彩击杀集锦vol.3

2014/06/25 DOTA

[36:22]VP vs Serenity 2018国际邀请赛小组赛BO2 第一场 8.16

2018/08/17 DOTA

[53:50]CHAOS vs Mineski 2019国际邀请赛小组赛 BO2 第一场 8.16

2019/08/18 DOTA

[56:42]VP vs RNG 2019国际邀请赛小组赛 BO2 第二场 8.15

2019/08/17 DOTA

解密Python中的描述符（descriptor）

2015/06/03 Python

python字典键值对的添加和遍历方法

2016/09/11 Python

python远程连接MySQL数据库

2019/04/19 Python

简单了解python中的与或非运算

2019/09/18 Python

哪些是python中web开发框架

2020/06/17 Python

Web Service面试题：如何搭建Axis2的开发环境

2012/06/20 面试题

教师节感恩老师演讲稿

2014/08/28 职场文书

小学竞选班长演讲稿

2014/09/09 职场文书

投标文件签署授权委托书范本

2014/10/12 职场文书

技术员岗位职责

2015/02/04 职场文书

JavaScript如何利用Promise控制并发请求个数

2021/05/14 Javascript

详解Java实现数据结构之并查集

2021/06/23 Java/Android

springboot使用Redis作缓存使用入门教程

2021/07/25 Redis