python爬虫如何解决图片验证码


Posted in Python onFebruary 14, 2021

之前刚开始做爬虫的时候遇到过登录验证码问题,看过很多帖子都没有解决我的问题,发现大多数帖子都是治标不治本,于是想分享一下自己的解决方案。本次采用的网站是古诗文网,使用百度API,因为百度API免费!免费!免费!适合自己学习的时候使用。如果还没有使用过百度API识别验证码的朋友可以看一下我的这个帖子。
以下案例采用的时古诗文网:登录古诗文网,

1、selenium处理图片验证码

先定位到验证码图片,在获取验证码图片在页面中的位置,使用save_screenshot截取页面,再根据图片的位置去截取验证码,最后通过接口识别文字获取验证码,直接上代码:

element = driver.find_element_by_id('imgCode') # 定位验证码图片
# 获取验证码图片在网页中的位置
left = int(element.location['x'])  # 获取图片左上角坐标x
top = int(element.location['y'])  # 获取图片左上角y
right = int(element.location['x'] + element.size['width'])    # 获取图片右下角x
bottom = int(element.location['y'] + element.size['height'])  # 获取图片右下角y

# 通过Image处理图像
path = current_dir + str(random.random()) + '.png'  # 生成随机文件名
driver.save_screenshot(path)    # 截取当前窗口并保存图片
im = Image.open(path)        # 打开图片
im = im.crop((left, top, right, bottom))  # 截图验证码
im.save(path)    # 保存验证码图片

# 使用百度API识别验证码
def get_code():
  client = AipOcr(APP_ID, API_KEY, SECRET_KEY)  # 百度API文档中提供的方法识别文字

  # 由于我处理的验证码图片没有填多的线条,所以直接采用灰度是验证码数字更加清晰,具体的处理方式可根据验证码的实际情况而定
  im = Image.open(path)
  # 转换为灰度图像
  im = im.convert('L')
  im.save(path)

  # 读取图片,应为百度API中提供的方法参数只能是字节流
  with open(path, 'rb')as f:
    image = f.read()
  # 使用API中提供的方法识别验证码并返回验证码
  code = client.basicGeneral(image)

  print(code['words_result'][0]['words']) # {'words_result': [{'words': '4TBiD ', 'location': {'top': 1, 'left': 6, 'width': 43, 'height': 13}}], 'log_id': 1358288307112378368, 'words_result_num': 1}
  return code['words_result'][0]['words']

2、使用requests请求验证码

这里用到了会话机制,对于初学者来说可能不太了解,简单说一下会话机制的作用,会话就是用来保存你之前请求的cookie,让浏览器知道你之前就在这里,这样浏览器就不会认为你重新来到这里,从而刷新验证码,这样就可以带着我们获取的验证码去登录了。

conn = requests.Sessoin(  # 创建会话
resp = conn.get('https://so.gushiwen.cn/user/login.aspx?from=http://so.gushiwen.cn/user/collect.aspx')
selector = Selector(text=resp.text)
img_url = 'https://so.gushiwen.cn/'+selector.xpath('.//img[@id="imgCode"]/@src').get() # 获取图片的路由
img = conn.get(img_url)  # 保持会话请求
filename = str(random.random()) + '.png'
with open(filename, 'wb')as f:
  f.write(img.content)
# 为了后面的调用接口识别不报图片格式错误,进行一次图片转换
im = Image.open(filename)
im.save(filename)
# 使用二进制方式读取图片
with open(filename, 'rb')as f:
image = f.read()
data = client.handwriting(image)  # diao'yong
# 使用API中提供的方法识别验证码并返回验证码
code = client.basicGeneral(image)
code = code['words_result'][0]['words']

selenium源码

# -* coding: utf-8 *-

import time
import random
from PIL import Image
from aip import AipOcr
from selenium.webdriver import Chrome

# 百度API参数
APP_ID = '23647800'
API_KEY = 'n95KOQgVuOMoAP72qZZo7uoN'
SECRET_KEY = '7yhyGglHUsY52DD8kf4w0Qjnxum07hMK'
client = AipOcr(APP_ID, API_KEY, SECRET_KEY) # 调用API接口


def scrapy(username, password):
  """
  :param username:  用户名
  :param password:  密码
  """
  driver = Chrome()
  driver.get('https://so.gushiwen.cn/user/login.aspx')
  driver.find_element_by_id('email').send_keys(username) # 输入账号
  driver.find_element_by_id('pwd').send_keys(password)  # 输入密码

  element = driver.find_element_by_id('imgCode') # 定位验证码图片
  # 获取验证码图片在网页中的位置
  left = int(element.location['x']) # 获取图片左上角坐标x
  top = int(element.location['y']) # 获取图片左上角y
  right = int(element.location['x'] + element.size['width']) # 获取图片右下角x
  bottom = int(element.location['y'] + element.size['height']) # 获取图片右下角y

  # 通过Image处理图像
  filename = str(random.random()) + '.png' # 生成随机文件名
  driver.save_screenshot(filename) # 截取当前窗口并保存图片
  im = Image.open(filename) # 打开图片
  im = im.crop((left, top, right, bottom)) # 截图验证码
  im.save(filename) # 保存验证码图片
  # 由于我处理的验证码图片没有填多的线条,所以直接采用灰度是验证码数字更加清晰,具体的处理方式可根据验证码的实际情况而定
  im = Image.open(filename)
  # 转换为灰度图像
  im = im.convert('L')
  im.save(filename)
  # 读取图片,应为百度API中提供的方法参数只能是字节流
  with open(filename, 'rb')as f:
    image = f.read()
  # 使用API中提供的方法识别验证码并返回验证码
  data = client.basicGeneral(image)
  try:
    code = data['words_result'][0]['words']
  except:
    return data['error_msg']

  driver.find_element_by_id('code').send_keys(code)  # 输入验证码
  driver.find_element_by_id('denglu').click()   # 点击登录
  time.sleep(1000)  # 为了看清登录,等待1000秒


if __name__ == '__main__':
  print(scrapy(username, password)) # 传入你在古诗文网注册的账号密码

requests源码

# -* coding: utf-8 *-
import os
import random
import re
import requests
from PIL import Image
from aip import AipOcr
from scrapy import Selector

headers = {
  'referer': 'https://so.gushiwen.cn/user/login.aspx',
  'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/88.0.4324.146 Safari/537.36'
}

# 百度API参数
APP_ID = '23647800'
API_KEY = 'n95KOQgVuOMoAP72qZZo7uoN'
SECRET_KEY = '7yhyGglHUsY52DD8kf4w0Qjnxum07hMK'

def scrapy(username, password):
  """
  :param username:  用户名
  :param password:  密码
  """
  client = AipOcr(APP_ID, API_KEY, SECRET_KEY) # 调用API接口
  conn = requests.Session() # 创建会话
  resp = conn.get('https://so.gushiwen.cn/user/login.aspx', headers=headers) # 获取登录页面
  selector = Selector(text=resp.text)
  __VIEWSTATE = selector.xpath('.//input[@id="__VIEWSTATE"]/@value').get()
  __VIEWSTATEGENERATOR = selector.xpath('.//input[@id="__VIEWSTATEGENERATOR"]/@value').get()
  img_url = 'https://so.gushiwen.cn/' + selector.xpath('.//img[@id="imgCode"]/@src').get() # 获取图片的路由
  img = conn.get(img_url, headers=headers) # 获取图片路由
  # 保存图片
  filename = str(random.random()) + '.png' # 随机生成文件名, 图片格式不能为jpg,API不支持jpg格式的识别
  with open(filename, 'wb')as f:
    f.write(img.content)
   # 由于我处理的验证码图片没有填多的线条,所以直接采用灰度是验证码数字更加清晰,具体的处理方式可根据验证码的实际情况而定
  im = Image.open(filename)
  # 转换为灰度图像
  im = im.convert('L')
  im.save(filename)
  # 使用二进制方式读取图片
  with open(filename, 'rb')as f:
    image = f.read()
  # # 标准识别, 每天免费50000次
  # data = client.basicGeneral(image)
  # 精确识别,每天免费500次
  data = client.handwriting(image)
  # 捕获一下接口识别当中的错误,可参照文档查看报错原因
  try:
    code = data['words_result'][0]['words']
  except:
    return data['error_msg']
  form_data = {
    '__VIEWSTATE': __VIEWSTATE,
    '__VIEWSTATEGENERATOR': __VIEWSTATEGENERATOR,
    'from': '',
    'email': username,
    'pwd': password,
    'code':cod,
    'denglu': '登录'
  }
  # 登录
  html = conn.post('https://so.gushiwen.cn/user/login.aspx', headers=headers, data=form_data).text
  # 获取登录标志位
  login_flag = re.findall("alert\('(.*?)'\);",html)[0] if re.findall("alert\('(.*?)'\);",html) else ''
  if not login_flag:
    return '登录成功!'
  elif '验证码有误!' in login_flag:
    return "验证码错误"


if __name__ == '__main__':
  print(scrapy(username, password))

以上就是python爬虫如何解决图片验证码的详细内容,更多关于python 解决图片验证码的资料请关注三水点靠木其它相关文章!

Python 相关文章推荐
Python实现的石头剪子布代码分享
Aug 22 Python
python实现搜索本地文件信息写入文件的方法
Feb 22 Python
Python max内置函数详细介绍
Nov 17 Python
Python获取某一天是星期几的方法示例
Jan 17 Python
python解析基于xml格式的日志文件
Feb 25 Python
python中OrderedDict的使用方法详解
May 05 Python
python生成不重复随机数和对list乱序的解决方法
Apr 09 Python
Python使用OpenCV进行标定
May 08 Python
对pandas处理json数据的方法详解
Feb 08 Python
分析经典Python开发工程师面试题
Apr 08 Python
Django 1.10以上版本 url 配置注意事项详解
Aug 05 Python
利用Pycharm + Django搭建一个简单Python Web项目的步骤
Oct 22 Python
Python实现粒子群算法的示例
Feb 14 #Python
Python中对象的比较操作==和is区别详析
Feb 12 #Python
python绘图模块之利用turtle画图
Feb 12 #Python
Python列表的深复制和浅复制示例详解
Feb 12 #Python
Python就将所有的英文单词首字母变成大写
Feb 12 #Python
详解Java中一维、二维数组在内存中的结构
Feb 11 #Python
SpringBoot首页设置解析(推荐)
Feb 11 #Python
You might like
PHP 文件上传功能实现代码
2009/06/24 PHP
php设计模式 Command(命令模式)
2011/06/26 PHP
Zend Framework教程之Zend_Layout布局助手详解
2016/03/04 PHP
调用WordPress函数统计文章访问量及PHP原生计数器的实现
2016/03/21 PHP
PHP设计模式之原型设计模式原理与用法分析
2018/04/25 PHP
htm调用JS代码
2007/03/15 Javascript
走出JavaScript初学困境—js初学
2008/12/29 Javascript
Javascript排序算法之合并排序(归并排序)的2个例子
2014/04/04 Javascript
jQuery模拟实现天猫购物车动画效果实例代码
2017/05/25 jQuery
bootstrap multiselect 多选功能实现方法
2017/06/05 Javascript
JavaScript中的return布尔值的用法和原理解析
2017/08/14 Javascript
Angularjs 根据一个select的值去设置另一个select的值方法
2018/08/13 Javascript
基于jquery实现的tab选项卡功能示例【附源码下载】
2019/06/10 jQuery
vue把输入框的内容添加到页面的实例讲解
2019/11/11 Javascript
创建nuxt.js项目流程图解
2020/03/13 Javascript
JavaScript鼠标悬停事件用法解析
2020/05/15 Javascript
Python中捕捉详细异常信息的代码示例
2014/09/18 Python
Python闭包之返回函数的函数用法示例
2018/01/27 Python
Python Numpy 数组的初始化和基本操作
2018/03/13 Python
python实现简单登陆流程的方法
2018/04/22 Python
浅谈python下tiff图像的读取和保存方法
2018/12/04 Python
Python selenium根据class定位页面元素的方法
2019/02/26 Python
python实现对图片进行旋转,放缩,裁剪的功能
2019/08/07 Python
Python函数调用追踪实现代码
2020/11/27 Python
HTML5 在canvas中绘制矩形附效果图
2014/06/23 HTML / CSS
HTML5实现视频弹幕功能
2019/08/09 HTML / CSS
阿里旅行:飞猪
2017/01/05 全球购物
美国在线面料商店:Online Fabric Store
2018/07/26 全球购物
激励员工的口号
2014/06/16 职场文书
班级活动总结格式
2014/08/30 职场文书
信访稳定工作汇报
2014/10/27 职场文书
2015年高二班主任工作总结
2015/05/25 职场文书
机械生产实习心得体会
2016/01/22 职场文书
CSS 伪元素::marker详解
2021/06/26 HTML / CSS
Win11怎样将锁屏账户头像图片改成动画视频
2021/11/21 数码科技
MySQL 分区表中分区键为什么必须是主键的一部分
2022/03/17 MySQL