python爬虫解决验证码的思路及示例


Posted in Python onAugust 01, 2019

如果直接从生成验证码的页面把验证码下载到本地后识别,再构造表单数据发送的话,会有一个验证码同步的问题,即请求了两次验证码,而识别出来的验证码并不是实际需要发送的验证码。有如下几种方法解决。

法1:

用session:

mysession = requests.Session()
login_url = 'http://xxx.com'
checkcode_url='http://yyy.com'
html = mysession.get(login_url,timeout=60*4)
#....balabala解析操作....
checkcode = mysession.get(checkcode_url,timeout=60*4)
with open('checkcode.png','wb') as f:
  f.write(checkcode.content)
 
#接下来balabala对图像操作,可以用python的相关库(识别率低,教务网的验证码都够呛),也可以用云速等第三方验证码识别网站提供的有偿服务(识别度较高)
 
#再接下来构造表单数据balabala

法2:

用cookie:

#绑定cookie
checkcode_url='http://yyy.com'
cookie = cookielib.CookieJar()
handler = urllib2.HTTPCookieProcessor(cookie)
opener = urllib2.build_opener(handler)
 
#先读取验证码的url
picture = opener.open(checkcode_url).read()
 
#balabala图像处理
 
# 生成post数据 
data = urllib.urlencode(postData)
# 构造request请求
request = urllib2.Request(PostUrl, data, headers)
# 利用之前存有cookie的opener登录页面
try:
  response = opener.open(request)
  result = response.read()
except urllib2.HTTPError, e:
  print e.code

法3:

selenium+手动构造cookie: 该方法无需识别验证码,本人尚未尝试。

webdriver 操作 cookie 的方法有:

  • get_cookies() 获得所有 cookie 信息
  • get_cookie(name) 返回特定 name 有 cookie 信息
  • add_cookie(cookie_dict) 添加 cookie,必须有 name 和 value 值
  • delete_cookie(name) 删除特定(部分)的 cookie 信息
  • delete_all_cookies() 删除所有 cookie 信息
....
#第一次访问 xxx 网站
driver.get("http://xxx.com")
#将用户名密码写入浏览器 cookie
driver.add_cookie({'name':'username','value':'username'})
driver.add_cookie({'name':'password','value':'password'})
#再次访问 xxx 网站,将会自动登录
driver.get("http://xxx.com")
time.sleep(5)
....
driver.quit()

这种方法难点在于确定该网站是用cookie中的什么key值来表示“用户名”和“密码”的。而且好像有些cookie是加密过的。可以先用get_cookies()进行观察。

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持三水点靠木。

Python 相关文章推荐
python里将list中元素依次向前移动一位
Sep 12 Python
Eclipse中Python开发环境搭建简单教程
Mar 23 Python
python bottle框架支持jquery ajax的RESTful风格的PUT和DELETE方法
May 24 Python
Python3安装Scrapy的方法步骤
Nov 23 Python
Flask实现跨域请求的处理方法
Sep 27 Python
python字符串切割:str.split()与re.split()的对比分析
Jul 16 Python
python 批量修改 labelImg 生成的xml文件的方法
Sep 09 Python
python实现的Iou与Giou代码
Jan 18 Python
浅谈Python中threading join和setDaemon用法及区别说明
May 02 Python
Python 通过监听端口实现唯一脚本运行方式
May 05 Python
解决Django transaction进行事务管理踩过的坑
Apr 24 Python
用python修改excel表某一列内容的操作方法
Jun 11 Python
Django多数据库的实现过程详解
Aug 01 #Python
Python解决pip install时出现的Could not fetch URL问题
Aug 01 #Python
numpy.meshgrid()理解(小结)
Aug 01 #Python
Python-接口开发入门解析
Aug 01 #Python
Python列表(list)所有元素的同一操作解析
Aug 01 #Python
详解numpy.meshgrid()方法使用
Aug 01 #Python
解决安装python3.7.4报错Can''t connect to HTTPS URL because the SSL module is not available
Jul 31 #Python
You might like
十天学会php之第五天
2006/10/09 PHP
如何实现给定日期的若干天以后的日期
2006/10/09 PHP
apache配置虚拟主机的方法详解
2013/06/17 PHP
ThinkPHP中自定义目录结构的设置方法
2014/08/15 PHP
thinkPHP自动验证、自动添加及表单错误问题分析
2016/10/17 PHP
作为PHP程序员你要知道的另外一种日志
2018/07/30 PHP
PHP检查URL包含特定字符串实例方法
2019/02/11 PHP
PHP实现简单登录界面
2019/10/23 PHP
PHP code 验证码生成类定义和简单使用示例
2020/05/27 PHP
深入分析PHP设计模式
2020/06/15 PHP
用JQuery在网页中实现分隔条功能的代码
2012/08/09 Javascript
jquery控制display属性为none或block
2014/03/31 Javascript
7个去伪存真的JavaScript面试题
2016/01/07 Javascript
js自定义select下拉框美化特效
2016/05/12 Javascript
JS实现鼠标移上去显示图片或微信二维码
2016/12/14 Javascript
jquery Ajax 全局调用封装实例详解
2017/01/16 Javascript
Angularjs自定义指令Directive详解
2017/05/27 Javascript
基于VuePress 轻量级静态网站生成器的实现方法
2018/04/17 Javascript
jQuery的Ajax接收java返回数据方法
2018/08/11 jQuery
解决webpack+Vue引入iView找不到字体文件的问题
2018/09/28 Javascript
微信小程序 弹窗输入组件的实现解析
2019/08/12 Javascript
js实现批量删除功能
2020/08/27 Javascript
[44:37]完美世界DOTA2联赛PWL S3 Forest vs access 第一场 12.11
2020/12/13 DOTA
深入解析Python中的集合类型操作符
2015/08/19 Python
Python实现Dijkstra算法
2018/10/17 Python
python zip,lambda,map函数代码实例
2020/04/04 Python
关于tensorflow softmax函数用法解析
2020/06/30 Python
劳力士官方珠宝商:J.R. Dunn Jewelers
2018/09/29 全球购物
小学生美德少年事迹
2014/02/02 职场文书
思想品德课教学反思
2014/02/10 职场文书
优秀班主任材料
2014/12/16 职场文书
追悼会答谢词范文
2015/09/29 职场文书
Go Gin实现文件上传下载的示例代码
2021/04/02 Golang
Python提取PDF指定内容并生成新文件
2021/06/09 Python
MySQL Shell import_table数据导入的实现
2021/08/07 MySQL
Tomcat配置访问日志和线程数
2022/05/06 Servers