python爬虫解决验证码的思路及示例


Posted in Python onAugust 01, 2019

如果直接从生成验证码的页面把验证码下载到本地后识别,再构造表单数据发送的话,会有一个验证码同步的问题,即请求了两次验证码,而识别出来的验证码并不是实际需要发送的验证码。有如下几种方法解决。

法1:

用session:

mysession = requests.Session()
login_url = 'http://xxx.com'
checkcode_url='http://yyy.com'
html = mysession.get(login_url,timeout=60*4)
#....balabala解析操作....
checkcode = mysession.get(checkcode_url,timeout=60*4)
with open('checkcode.png','wb') as f:
  f.write(checkcode.content)
 
#接下来balabala对图像操作,可以用python的相关库(识别率低,教务网的验证码都够呛),也可以用云速等第三方验证码识别网站提供的有偿服务(识别度较高)
 
#再接下来构造表单数据balabala

法2:

用cookie:

#绑定cookie
checkcode_url='http://yyy.com'
cookie = cookielib.CookieJar()
handler = urllib2.HTTPCookieProcessor(cookie)
opener = urllib2.build_opener(handler)
 
#先读取验证码的url
picture = opener.open(checkcode_url).read()
 
#balabala图像处理
 
# 生成post数据 
data = urllib.urlencode(postData)
# 构造request请求
request = urllib2.Request(PostUrl, data, headers)
# 利用之前存有cookie的opener登录页面
try:
  response = opener.open(request)
  result = response.read()
except urllib2.HTTPError, e:
  print e.code

法3:

selenium+手动构造cookie: 该方法无需识别验证码,本人尚未尝试。

webdriver 操作 cookie 的方法有:

  • get_cookies() 获得所有 cookie 信息
  • get_cookie(name) 返回特定 name 有 cookie 信息
  • add_cookie(cookie_dict) 添加 cookie,必须有 name 和 value 值
  • delete_cookie(name) 删除特定(部分)的 cookie 信息
  • delete_all_cookies() 删除所有 cookie 信息
....
#第一次访问 xxx 网站
driver.get("http://xxx.com")
#将用户名密码写入浏览器 cookie
driver.add_cookie({'name':'username','value':'username'})
driver.add_cookie({'name':'password','value':'password'})
#再次访问 xxx 网站,将会自动登录
driver.get("http://xxx.com")
time.sleep(5)
....
driver.quit()

这种方法难点在于确定该网站是用cookie中的什么key值来表示“用户名”和“密码”的。而且好像有些cookie是加密过的。可以先用get_cookies()进行观察。

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持三水点靠木。

Python 相关文章推荐
python使用递归解决全排列数字示例
Feb 11 Python
Python环境变量设置方法
Aug 28 Python
python自动发邮件库yagmail的示例代码
Feb 23 Python
Python2.7.10以上pip更新及其他包的安装教程
Jun 12 Python
pyQt4实现俄罗斯方块游戏
Jun 26 Python
python 数字类型和字符串类型的相互转换实例
Jul 17 Python
Python爬虫——爬取豆瓣电影Top250代码实例
Apr 17 Python
Python使用type关键字创建类步骤详解
Jul 23 Python
python cv2读取rtsp实时码流按时生成连续视频文件方式
Dec 25 Python
Python3 assert断言实现原理解析
Mar 02 Python
使用django自带的user做外键的方法
Nov 30 Python
python编程的核心知识点总结
Feb 08 Python
Django多数据库的实现过程详解
Aug 01 #Python
Python解决pip install时出现的Could not fetch URL问题
Aug 01 #Python
numpy.meshgrid()理解(小结)
Aug 01 #Python
Python-接口开发入门解析
Aug 01 #Python
Python列表(list)所有元素的同一操作解析
Aug 01 #Python
详解numpy.meshgrid()方法使用
Aug 01 #Python
解决安装python3.7.4报错Can''t connect to HTTPS URL because the SSL module is not available
Jul 31 #Python
You might like
smarty内置函数config_load用法实例
2015/01/22 PHP
phpMyAdmin通过密码漏洞留后门文件
2018/11/20 PHP
PHP正则表达式处理函数(PCRE 函数)实例小结
2019/05/09 PHP
用js得到网页中所有的div的id
2020/10/19 Javascript
P3P Header解决Cookie跨域的问题
2013/03/12 Javascript
jquery实现图片灯箱明暗的遮罩效果
2013/11/15 Javascript
javascript省市区三级联动下拉框菜单实例演示
2015/11/29 Javascript
不用一句js代码初始化组件
2016/01/27 Javascript
微信小程序开发实战教程之手势解锁
2016/11/18 Javascript
详解JavaScript中js对象与JSON格式字符串的相互转换
2017/02/14 Javascript
详解win7 cmd执行vue不是内部命令的解决方法
2017/07/27 Javascript
Angular在模板驱动表单中自定义校验器的方法
2017/08/09 Javascript
vue基于mint-ui实现城市选择三级联动
2020/06/30 Javascript
Vue实现类似Spring官网图片滑动效果方法
2019/03/01 Javascript
vue2.x 通过后端接口代理,获取qq音乐api的数据示例
2019/10/30 Javascript
2分钟实现一个Vue实时直播系统的示例代码
2020/06/05 Javascript
Vue中ref和$refs的介绍以及使用方法示例
2021/01/11 Vue.js
[48:21]Mski vs VGJ.S Supermajor小组赛C组 BO3 第一场 6.3
2018/06/04 DOTA
[52:20]VP vs VG Supermajor小组赛 B组胜者组决赛 BO3 第一场 6.2
2018/06/03 DOTA
Python中用于检查英文字母大写的isupper()方法
2015/05/19 Python
Python中在脚本中引用其他文件函数的实现方法
2016/06/23 Python
Python解析json之ValueError: Expecting property name enclosed in double quotes: line 1 column 2(char 1)
2017/07/06 Python
人生苦短我用python python如何快速入门?
2018/03/12 Python
python调用摄像头显示图像的实例
2018/08/03 Python
python中metaclass原理与用法详解
2019/06/25 Python
Pytorch训练过程出现nan的解决方式
2020/01/02 Python
python求解汉诺塔游戏
2020/07/09 Python
小蚁科技官方商店:YI Technology
2019/08/23 全球购物
校长岗位职责
2013/11/26 职场文书
财务会计人员求职的自我评价
2014/01/13 职场文书
学生干部的自我评价分享
2014/01/18 职场文书
护理专业优质毕业生自荐书
2014/01/31 职场文书
歌咏比赛口号大全
2015/12/25 职场文书
导游词之黄帝陵景区
2019/09/16 职场文书
测量JavaScript函数的性能各种方式对比
2021/04/27 Javascript
微前端qiankun改造日渐庞大的项目教程
2022/06/21 Javascript