python爬虫解决验证码的思路及示例


Posted in Python onAugust 01, 2019

如果直接从生成验证码的页面把验证码下载到本地后识别,再构造表单数据发送的话,会有一个验证码同步的问题,即请求了两次验证码,而识别出来的验证码并不是实际需要发送的验证码。有如下几种方法解决。

法1:

用session:

mysession = requests.Session()
login_url = 'http://xxx.com'
checkcode_url='http://yyy.com'
html = mysession.get(login_url,timeout=60*4)
#....balabala解析操作....
checkcode = mysession.get(checkcode_url,timeout=60*4)
with open('checkcode.png','wb') as f:
  f.write(checkcode.content)
 
#接下来balabala对图像操作,可以用python的相关库(识别率低,教务网的验证码都够呛),也可以用云速等第三方验证码识别网站提供的有偿服务(识别度较高)
 
#再接下来构造表单数据balabala

法2:

用cookie:

#绑定cookie
checkcode_url='http://yyy.com'
cookie = cookielib.CookieJar()
handler = urllib2.HTTPCookieProcessor(cookie)
opener = urllib2.build_opener(handler)
 
#先读取验证码的url
picture = opener.open(checkcode_url).read()
 
#balabala图像处理
 
# 生成post数据 
data = urllib.urlencode(postData)
# 构造request请求
request = urllib2.Request(PostUrl, data, headers)
# 利用之前存有cookie的opener登录页面
try:
  response = opener.open(request)
  result = response.read()
except urllib2.HTTPError, e:
  print e.code

法3:

selenium+手动构造cookie: 该方法无需识别验证码,本人尚未尝试。

webdriver 操作 cookie 的方法有:

  • get_cookies() 获得所有 cookie 信息
  • get_cookie(name) 返回特定 name 有 cookie 信息
  • add_cookie(cookie_dict) 添加 cookie,必须有 name 和 value 值
  • delete_cookie(name) 删除特定(部分)的 cookie 信息
  • delete_all_cookies() 删除所有 cookie 信息
....
#第一次访问 xxx 网站
driver.get("http://xxx.com")
#将用户名密码写入浏览器 cookie
driver.add_cookie({'name':'username','value':'username'})
driver.add_cookie({'name':'password','value':'password'})
#再次访问 xxx 网站,将会自动登录
driver.get("http://xxx.com")
time.sleep(5)
....
driver.quit()

这种方法难点在于确定该网站是用cookie中的什么key值来表示“用户名”和“密码”的。而且好像有些cookie是加密过的。可以先用get_cookies()进行观察。

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持三水点靠木。

Python 相关文章推荐
Python3读取zip文件信息的方法
May 22 Python
python实现杨辉三角思路
Jul 14 Python
速记Python布尔值
Nov 09 Python
关于python写入文件自动换行的问题
Jun 23 Python
python批量修改图片后缀的方法(png到jpg)
Oct 25 Python
python统计中文字符数量的两种方法
Jan 31 Python
Python实现的旋转数组功能算法示例
Feb 23 Python
Python Django的安装配置教程图文详解
Jul 17 Python
Python3 requests文件下载 期间显示文件信息和下载进度代码实例
Aug 16 Python
构建高效的python requests长连接池详解
May 02 Python
python中id函数运行方式
Jul 03 Python
Python 实现3种回归模型(Linear Regression,Lasso,Ridge)的示例
Oct 15 Python
Django多数据库的实现过程详解
Aug 01 #Python
Python解决pip install时出现的Could not fetch URL问题
Aug 01 #Python
numpy.meshgrid()理解(小结)
Aug 01 #Python
Python-接口开发入门解析
Aug 01 #Python
Python列表(list)所有元素的同一操作解析
Aug 01 #Python
详解numpy.meshgrid()方法使用
Aug 01 #Python
解决安装python3.7.4报错Can''t connect to HTTPS URL because the SSL module is not available
Jul 31 #Python
You might like
透析PHP的配置文件php.ini
2006/10/09 PHP
PHP 最大运行时间 max_execution_time修改方法
2010/03/08 PHP
php disk_free_space 返回目录可用空间
2010/05/10 PHP
php中return的用法实例分析
2015/02/28 PHP
PHP文件打开关闭及读写操作示例解析
2020/08/06 PHP
JavaScript小技巧 2.5 则
2010/09/12 Javascript
JS判断元素为数字的奇异写法分享
2012/08/01 Javascript
使用PBFunc在Powerbuilder中支付宝当面付款功能
2016/10/01 Javascript
vue2.0数据双向绑定与表单bootstrap+vue组件
2017/02/27 Javascript
web.js.字符串与正则表达式操作
2017/05/13 Javascript
浅谈Node.js CVE-2017-14849 漏洞分析(详细步骤)
2017/11/10 Javascript
JS点击动态添加标签、删除指定标签的代码
2018/04/18 Javascript
微信小程序自定义select下拉选项框组件的实现代码
2018/08/28 Javascript
详解Nuxt.js 实战集锦
2019/11/19 Javascript
js实现简单的秒表
2020/01/16 Javascript
js 计算月/周的第一天和最后一天代码
2020/02/01 Javascript
使用jquery实现轮播图效果
2021/01/02 jQuery
python通过floor函数舍弃小数位的方法
2015/03/17 Python
Python实现定时任务
2017/02/08 Python
python的re正则表达式实例代码
2018/01/24 Python
pytorch程序异常后删除占用的显存操作
2020/01/13 Python
Python ADF 单位根检验 如何查看结果的实现
2020/06/03 Python
html5 Canvas画图教程(8)—canvas里画曲线之bezierCurveTo方法
2013/01/09 HTML / CSS
基于canvas的骨骼动画的示例代码
2018/06/12 HTML / CSS
前端水印的简单实现代码示例
2020/12/02 HTML / CSS
Hertz荷兰:荷兰和全球租车
2018/01/07 全球购物
Beach Bunny Swimwear官网:设计师泳装和性感比基尼
2019/03/13 全球购物
2019年分享net面试的经历和题目
2016/08/07 面试题
大学生职业生涯规划书模版
2013/12/30 职场文书
社区志愿者心得体会
2014/01/03 职场文书
外贸业务员工作职责
2014/01/06 职场文书
《从现在开始》教学反思
2014/04/15 职场文书
放飞梦想演讲稿600字
2014/08/26 职场文书
支行行长竞聘报告
2014/11/06 职场文书
个园导游词
2015/02/04 职场文书
Python3接口性能测试实例代码
2021/06/20 Python