python爬虫之自动登录与验证码识别


Posted in Python onJune 15, 2020

在用爬虫爬取网站数据时,有些站点的一些关键数据的获取需要使用账号登录,这里可以使用requests发送登录请求,并用Session对象来自动处理相关Cookie。

另外在登录时,有些网站有时会要求输入验证码,比较简单的验证码可以直接用pytesser来识别,复杂的验证码可以依据相应的特征自己采集数据训练分类器。

以CSDN网站的登录为例,这里用Python的requests库与pytesser库写了一个登录函数。如果需要输入验证码,函数会首先下载验证码到本地,然后用pytesser识别验证码后登录,对于CSDN登录验证码,pytesser的识别率很高。

其中的pytesser的下载地址为: pytesser下载

具体代码如下:

#coding:utf-8
import sys
import time
import urllib
import shutil
import pytesser
import requests

from lxml import etree

config = {'gid': 1}

def parse(s, html, idx):
 result = {}

 tree = etree.HTML(html)
 try:
 result['lt'] = tree.xpath('//input[@name="lt"]/@value')[0]
 result['execution'] = tree.xpath('//input[@name="execution"]/@value')[0]
 result['path'] = tree.xpath('//form[@id="fm1"]/@action')[0]
 except IndexError, e:
 return None

 valimg = None
 valimgs = tree.xpath('//img[@id="yanzheng"]/@src')
 if len(valimgs) > 0:
 valimg = valimgs[0]

 validateCode = None
 if valimg:
 fname = 'img/' + str(idx) + '_' + str(config['gid']) + '.jpg'
 config['gid'] = config['gid'] + 1
 ri = s.get("https://passport.csdn.net" + valimg)
 with open(fname, 'wb') as f:
  for chk in ri:
  f.write(chk)
  f.close()
 validateCode = pytesser.image_file_to_string(fname)
 validateCode = validateCode.strip()
 validateCode = validateCode.replace(' ', '')
 validateCode = validateCode.replace('\n', '')
 result['validateCode'] = validateCode

 return result

def login(usr, pwd, idx):
 s = requests.Session()

 r = s.get('https://passport.csdn.net/account/login',
 headers={'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64; rv:41.0) Gecko/20100101 Firefox/41.0', 'Host': 'passport.csdn.net', })

 while True:
 res = parse(s, r.text, idx)
 if res == None:
  return False
 url = 'https://passport.csdn.net' + res['path']
 form = {'username': usr, 'password':pwd, '_eventId':'submit', 'execution':res['execution'], 'lt':res['lt'],}
 if res.has_key('validateCode'):
  form['validateCode'] = res['validateCode']
 s.headers.update({
  'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64; rv:41.0) Gecko/20100101 Firefox/41.0',
  'Accept-Language': 'zh-CN,zh;q=0.8,en-US;q=0.6,en;q=0.4',
  'Content-Type': 'application/x-www-form-urlencoded',
  'Host': 'passport.csdn.net',
  'Origin': 'https://passport.csdn.net',
  'Referer': 'https://passport.csdn.net/account/login',
  'Upgrade-Insecure-Requests': 1,
  })
 r = s.post(url, data=form)

 tree = etree.HTML(r.text)
 err_strs = tree.xpath('//span[@id="error-message"]/text()')
 if len(err_strs) == 0:
  return True
 err_str = err_strs[0]
 print err_str
 err = err_str.encode('utf8')

 validate_code_err = '验证码错误'
 usr_pass_err = '帐户名或登录密码不正确,请重新输入'
 try_later_err = '登录失败连续超过5次,请10分钟后再试'

 if err[:5] == validate_code_err[:5]:
  pass
 elif err[:5] == usr_pass_err[:5]:
  return False
 elif err[:5] == try_later_err[:5]:
  return False
 else:
  return True

if __name__ == '__main__':
 main(sys.argv[1], sys.argv[2], 0)

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持三水点靠木。

Python 相关文章推荐
Python使用Flask框架获取当前查询参数的方法
Mar 21 Python
python-opencv在有噪音的情况下提取图像的轮廓实例
Aug 30 Python
微信跳一跳小游戏python脚本
Jan 05 Python
Python实现删除时保留特定文件夹和文件的示例
Apr 27 Python
pycharm下查看python的变量类型和变量内容的方法
Jun 26 Python
numpy matrix和array的乘和加实例
Jun 28 Python
python操作excel文件并输出txt文件的实例
Jul 10 Python
利用django-suit模板添加自定义的菜单、页面及设置访问权限
Jul 13 Python
Python图像处理库PIL中图像格式转换的实现
Feb 26 Python
opencv 图像轮廓的实现示例
Jul 08 Python
python实现ping命令小程序
Dec 28 Python
asyncio异步编程之Task对象详解
Mar 13 Python
python使用matplotlib模块绘制多条折线图、散点图
Apr 26 #Python
python绘制多个曲线的折线图
Mar 23 #Python
python使用Matplotlib绘制分段函数
Sep 25 #Python
python使用Matplotlib画饼图
Sep 25 #Python
python使用Matplotlib画条形图
Mar 25 #Python
python使用matplotlib画饼状图
Sep 25 #Python
符合语言习惯的 Python 优雅编程技巧【推荐】
Sep 25 #Python
You might like
PHP date函数参数详解
2006/11/27 PHP
怎样给PHP源代码加密?PHP二进制加密与解密的解决办法
2013/04/22 PHP
php无限分类使用concat如何实现
2015/11/05 PHP
PHP实现简易blog的制作
2016/10/24 PHP
[原创]提供复制本站内容时出现,该文章转自脚本之家等字样的js代码
2007/03/27 Javascript
JavaScript访问样式表代码
2010/10/15 Javascript
探讨在JQuery和Js中,如何让ajax执行完后再继续往下执行
2013/07/09 Javascript
微信小程序 Page()函数详解
2016/10/17 Javascript
详解jQuery事件
2017/01/13 Javascript
Bootstrap模态框使用详解
2017/02/15 Javascript
js前端导出Excel的方法
2017/11/01 Javascript
JavaScript设计模式之代理模式简单实例教程
2018/07/03 Javascript
深入理解Antd-Select组件的用法
2020/02/25 Javascript
Vue如何实现监听组件原生事件
2020/07/03 Javascript
[00:36]我的中国心——Serenity vs Fnatic
2018/08/21 DOTA
树莓派中python获取GY-85九轴模块信息示例
2013/12/05 Python
Python UnicodeEncodeError: 'gbk' codec can't encode character 解决方法
2015/04/24 Python
Python callable()函数用法实例分析
2018/03/17 Python
用Python下载一个网页保存为本地的HTML文件实例
2018/05/21 Python
python 多个参数不为空校验方法
2019/02/14 Python
Django框架会话技术实例分析【Cookie与Session】
2019/05/24 Python
Python求平面内点到直线距离的实现
2020/01/19 Python
找Python安装目录,设置环境路径以及在命令行运行python脚本实例
2020/03/09 Python
Jupyter Notebook 实现正常显示中文和负号
2020/04/24 Python
前端H5 Video常见使用场景简介
2020/08/21 HTML / CSS
应届生财务管理求职信
2013/11/06 职场文书
银行存款证明样本
2014/01/17 职场文书
小学开学寄语
2014/01/19 职场文书
大学教师师德师风演讲稿
2014/08/22 职场文书
五心教育心得体会
2014/09/04 职场文书
村当支部个人对照检查材料思想汇报
2014/10/06 职场文书
2014年煤矿安全工作总结
2014/12/04 职场文书
食堂卫生管理制度
2015/08/04 职场文书
2016年寒假社会实践活动心得体会
2015/10/09 职场文书
2016年第104个国际护士节活动总结
2016/04/06 职场文书
mybatis 解决从列名到属性名的自动映射失败问题
2021/06/30 Java/Android