如何使用Python的Requests包实现模拟登陆


Posted in Python onApril 27, 2018

前段时间喜欢用python去抓一些页面玩,但都基本上都是用get请求一些页面,再通过正则去过滤。

今天试了一下,模拟登陆个人网站。发现也比较简单。读懂本文需要对http协议和http会话有一定的理解。

注明:因为模拟登陆的是我的个人网站,所以以下代码对个人网站和账号密码做了处理。

网站分析

爬虫的必备第一步,分析目标网站。这里使用谷歌浏览器的开发者者工具分析。

通过登陆抓取,看到这样一个请求。

上方部分为请求头,下面部分为请求是传的参数。由图片可以看出,页面通过表单提交了三个参数。分别为_csrf,usermane,password。

其中csrf是为了预防跨域脚本伪造。原理很简单,就是每一次请求,服务器生成一串加密字符串。放在隐藏的input表单中。再一次请求的时候,把这个字符串一起传过去,为了验证是否为同一个用户的请求。

如何使用Python的Requests包实现模拟登陆

因此,我们的代码逻辑就有了。首先请求一次登录页面。然后分析页面,拿到csrf字符串。最后把这个字符串和账号密码一起传给服务器用来登录。

第一份代码

#!/usr/bin/env python2.7
# -*- coding: utf-8 -*-

import requests
import re

# 头部信息
headers = {
 'Host':"localhost",
 'Accept-Language':"zh-CN,zh;q=0.8",
 'Accept-Encoding':"gzip, deflate",
 'Content-Type':"application/x-www-form-urlencoded",
 'Connection':"keep-alive",
 'Referer':"http://localhost/login",
 'User-Agent':"Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/46.0.2490.86 Safari/537.36"
}

# 登陆方法
def login(url,csrf):
 data = {
 "_csrf" : csrf,
 "username": "xiedj",
 "password": "***"
 }

 response = requests.post(url, data=data, headers=headers)
 return response.content


# 第一次访问获取csrf值
def get_login_web(url):
 page = requests.get('http://localhost/login')
 reg = r'<meta name="csrf-token" content="(.+)">'
 csrf = re.findall(reg,page.content)[0]
 login_page = login(url,csrf)
 print login_page


if __name__ == "__main__":
 url = "http://localhost/login/checklogin"
 get_login_web(url)

代码看起来好像没有什么问题。然而执行的时候出错了。核查了一下,错误的原因是,csrf验证失败!

再多次确认获取的csrf和请求登录的csrf字符串没问题了之后,我想到了一个问题。
如果,大家还不知道错误原因的话,这里可以暂停思考一个问题。“服务器如何知道,第一次请求获取csrf和第二次post登录请求是同一个用户?”

到这,应该都清楚了,如果要登录成功,需要解决如何让服务相信两次请求是同一个用户。这里需要用到http会话(不清楚的可以自行百度,这里简单介绍)。

http协议是一个种无状态的协议。为了使这种无状态变得有状态,因此引进了会话。简单的讲,通过session去记录这个状态。当一个用户第一次请求web服务的时候,服务器会生成一个session,用于保存这个用户的信息。同时,在返回给用户端时,把这个sessionID保存在cookies里。当用户再一次请求的时候,浏览器会把这个cookies带上。因此在服务器端就能知道多次请求是否为同一个用户。

因此我们的代码,需要在第一次请求的时候拿到这个sessionID。第二次请求的时候把这个sessionID一起传过去。而requests厉害的地方就是,一句简单requests.Session(),就能使用这个会话对象。

第二份代码

#!/usr/bin/env python2.7
# -*- coding: utf-8 -*-

import requests
import re

# 头部信息
headers = {
 'Host':"localhost",
 'Accept-Language':"zh-CN,zh;q=0.8",
 'Accept-Encoding':"gzip, deflate",
 'Content-Type':"application/x-www-form-urlencoded",
 'Connection':"keep-alive",
 'Referer':"http://localhost/login",
 'User-Agent':"Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/46.0.2490.86 Safari/537.36"
}

# 登陆方法
def login(url,csrf,r_session):
 data = {
 "_csrf" : csrf,
 "username": "xiedj",
 "password": "***"
 }

 response = r_session.post(url, data=data, headers=headers)
 return response.content


# 第一次访问获取csrf值
def get_login_web(url):
 r_session = requests.Session()
 page = r_session.get('http://localhost/login')
 reg = r'<meta name="csrf-token" content="(.+)">'
 csrf = re.findall(reg,page.content)[0]


 login_page = login(url,csrf,r_session)
 print login_page


if __name__ == "__main__":
 url = "http://localhost/login/checklogin"
 get_login_web(url)

成功获取登陆后的页面

如何使用Python的Requests包实现模拟登陆

由代码可以知道,requests.Session()启动会话对象后,第二次请求会自动把上一次的sessionID一起传过去。

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持三水点靠木。

Python 相关文章推荐
Python中计算三角函数之cos()方法的使用简介
May 15 Python
Python算法应用实战之栈详解
Feb 04 Python
python+matplotlib绘制饼图散点图实例代码
Jan 20 Python
对numpy中数组转置的求解以及向量内积计算方法
Oct 31 Python
Python远程开发环境部署与调试过程图解
Dec 09 Python
Python实现企业微信机器人每天定时发消息实例
Feb 25 Python
python实现简单坦克大战
Mar 27 Python
python+selenium+chrome批量文件下载并自动创建文件夹实例
Apr 27 Python
如何快速一次性卸载所有python包(第三方库)呢
Oct 20 Python
python3 googletrans超时报错问题及翻译工具优化方案 附源码
Dec 23 Python
安装pytorch时报sslerror错误的解决方案
May 17 Python
python之基数排序的实现
Jul 26 Python
Python可变参数*args和**kwargs用法实例小结
Apr 27 #Python
python实现对文件中图片生成带标签的txt文件方法
Apr 27 #Python
python模拟表单提交登录图书馆
Apr 27 #Python
Python 读取指定文件夹下的所有图像方法
Apr 27 #Python
python sys,os,time模块的使用(包括时间格式的各种转换)
Apr 27 #Python
python读取文件名称生成list的方法
Apr 27 #Python
python实现图书馆研习室自动预约功能
Apr 27 #Python
You might like
php图片加中文水印实现代码分享
2012/10/31 PHP
在wamp集成环境下升级php版本(实现方法)
2013/07/01 PHP
PHP大转盘中奖概率算法实例
2014/10/21 PHP
PHP代码维护,重构变困难的4种原因分析
2016/01/25 PHP
Zend Framework入门教程之Zend_Registry组件用法详解
2016/12/09 PHP
Thinkphp5 微信公众号token验证不成功的原因及解决方法
2017/11/12 PHP
关于IE浏览器以及Firefox下的javascript冒泡事件的响应层级
2010/10/14 Javascript
js中页面的重新加载(当前页面/上级页面)及frame或iframe元素引用介绍
2013/01/24 Javascript
模拟电子签章盖章效果的jQuery插件源码
2013/06/24 Javascript
JavaScript中String.prototype用法实例
2015/05/20 Javascript
jQuery实现ctrl+enter(回车)提交表单
2015/10/19 Javascript
使用jQuery实现Web页面换肤功能的要点解析
2016/05/12 Javascript
angular.js+node.js实现下载图片处理详解
2017/03/31 Javascript
React学习笔记之事件处理(二)
2017/07/02 Javascript
layui之select的option叠加问题的解决方法
2018/03/08 Javascript
vue.extend实现alert模态框弹窗组件
2018/04/28 Javascript
JS实现换肤功能的方法实例详解
2019/01/30 Javascript
详解vue的数据劫持以及操作数组的坑
2019/04/18 Javascript
jQuery实现简单聊天室
2020/02/08 jQuery
[19:15]DK战队纪录片
2014/09/02 DOTA
[01:00:22]DOTA2-DPC中国联赛定级赛 LBZS vs Magma BO3第三场 1月10日
2021/03/11 DOTA
Python实现二叉搜索树
2016/02/03 Python
Python编程pygame模块实现移动的小车示例代码
2018/01/03 Python
Python实现模拟登录网易邮箱的方法示例
2018/07/05 Python
Python 时间戳之获取整点凌晨时间戳的操作方法
2020/01/28 Python
python实现打砖块游戏
2020/02/25 Python
python GUI库图形界面开发之PyQt5布局控件QHBoxLayout详细使用方法与实例
2020/03/06 Python
python算的上脚本语言吗
2020/06/22 Python
Python 用__new__方法实现单例的操作
2020/12/11 Python
CSS3实现简易版的刮刮乐效果
2016/09/27 HTML / CSS
AmazeUI 列表的实现示例
2020/08/17 HTML / CSS
美国顶级户外凉鞋品牌:Chacos
2017/03/27 全球购物
关于.NET, HTML的五个问题
2012/08/29 面试题
银行实习人员自我鉴定
2013/09/22 职场文书
药品营销策划方案
2014/06/15 职场文书
2014年污水处理厂工作总结
2014/12/19 职场文书