Python爬虫通过替换http request header来欺骗浏览器实现登录功能


Posted in Python onJanuary 07, 2018

以豆瓣为例,访问https://www.douban.com/contacts/list 来查看自己关注的人,要登录才能查看。

如果用requests.get()方法获取这个http,没登录只能抓取回一个登录界面,所以我们要用Python登录网站才能抓取想要的网页。

一个简便的方法就是自己在浏览器上登录好,然后通过下图方法(Chrome为例),找到自己的Cookie和User-Agent,然后发送request时用这复制来的header替换掉待发送的request以达到登录的目的,server端会凭这个认为你是已经登录的用户。

Python爬虫通过替换http request header来欺骗浏览器实现登录功能

代码如下:

import requests
headers = {
 'User-Agent':'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_12_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.108 Safari/537.36',
 'Cookie':'gr_user_id=1f9ea7ea-462a-4a6f-9d55-156631fc6d45; bid=vPYpmmD30-k; ll="118282"; ue="codin; __utmz=30149280.1499577720.27.14.utmcsr=douban.com|utmccn=(referral)|utmcmd=referral|utmcct=/doulist/240962/; __utmv=30149280.3049; _vwo_uuid_v2=F04099A9dd; viewed="27607246_26356432"; ap=1; ps=y; push_noty_num=0; push_doumail_num=0; dbcl2="30496987:gZxPfTZW4y0"; ck=13ey; _pk_ref.100001.8cb4=%5B%22%22%2C%22%22%2C1515153574%2C%22https%3A%2F%2Fbook.douban.com%2Fmine%22%5D; __utma=30149280.833870293.1473539740.1514800523.1515153574.50; __utmc=30149280; _pk_id.100001.8cb4=255d8377ad92c57e.1473520329.20.1515153606.1514628010.'
} #替换成自己的cookie
r = requests.get('https://www.douban.com/contacts/list', headers = headers)
print(r.text)

总结

以上所述是小编个大家介绍的Python爬虫通过替换http request header来欺骗浏览器实现登录 ,希望对大家有所帮助,如果大家有任何疑问欢迎给我留言,小编会及时回复大家的!

Python 相关文章推荐
列举Python中吸引人的一些特性
Apr 09 Python
Python 私有函数的实例详解
Sep 11 Python
django中的setting最佳配置小结
Nov 21 Python
TensorFlow实现iris数据集线性回归
Sep 07 Python
Pycharm无法使用已经安装Selenium的解决方法
Oct 13 Python
python实现将多个文件分配到多个文件夹的方法
Jan 07 Python
python如何制作缩略图
Apr 30 Python
python 回溯法模板详解
Feb 26 Python
学习python需要有编程基础吗
Jun 02 Python
通过Python实现Payload分离免杀过程详解
Jul 13 Python
Python-OpenCV实现图像缺陷检测的实例
Jun 11 Python
python中的装饰器该如何使用
Jun 18 Python
ubuntu环境下python虚拟环境的安装过程
Jan 07 #Python
详解Python核心编程中的浅拷贝与深拷贝
Jan 07 #Python
用python实现的线程池实例代码
Jan 06 #Python
pip matplotlib报错equired packages can not be built解决
Jan 06 #Python
Python实现的朴素贝叶斯分类器示例
Jan 06 #Python
Python使用matplotlib绘制正弦和余弦曲线的方法示例
Jan 06 #Python
Python爬虫中urllib库的进阶学习
Jan 05 #Python
You might like
Session保存到数据库的php类分享
2011/10/24 PHP
浅谈PHP正则表达式中修饰符/i, /is, /s, /isU
2014/10/21 PHP
PHP中实现crontab代码分享
2015/03/26 PHP
如何把php5.3版本升级到php5.4或者php5.5
2015/07/31 PHP
thinkphp修改配置进入默认首页的方法
2017/02/07 PHP
PHP开发的微信现金红包功能示例
2017/06/29 PHP
js技巧--转义符"\"的妙用
2007/01/09 Javascript
javascript实现文字图片上下滚动的具体实例
2013/06/28 Javascript
基于jquery扩展漂亮的下拉框可以二次修改
2013/11/19 Javascript
setTimeout自动触发一个js的方法
2014/01/15 Javascript
Jquery响应回车键直接提交表单操作代码
2014/07/25 Javascript
jQuery对象的length属性用法实例
2014/12/27 Javascript
JavaScript iframe数据共享接口实现方法
2016/01/06 Javascript
基于BootStrap Metronic开发框架经验小结【三】下拉列表Select2插件的使用
2016/05/12 Javascript
深入学习Bootstrap表单
2016/12/13 Javascript
Vue 2.0中生命周期与钩子函数的一些理解
2017/05/09 Javascript
bootstrap switch开关组件使用方法详解
2017/08/22 Javascript
Vue+Vux项目实践完整代码
2017/11/30 Javascript
[00:35]TI7不朽珍藏III——寒冰飞龙不朽展示
2017/07/15 DOTA
python文件操作相关知识点总结整理
2016/02/22 Python
简单实现Python爬取网络图片
2018/04/01 Python
Pandas:DataFrame对象的基础操作方法
2018/06/07 Python
将python图片转为二进制文本的实例
2019/01/24 Python
Django保护敏感信息的方法示例
2019/05/09 Python
postman模拟访问具有Session的post请求方法
2019/07/15 Python
如何使用Python破解ZIP或RAR压缩文件密码
2020/01/09 Python
pycharm 设置项目的根目录教程
2020/02/12 Python
基于python requests selenium爬取excel vba过程解析
2020/08/12 Python
企业管理专业个人求职信范文
2013/09/24 职场文书
自荐书格式
2013/12/01 职场文书
一份报关员的职业规划范文
2014/01/08 职场文书
致长跑运动员广播稿
2014/01/31 职场文书
数学兴趣小组活动总结
2014/07/08 职场文书
加班费申请报告
2015/05/15 职场文书
廉洁自律心得体会2016
2016/01/13 职场文书
JavaScript的Set数据结构详解
2022/02/18 Javascript