Python爬虫使用浏览器cookies:browsercookie过程解析


Posted in Python onOctober 22, 2019

很多用Python的人可能都写过网络爬虫,自动化获取网络数据确实是一件令人愉悦的事情,而Python很好的帮助我们达到这种愉悦。然而,爬虫经常要碰到各种登录、验证的阻挠,让人灰心丧气(网站:天天碰到各种各样的爬虫抓我们网站,也很让人灰心丧气~)。爬虫和反爬虫就是一个猫和老鼠的游戏,道高一尺魔高一丈,两者反复纠缠。

由于http协议的无状态性,登录验证都是通过传递cookies来实现的。通过浏览器登录一次,登录信息的cookie是就会被浏览器保存下来。下次再打开该网站时,浏览器自动带上保存的cookies,只有cookies还未过期,对于网站来说你就还是登录状态的。

browsercookie模块就是这样一个从浏览器提取保存的cookies的工具。它是一个很有用的爬虫工具,通过加载你浏览器的cookies到一个cookiejar对象里面,让你轻松下载需要登录的网页内容。

安装

pip install browsercookie

在Windows系统中,内置的sqlite模块在加载FireFox数据库时会抛出错误。需要更新sqlite的版本:

pip install pysqlite

使用方法

下面是从网页提取标题的例子:

>>> import re
>>> get_title = lambda html: re.findall('<title>(.*?)</title>', html, flags=re.DOTALL)[0].strip()

下面是未登录状况下下载得到的标题:

>>> import urllib2
>>> url = 'https://bitbucket.org/'
>>> public_html = urllib2.urlopen(url).read()
>>> get_title(public_html)
'Git and Mercurial code management for teams'

接下来使用browsercookie从登录过Bitbucket的FireFox里面获取cookie再下载:

>>> import browsercookie
>>> cj = browsercookie.firefox()
>>> opener = urllib2.build_opener(urllib2.HTTPCookieProcessor(cj))
>>> login_html = opener.open(url).read()
>>> get_title(login_html)
'richardpenman / home — Bitbucket'

上面是Python2的代码,再试试 Python3:

>>> import urllib.request
>>> public_html = urllib.request.urlopen(url).read()
>>> opener = urllib.request.build_opener(urllib.request.HTTPCookieProcessor(cj))

你可以看到你的用户名出现在title里面了,说明browsercookie模块成功从FireFox加载了cookies。小编整理一套Python资料和PDF,有需要Python学习资料可以加学习群:631441315 ,反正闲着也是闲着呢,不如学点东西啦~~

下面是使用requests的例子,这次我们从Chrome里面加载cookies,当然你需要事先用Chrome登录Bitbucket:

>>> import requests
>>> cj = browsercookie.chrome()
>>> r = requests.get(url, cookies=cj)
>>> get_title(r.content)
'richardpenman / home — Bitbucket'

如果你不知道或不关心那个浏览器有你需要的cookies,你可以这样操作:

>>> cj = browsercookie.load()
>>> r = requests.get(url, cookies=cj)
>>> get_title(r.content)
'richardpenman / home — Bitbucket'

支持

目前,该模块支持以下平台:

Chrome: Linux, OSX, Windows

Firefox: Linux, OSX, Windows

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持三水点靠木。

Python 相关文章推荐
python共享引用(多个变量引用)示例代码
Dec 04 Python
朴素贝叶斯算法的python实现方法
Nov 18 Python
Python常用模块介绍
Nov 21 Python
基于python的Tkinter编写登陆注册界面
Jun 30 Python
Python 基础教程之str和repr的详解
Aug 20 Python
python:print格式化输出到文件的实例
May 14 Python
Python中使用双下划线防止类属性被覆盖问题
Jun 27 Python
如何用OpenCV -python3实现视频物体追踪
Dec 04 Python
Pytorch GPU显存充足却显示out of memory的解决方式
Jan 13 Python
python GUI库图形界面开发之PyQt5菜单栏控件QMenuBar的详细使用方法与实例
Feb 28 Python
python爬取网页版QQ空间,生成各类图表
Jun 02 Python
Python可视化学习之seaborn绘制矩阵图详解
Feb 24 Python
Python异常模块traceback用法实例分析
Oct 22 #Python
Python多线程爬取豆瓣影评API接口
Oct 22 #Python
Python Process多进程实现过程
Oct 22 #Python
详解python中eval函数的作用
Oct 22 #Python
FFT快速傅里叶变换的python实现过程解析
Oct 21 #Python
python 采用paramiko 远程执行命令及报错解决
Oct 21 #Python
python文件读写代码实例
Oct 21 #Python
You might like
PHP5 安装方法
2007/01/15 PHP
php 设计模式之 单例模式
2008/12/19 PHP
PHP中最容易忘记的一些知识点总结
2013/04/28 PHP
PHP 数组遍历foreach语法结构及实例
2016/06/13 PHP
php基于websocket搭建简易聊天室实践
2016/10/24 PHP
广告切换效果(缓动切换)
2009/05/27 Javascript
ASP.NET中基于JQUERY的高性能的TreeView补充
2011/02/23 Javascript
js实现在页面上弹出蒙板技巧简单实用
2013/04/16 Javascript
jquery如何把数组变为字符串传到服务端并处理
2014/04/30 Javascript
浅析js预加载/延迟加载
2014/09/25 Javascript
JavaScript中的splice()方法使用详解
2015/06/09 Javascript
不用一句js代码初始化组件
2016/01/27 Javascript
JavaScript鼠标特效大全
2016/09/13 Javascript
Windows环境下npm install 报错: operation not permitted, rename的解决方法
2016/09/26 Javascript
在javaScript中检测数据类型的几种方式小结
2017/03/04 Javascript
微信小程序 动态绑定事件并实现事件修改样式
2017/04/13 Javascript
详解ajax的data参数错误导致页面崩溃
2018/04/30 Javascript
vue 监听某个div垂直滚动条下拉到底部的方法
2018/09/15 Javascript
Element Input组件分析小结
2018/10/11 Javascript
简单通过settimeout看javascript的运行机制
2019/05/10 Javascript
解决LayUI加上form.render()下拉框和单选以及复选框不出来的问题
2019/09/27 Javascript
详解Vue.js 作用域、slot用法(单个slot、具名slot)
2019/10/15 Javascript
python实现文件的分割与合并
2019/08/29 Python
TensorFlow实现checkpoint文件转换为pb文件
2020/02/10 Python
python中entry用法讲解
2020/12/04 Python
matplotlib制作雷达图报错ValueError的实现
2021/01/05 Python
Gweniss格温妮丝女包官网:英国纯手工制造潮流包包品牌
2018/02/07 全球购物
FLOS美国官网:意大利高级照明工艺的传奇
2018/08/07 全球购物
Spartoo瑞典:鞋子、包包和衣服
2018/09/15 全球购物
五星级酒店餐饮部总监的标准岗位职责
2014/02/17 职场文书
商业项目策划方案
2014/06/05 职场文书
小学教师2014年度工作总结
2014/12/03 职场文书
呼啸山庄读书笔记
2015/06/29 职场文书
网吧管理制度范本
2015/08/05 职场文书
MySQL中in和exists区别详解
2021/06/03 MySQL
鸿蒙3.0体验感怎么样? 鸿蒙3.0系统评测向
2022/08/14 数码科技