编程 Python

零基础写python爬虫之urllib2中的两个重要概念：Openers和Handlers

Posted in Python onNovember 05, 2014

在开始后面的内容之前，先来解释一下urllib2中的两个个方法：info / geturl
urlopen返回的应答对象response(或者HTTPError实例)有两个很有用的方法info()和geturl()

1.geturl()：

这个返回获取的真实的URL，这个很有用，因为urlopen(或者opener对象使用的)或许会有重定向。获取的URL或许跟请求URL不同。
以人人中的一个超级链接为例,
我们建一个urllib2_test10.py来比较一下原始URL和重定向的链接：

from urllib2 import Request, urlopen, URLError, HTTPError  

old_url = 'http://rrurl.cn/b1UZuP'  

req = Request(old_url)  

response = urlopen(req)    

print 'Old url :' + old_url  

print 'Real url :' + response.geturl()

运行之后可以看到真正的链接指向的网址：

零基础写python爬虫之urllib2中的两个重要概念：Openers和Handlers

2.info()：

这个返回对象的字典对象，该字典描述了获取的页面情况。通常是服务器发送的特定头headers。目前是httplib.HTTPMessage 实例。
经典的headers包含"Content-length"，"Content-type"，和其他内容。
我们建一个urllib2_test11.py来测试一下info的应用：

from urllib2 import Request, urlopen, URLError, HTTPError  

old_url = 'http://www.baidu.com'  

req = Request(old_url)  

response = urlopen(req)    

print 'Info():'  

print response.info()

运行的结果如下，可以看到页面的相关信息：

零基础写python爬虫之urllib2中的两个重要概念：Openers和Handlers

下面来说一说urllib2中的两个重要概念：Openers和Handlers。

1.Openers：

当你获取一个URL你使用一个opener(一个urllib2.OpenerDirector的实例)。
正常情况下，我们使用默认opener：通过urlopen。
但你能够创建个性的openers。

2.Handles：

Openers使用处理器handlers，所有的“繁重”工作由handlers处理。
每个handlers知道如何通过特定协议打开URLs，或者如何处理URL打开时的各个方面。
例如HTTP重定向或者HTTP cookies。

如果你希望用特定处理器获取URLs你会想创建一个openers，例如获取一个能处理cookie的opener，或者获取一个不重定向的opener。

要创建一个 opener，可以实例化一个OpenerDirector，
然后调用.add_handler(some_handler_instance)。
同样，可以使用build_opener，这是一个更加方便的函数，用来创建opener对象，他只需要一次函数调用。
build_opener默认添加几个处理器，但提供快捷的方法来添加或更新默认处理器。
其他的处理器handlers你或许会希望处理代理，验证，和其他常用但有点特殊的情况。

install_opener 用来创建（全局）默认opener。这个表示调用urlopen将使用你安装的opener。
Opener对象有一个open方法。
该方法可以像urlopen函数那样直接用来获取urls：通常不必调用install_opener，除了为了方便。

说完了上面两个内容，下面我们来看一下基本认证的内容，这里会用到上面提及的Opener和Handler。

Basic Authentication 基本验证

为了展示创建和安装一个handler，我们将使用HTTPBasicAuthHandler。
当需要基础验证时，服务器发送一个header(401错误码) 请求验证。这个指定了scheme 和一个‘realm'，看起来像这样：Www-authenticate: SCHEME realm="REALM".
例如
Www-authenticate: Basic realm="cPanel Users"
客户端必须使用新的请求，并在请求头里包含正确的姓名和密码。
这是“基础验证”，为了简化这个过程，我们可以创建一个HTTPBasicAuthHandler的实例，并让opener使用这个handler就可以啦。

HTTPBasicAuthHandler使用一个密码管理的对象来处理URLs和realms来映射用户名和密码。
如果你知道realm(从服务器发送来的头里)是什么，你就能使用HTTPPasswordMgr。

通常人们不关心realm是什么。那样的话，就能用方便的HTTPPasswordMgrWithDefaultRealm。
这个将在你为URL指定一个默认的用户名和密码。
这将在你为特定realm提供一个其他组合时得到提供。
我们通过给realm参数指定None提供给add_password来指示这种情况。

最高层次的URL是第一个要求验证的URL。你传给.add_password()更深层次的URLs将同样合适。
说了这么多废话，下面来用一个例子演示一下上面说到的内容。
我们建一个urllib2_test12.py来测试一下info的应用：

# -*- coding: utf-8 -*-  

import urllib2  

# 创建一个密码管理者  

password_mgr = urllib2.HTTPPasswordMgrWithDefaultRealm()  

# 添加用户名和密码  

top_level_url = "http://example.com/foo/"  

# 如果知道 realm, 我们可以使用他代替 ``None``.  

# password_mgr.add_password(None, top_level_url, username, password)  

password_mgr.add_password(None, top_level_url,'why', '1223')  

# 创建了一个新的handler  

handler = urllib2.HTTPBasicAuthHandler(password_mgr)  

# 创建 "opener" (OpenerDirector 实例)  

opener = urllib2.build_opener(handler)  

a_url = 'http://www.baidu.com/'  

# 使用 opener 获取一个URL  

opener.open(a_url)  

# 安装 opener.  

# 现在所有调用 urllib2.urlopen 将用我们的 opener.  

urllib2.install_opener(opener)

注意：以上的例子我们仅仅提供我们的HHTPBasicAuthHandler给build_opener。
默认的openers有正常状况的handlers：ProxyHandler，UnknownHandler，HTTPHandler，HTTPDefaultErrorHandler， HTTPRedirectHandler，FTPHandler， FileHandler， HTTPErrorProcessor。
代码中的top_level_url 实际上可以是完整URL(包含"http:"，以及主机名及可选的端口号)。
例如：http://example.com/。
也可以是一个“authority”(即主机名和可选的包含端口号)。
例如：“example.com” or “example.com:8080”。
后者包含了端口号。

零基础写python爬虫之urllib2中的两个重要概念：Openers和Handlers

- Author -

hebedich

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Python 相关文章推荐

使用python检测手机QQ在线状态的脚本代码

Feb 10 Python

Python实现列表转换成字典数据结构的方法

Mar 11 Python

Python自动生产表情包

Mar 17 Python

python利用正则表达式排除集合中字符的功能示例

Oct 10 Python

TensorFLow用Saver保存和恢复变量

Mar 10 Python

使用Python写一个小游戏

Apr 02 Python

对Python中plt的画图函数详解

Nov 07 Python

Python Pywavelet 小波阈值实例

Jan 09 Python

Python中Numpy mat的使用详解

May 24 Python

python基于递归解决背包问题详解

Jul 03 Python

Python中无限循环需要什么条件

May 27 Python

python实现scrapy爬虫每天定时抓取数据的示例代码

Jan 27 Python

零基础写python爬虫之HTTP异常处理

Nov 05 #Python

零基础写python爬虫之使用urllib2组件抓取网页内容

Nov 04 #Python

零基础写python爬虫之爬虫的定义及URL构成

Nov 04 #Python

使用Python编写简单网络爬虫抓取视频下载资源

Nov 04 #Python

Python爬取Coursera课程资源的详细过程

Nov 04 #Python

使用python开发vim插件及心得分享

Nov 04 #Python

Python学习笔记之os模块使用总结

Nov 03 #Python

You might like

最新用php获取谷歌PR值算法，附上php查询PR值代码示例

2011/12/25 PHP

javascript数组与php数组的地址传递及值传递用法实例

2015/01/22 PHP

php通过ksort()函数给关联数组按照键排序的方法

2015/03/18 PHP

Thinkphp框架开发移动端接口(1)

2016/08/18 PHP

PHP编程快速实现数组去重的方法详解

2017/07/22 PHP

yii2.0整合阿里云oss删除单个文件的方法

2017/09/19 PHP

基于jQuery的固定表格头部的代码(IE6,7,8测试通过)

2010/05/18 Javascript

javascript实现的DES加密示例

2013/10/30 Javascript

JavaScript和jQuery制作光棒效果

2017/02/24 Javascript

BootStrap模态框和select2合用时input无法获取焦点的解决方法

2017/09/01 Javascript

详解在Vue中使用TypeScript的一些思考(实践)

2018/07/06 Javascript

实例分析vue循环列表动态数据的处理方法

2018/09/28 Javascript

Vue组件Draggable实现拖拽功能

2018/12/01 Javascript

解决vue打包后刷新页面报错：Unexpected token

2019/08/27 Javascript

vue不操作dom实现图片轮播的示例代码

2019/12/18 Javascript

针对Vue路由history模式下Nginx后台配置操作

2020/10/22 Javascript

linux服务器快速卸载安装node环境(简单上手)

2021/02/22 Javascript

python按行读取文件,去掉每行的换行符\n的实例

2018/04/19 Python

Python正则表达式指南推荐

2018/10/09 Python

python进阶之多线程对同一个全局变量的处理方法

2018/11/09 Python

Python字符串匹配之6种方法的使用详解

2019/04/08 Python

Python完全识别验证码自动登录实例详解

2019/11/24 Python

From CSV to SQLite3 by python 导入csv到sqlite实例

2020/02/14 Python

快速解决jupyter notebook启动需要密码的问题

2020/04/21 Python

英国骑行、跑步、游泳、铁人三项运动装备专卖店：Wiggle

2016/08/23 全球购物

西班牙汉普顿小姐：购买帆布鞋和太阳镜

2016/10/23 全球购物

vue+django实现下载文件的示例

2021/03/24 Vue.js

物业管理毕业生的自我评价

2014/02/17 职场文书

《第一朵杏花》教学反思

2014/04/16 职场文书

医学专业大学生职业生涯规划书

2014/10/25 职场文书

党的群众路线教育实践活动总结大会主持词

2014/10/30 职场文书

银行给客户的感谢信

2015/01/23 职场文书

公司仓管员岗位职责

2015/04/01 职场文书

教师实习自我鉴定总结

2019/08/20 职场文书

开机音效回归! Windows 11重新引入开机铃声

2021/11/21 数码科技

python中的getter与setter你了解吗

2022/03/24 Python