介绍Python的Urllib库的一些高级用法


Posted in Python onApril 30, 2015

1.设置Headers

有些网站不会同意程序直接用上面的方式进行访问,如果识别有问题,那么站点根本不会响应,所以为了完全模拟浏览器的工作,我们需要设置一些Headers 的属性。

首先,打开我们的浏览器,调试浏览器F12,我用的是Chrome,打开网络监听,示意如下,比如知乎,点登录之后,我们会发现登陆之后界面都变化 了,出现一个新的界面,实质上这个页面包含了许许多多的内容,这些内容也不是一次性就加载完成的,实质上是执行了好多次请求,一般是首先请求HTML文 件,然后加载JS,CSS 等等,经过多次请求之后,网页的骨架和肌肉全了,整个网页的效果也就出来了。

介绍Python的Urllib库的一些高级用法

拆分这些请求,我们只看一第一个请求,你可以看到,有个Request URL,还有headers,下面便是response,图片显示得不全,小伙伴们可以亲身实验一下。那么这个头中包含了许许多多是信息,有文件编码啦,压缩方式啦,请求的agent啦等等。

其中,agent就是请求的身份,如果没有写入请求身份,那么服务器不一定会响应,所以可以在headers中设置agent,例如下面的例子,这个例子只是说明了怎样设置的headers,小伙伴们看一下设置格式就好。
 

import urllib 
import urllib2 
 
url = 'http://www.server.com/login'
user_agent = 'Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)' 
values = {'username' : 'cqc', 'password' : 'XXXX' } 
headers = { 'User-Agent' : user_agent } 
data = urllib.urlencode(values) 
request = urllib2.Request(url, data, headers) 
response = urllib2.urlopen(request) 
page = response.read()

这样,我们设置了一个headers,在构建request时传入,在请求时,就加入了headers传送,服务器若识别了是浏览器发来的请求,就会得到响应。

另外,我们还有对付”反盗链”的方式,对付防盗链,服务器会识别headers中的referer是不是它自己,如果不是,有的服务器不会响应,所以我们还可以在headers中加入referer

例如我们可以构建下面的headers
 

headers = { 'User-Agent' : 'Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)' ,
            'Referer':'http://www.zhihu.com/articles' }

同上面的方法,在传送请求时把headers传入Request参数里,这样就能应付防盗链了。

另外headers的一些属性,下面的需要特别注意一下:

  1.     User-Agent : 有些服务器或 Proxy 会通过该值来判断是否是浏览器发出的请求
  2.     Content-Type : 在使用 REST 接口时,服务器会检查该值,用来确定 HTTP Body 中的内容该怎样解析。
  3.     application/xml : 在 XML RPC,如 RESTful/SOAP 调用时使用
  4.     application/json : 在 JSON RPC 调用时使用
  5.     application/x-www-form-urlencoded : 浏览器提交 Web 表单时使用
  6.     在使用服务器提供的 RESTful 或 SOAP 服务时, Content-Type 设置错误会导致服务器拒绝服务

其他的有必要的可以审查浏览器的headers内容,在构建时写入同样的数据即可。
2. Proxy(代理)的设置

urllib2 默认会使用环境变量 http_proxy 来设置 HTTP Proxy。假如一个网站它会检测某一段时间某个IP 的访问次数,如果访问次数过多,它会禁止你的访问。所以你可以设置一些代理服务器来帮助你做工作,每隔一段时间换一个代理,网站君都不知道是谁在捣鬼了,这酸爽!

下面一段代码说明了代理的设置用法
 

import urllib2
enable_proxy = True
proxy_handler = urllib2.ProxyHandler({"http" : 'http://some-proxy.com:8080'})
null_proxy_handler = urllib2.ProxyHandler({})
if enable_proxy:
  opener = urllib2.build_opener(proxy_handler)
else:
  opener = urllib2.build_opener(null_proxy_handler)
urllib2.install_opener(opener)

3.Timeout 设置

上一节已经说过urlopen方法了,第三个参数就是timeout的设置,可以设置等待多久超时,为了解决一些网站实在响应过慢而造成的影响。

例如下面的代码,如果第二个参数data为空那么要特别指定是timeout是多少,写明形参,如果data已经传入,则不必声明。
 

import urllib2
response = urllib2.urlopen('http://www.baidu.com', timeout=10)
 
import urllib2
response = urllib2.urlopen('http://www.baidu.com',data, 10)

4.使用 HTTP 的 PUT 和 DELETE 方法

http协议有六种请求方法,get,head,put,delete,post,options,我们有时候需要用到PUT方式或者DELETE方式请求。

    PUT:这个方法比较少见。HTML表单也不支持这个。本质上来讲, PUT和POST极为相似,都是向服务器发送数据,但它们之间有一个重要区别,PUT通常指定了资源的存放位置,而POST则没有,POST的数据存放位置由服务器自己决定。
    DELETE:删除某一个资源。基本上这个也很少见,不过还是有一些地方比如amazon的S3云服务里面就用的这个方法来删除资源。

如果要使用 HTTP PUT 和 DELETE ,只能使用比较低层的 httplib 库。虽然如此,我们还是能通过下面的方式,使 urllib2 能够发出 PUT 或DELETE 的请求,不过用的次数的确是少,在这里提一下。
 

import urllib2
request = urllib2.Request(uri, data=data)
request.get_method = lambda: 'PUT' # or 'DELETE'
response = urllib2.urlopen(request)

5.使用DebugLog

可以通过下面的方法把 Debug Log 打开,这样收发包的内容就会在屏幕上打印出来,方便调试,这个也不太常用,仅提一下

 

import urllib2
httpHandler = urllib2.HTTPHandler(debuglevel=1)
httpsHandler = urllib2.HTTPSHandler(debuglevel=1)
opener = urllib2.build_opener(httpHandler, httpsHandler)
urllib2.install_opener(opener)
response = urllib2.urlopen('http://www.baidu.com')

以上便是一部分高级特性,前三个是重要内容,在后面,还有cookies的设置还有异常的处理,小伙伴们加油!

Python 相关文章推荐
Python实现二分法算法实例
Feb 02 Python
学习python之编写简单乘法口诀表实现代码
Feb 27 Python
打包发布Python模块的方法详解
Sep 18 Python
Python自定义进程池实例分析【生产者、消费者模型问题】
Sep 19 Python
python用户管理系统的实例讲解
Dec 23 Python
OpenCV2.3.1+Python2.7.3+Numpy等的配置解析
Jan 05 Python
PyQt5每天必学之弹出消息框
Apr 19 Python
Python二叉树的遍历操作示例【前序遍历,中序遍历,后序遍历,层序遍历】
Dec 24 Python
详解python的四种内置数据结构
Mar 19 Python
python3中的eval和exec的区别与联系
Oct 10 Python
解决python便携版无法直接运行py文件的问题
Sep 01 Python
Python数据结构之队列详解
Mar 21 Python
python插入数据到列表的方法
Apr 30 #Python
Python的Urllib库的基本使用教程
Apr 30 #Python
python获取当前日期和时间的方法
Apr 30 #Python
python实现TCP服务器端与客户端的方法详解
Apr 30 #Python
python排序方法实例分析
Apr 30 #Python
python中lambda与def用法对比实例分析
Apr 30 #Python
python中self原理实例分析
Apr 30 #Python
You might like
合并ThinkPHP配置文件以消除代码冗余的实现方法
2014/07/22 PHP
Google韩国首页图标动画效果
2007/08/26 Javascript
JavaScript Date对象使用总结
2009/05/14 Javascript
Javascript在IE或Firefox下获取鼠标位置的代码
2009/12/18 Javascript
精选的10款用于构建良好易用性网站的jQuery插件
2011/01/23 Javascript
javascript生成json数据简单示例分享
2014/02/14 Javascript
jqTransform美化表单
2015/10/10 Javascript
JavaScript知识点总结之如何提高性能
2016/01/15 Javascript
jquery配合.NET实现点击指定绑定数据并且能够一键下载
2016/10/28 Javascript
jQuery快速高效制作网页交互特效
2017/02/24 Javascript
JavaScript判断输入是否为数字类型的方法总结
2017/09/28 Javascript
vue input实现点击按钮文字增删功能示例
2019/01/29 Javascript
通过angular CDK实现页面元素拖放的步骤详解
2020/07/01 Javascript
VSCode Vue开发推荐插件和VSCode快捷键(小结)
2020/08/08 Javascript
在Django框架中运行Python应用全攻略
2015/07/17 Python
详解Python的collections模块中的deque双端队列结构
2016/07/07 Python
使用Python发现隐藏的wifi
2020/03/04 Python
Django+Uwsgi+Nginx如何实现生产环境部署
2020/07/31 Python
python3中编码获取网页的实例方法
2020/11/16 Python
HTML5中5个简单实用的API(第二篇,含全屏、可见性、拍照、预加载、电池状态)
2014/05/07 HTML / CSS
乌克兰巴士票购买网站:inBus
2021/03/12 全球购物
Perfume’s Club澳大利亚官网:西班牙领先的在线美容店
2021/02/01 全球购物
销售行政专员职责
2014/01/03 职场文书
大学英语演讲稿(中英文对照)
2014/01/14 职场文书
党委班子剖析材料
2014/08/21 职场文书
2014年教师批评与自我批评思想汇报
2014/09/20 职场文书
工作时间调整通知
2015/04/24 职场文书
法人代表证明书范本
2015/06/18 职场文书
2015年卫生局工作总结
2015/07/24 职场文书
nginx里的rewrite跳转的实现
2021/03/31 Servers
JS新手入门数组处理的实用方法汇总
2021/04/07 Javascript
Pytorch 使用tensor特定条件判断索引
2021/04/08 Python
SpringBoot2 参数管理实践之入参出参与校验的方式
2021/06/16 Java/Android
Java 超详细讲解ThreadLocal类的使用
2022/04/07 Java/Android
SQL Server使用PIVOT与unPIVOT实现行列转换
2022/05/25 SQL Server
JS实现页面炫酷的时钟特效示例
2022/08/14 Javascript