编程 Python

Python爬虫 urllib2的使用方法详解

Posted in Python onSeptember 23, 2019

所谓网页抓取，就是把URL地址中指定的网络资源从网络流中读取出来，保存到本地。在Python中有很多库可以用来抓取网页，我们先学习urllib2。

urllib2是Python2.x自带的模块(不需要下载，导入即可使用)

urllib2官网文档：https://docs.python.org/2/library/urllib2.html

urllib2源码

urllib2在python3.x中被改为urllib.request

urlopen

我们先来段代码：

#-*- coding:utf-8 -*-
#01.urllib2_urlopen.py
#导入urllib2库
import urllib2
#向指定的url发送请求，并返回服务器的类文件对象
response = urllib2.urlopen("http://www.baidu.com")
#类文件对象支持文件对象的操作方法，如read()方法读取文件
html = response.read()
#打印字符串
print(html)

执行写好的python代码，将打印结果：

python2 01.urllib2_urlopen.py

实际上，如果我们在浏览器打上百度主页，右键选择"查看源代码"，你会发现，跟我们刚才打印出来的是一模一样的。也就是说，上面的4行代码就已经帮我们把百度的首页的全部代码爬了下来。
一个基本的url请求对应的python代码真的非常简单。

Request

查看官方文档url的用法如下：

urllib2.urlopen(url[, data[, timeout[, cafile[, capath[, cadefault[, context]]]]])
Open the URL url, which can be either a string or a Request object.

在我们第一个例子里，urlopen()的参数就是一个url地址;

但是如果需要执行更复杂的操作，比如增加http报头，则必须创建一个Request实例来作为urlopen()的参数;而需要访问的url地址则作为Request实例的参数。

#-*- coding:utf-8 -*-
#02.urllib2_request.py

import urllib2

#url作为Request()方法的参数，构造并返回一个Request对象
request = urllib2.Request("http://www.baidu.com")

#Request对象作为一个urlopen()方法的参数，发送给服务器并接收响应
response = urllib2.urlopen(request)

html = response.read()

print(html)

运行结果是完全一样的：

新建Request实例，除了必须要有url参数之外，还可以设置另外两个参数：

data(默认空)：是伴随url提交的数据(比如要post的数据)，同时HTTP请求将从"GET"方式改为"POST"方式。
headers(默认空)：是一个字典，包含了需要发送的HTTP报头的键值对。
这两个参数下面会说到。

User-Agent

但是这样直接用urllib2给一个网站发送请求的话，确实略有些唐突了，就好比，人家每家都有门，你以一个路人的身份直接闯进去显然不是很礼貌。而且有一些站点不喜欢被程序(非人为访问)访问，有可能会拒绝你的访问请求。

但是如果我们用一个合法的身份去请求别人网站，显然人家就是欢迎的，所以我们就应该给我们的这个代码加上一个身份，就是所谓的User-Agent头。

浏览器就是互联网世界公认被允许的身份，如果我们希望我们的爬虫程序更像一个真实用户，那我们第一步，就是需要伪装成一个被公认的浏览器。用不同的浏览器在发送请求的时候，会有不同的User-Agent头。urllib2默认的User-Agent头为：Python-urllib/x.y(x和y是Python主版本和次版本号，例如Python-urllib/2.7)

#-*- coding:utf-8 -*-
#03.urllib2_useragent.py

import urllib2

url = "http://www.itcast.cn"

#IE 9.0的User-Agent,包含ua-header里
ua_header = {"User-Agent":"Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; Trident/5.0;"}

# url连同headers,一起构造Request请求，这个请求将附带IE9.0浏览器的User-Agent
request = urllib2.Request(url, headers = ua_header)

#向服务器发送这个请求
response = urllib2.urlopen(request)

html = response.read()

print(html)

添加更多的Header信息

在HTTP Request中加入特定的Header，来构造一个完整的HTTP请求。

可以通过调用Request.add_header()添加/修改一个特定的header也可以通过调用Request.get_header()来查看已有的header。

添加一个特定的header

#-*- coding:utf-8 -*-
#04.urllib2_headers.py

import urllib2

url = "http://www.itcast.cn"

#IE 9.0的User-Agent
header = {"User-Agent":"Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; Trident/5.0;"}
request =urllib2.Request(url, headers = header)

#也可以通过调用Request.add_header()添加/修改一个特定的header
request.add_header("Connection","keep-alive")

#也可以通过调用Request.get_header()来查看header信息
request.get_header(header_name = "Connection")

response = urllib2.urlopen(request)
print(response.code)  #可以查看响应状态码

html = response.read()
print(html)

  随机添加/修改User-Agent

#-*- coding:utf-8 -*-
#05.urllib2_add_headers.py

import urllib2
import random

url = "http://www.itcast.cn"

ua_list = [
  "Mozilla/5.0 (Windows NT 6.1; ) Apple.... ",
  "Mozilla/5.0 (X11; CrOS i686 2268.111.0)... ",
  "Mozilla/5.0 (Macintosh; U; PPC Mac OS X.... ",
  "Mozilla/5.0 (Macintosh; Intel Mac OS... "
]

user_agent = random.choice(ua_list)

request = urllib2.Request(url)

#也可以通过调用Request.add_header()添加/修改一个特定的header
request.add_header("User-Agent", user_agent)

#第一个字母大写，后面的全部小写
request.add_header("User-agent")

response = urllib2.urlopen(req)

html = response.read()

print(html)

注意

The urllib2 module has been split across several modules in Python 3 named urllib.request and urllib.error

以上就是本文的全部内容，希望对大家的学习有所帮助，也希望大家多多支持三水点靠木。

Python爬虫 urllib2的使用方法详解

- Author -

那时的小镇

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Python 相关文章推荐

在python中实现将一张图片剪切成四份的方法

Dec 05 Python

Python 一句话生成字母表的方法

Jan 02 Python

Python八皇后问题解答过程详解

Jul 29 Python

python 和c++实现旋转矩阵到欧拉角的变换方式

Dec 04 Python

Python函数默认参数常见问题及解决方案

Mar 26 Python

Python3实现个位数字和十位数字对调, 其乘积不变

May 03 Python

用Python 爬取猫眼电影数据分析《无名之辈》

Jul 24 Python

python 密码学示例——理解哈希（Hash）算法

Sep 21 Python

Python classmethod装饰器原理及用法解析

Oct 17 Python

django中ImageField的使用详解

Dec 21 Python

pycharm Tab键设置成4个空格的操作

Feb 26 Python

Pytorch可视化的几种实现方法

Jun 10 Python

Python 正则表达式爬虫使用案例解析

Sep 23 #Python

python处理document文档保留原样式

Sep 23 #Python

python 进程间数据共享multiProcess.Manger实现解析

Sep 23 #Python

python程序线程队列queue使用方法解析

Sep 23 #Python

python程序创建多线程过程详解

Sep 23 #Python

详解python播放音频的三种方法

Sep 23 #Python

Python进程间通信 multiProcessing Queue队列实现详解

Sep 23 #Python

You might like

php自动加载的两种实现方法

2010/06/21 PHP

PHP数组为文章加关键字连接文章内容自动加链接

2011/12/29 PHP

自定义session存储机制避免会话保持问题

2014/10/08 PHP

总结PHP中数值计算的注意事项

2016/08/14 PHP

mysqli扩展无法在PHP7下升级问题的解决

2019/09/10 PHP

几行代码轻松搞定jquery实现flash8类似的连接效果

2007/05/03 Javascript

javascript 操作select下拉列表框的一点小经验

2010/03/20 Javascript

3款实用的在线JS代码工具(国外)

2012/03/15 Javascript

JavaScript中的闭包介绍

2015/03/15 Javascript

JavaScript之Object类型介绍

2015/04/01 Javascript

js图片轮播特效代码分享

2015/09/07 Javascript

轻松学习jQuery插件EasyUI EasyUI实现拖动基本操作

2015/11/30 Javascript

jquery简单实现纵向的无缝滚动代码实例

2019/04/01 jQuery

layui layer select 选择被遮挡的解决方法

2019/09/21 Javascript

layui点击按钮页面会自动刷新的解决方案

2019/10/25 Javascript

[01:28]一分钟告诉你DOTA2 TI9不朽宝藏Ⅱ中有什么！

2019/07/09 DOTA

从零学python系列之浅谈pickle模块封装和拆封数据对象的方法

2014/05/23 Python

Python抓取京东图书评论数据

2014/08/31 Python

python3使用urllib模块制作网络爬虫

2016/04/08 Python

Python实现字符串匹配算法代码示例

2017/12/05 Python

python移位运算的实现

2019/07/15 Python

一篇文章搞定Python操作文件与目录

2019/08/13 Python

Python中BeautifulSoup通过查找Id获取元素信息

2020/12/07 Python

Alpine安装Python3依赖出现的问题及解决方法

2020/12/25 Python

从零实现一个自定义html5播放器的示例代码

2017/08/01 HTML / CSS

德国网上宠物店：Zoobio

2018/05/23 全球购物

世界上最好的足球商店：Unisport

2019/03/02 全球购物

开业庆典邀请函

2014/01/08 职场文书

经贸韩语专业大学生职业规划

2014/02/14 职场文书

酒店管理毕业生自荐信

2014/05/25 职场文书

贯彻落实“八项规定”思想汇报

2014/09/13 职场文书

2014年度安全工作总结

2014/12/04 职场文书

2015年宣传部个人工作总结

2015/05/14 职场文书

学历证明范文

2015/06/16 职场文书

Python机器学习三大件之一numpy

2021/05/10 Python

WINDOWS 64位下安装配置mysql8.0.25最详细的教程

2022/03/22 MySQL