Python爬虫之urllib基础用法教程


Posted in Python onOctober 12, 2019

综述

本系列文档用于对Python爬虫技术进行简单的教程讲解,巩固自己技术知识的同时,万一一不小心又正好对你有用那就更好了。

Python 版本是3.7.4

urllib库介绍

它是 Python 内置的HTTP请求库,也就是说我们不需要额外安装即可使用,它包含四个模块(主要对前三个模块进行学习):

  • request : 它是最基本的 HTTP 请求模块,我们可以用它来模拟发送一请求,就像在浏览器里输入网址然后敲击回车一样,只需要给库方法传入 URL 还有额外的参数,就可以模拟实现这个过程了。
  • error : 异常处理模块,如果出现请求错误,我们可以捕获这些异常,然后进行重试或其他操作保证程序不会意外终止。
  • parse : 用于解析URL,提供了许多URL处理方法,比如拆分、解析、合并等等的方法,以及对参数的拼接等待。
  • robotparser : 主要是用来识别网站的robots.txt协议文件,然后判断网站的那些数据可以爬,哪些数据不可以爬的,其实用的比较少。

urllib.request 介绍

urlopen()

1.参数说明(仅写了四个最常用的参数)

url : 爬取目标的URL;
data : 请求参数,如果设置该参数,则请求默认为post请求;没有默认为get请求;
timeout : 用于设置超时时间,单位为秒;
context : 必须是一个ssl.SSLContext类型,用来指定SSL设置,忽略未认证的CA证书;

2.具体用法

GET 请求方式

# 导入urllib库
import urllib.request
 
 # 向指定的url发送请求,并返回服务器响应的类文件对象
 url = "http://www.baidu.com"
 response = urllib.request.urlopen(url=url)
 print(type(response))
 
 # 类文件对象支持文件对象的操作方法,如read()方法读取文件全部内容,返回字符串
 html = response.read()
 # html = response.readline() # 读取一行
 # html = response.readlines() # 读取多行,返回列表
 # 打印响应结果(byte类型)
 print(html)
 # 打印响应结果(utf-8类型)
 # 二进制和字符串之间的相互转码使用 encode() 和 decode() 函数
 # encode() 和 decode() 可带参数,不写默认utf-8,其他不再特别说明
 print(html.decode())
 # 打印状态码
 # print(response.get_code())
 print(response.status)
 # 获取响应头
 print(response.getheaders())
 # 获取响应头Server信息
 print(response.getheader('Server'))
 # 获取响应结果原因
 print(response.reason)

POST 请求方式

# 导入urllib库
import urllib.parse
import urllib.request
 
 # 向指定的url发送请求,并返回
 post_url = 'https://fanyi.baidu.com/sug'
 # 传入参数
 form_data = {
 'kw': 'honey'
 }
 # 格式化参数
 form_data = urllib.parse.urlencode(form_data).encode()
 
 response = urllib.request.urlopen(url=post_url, data=form_data)
 # 打印服务器响应的类文件对象
 print(type(response))
 
 # 类文件对象支持文件对象的操作方法,如read()方法读取文件全部内容,返回字符串
 html = response.read()
 # 打印响应结果(byte类型)
 print(html)
 # 打印响应结果(utf-8类型)
 print(html.decode())
 # 打印状态码
 print(response.status)
 # print(response.getcode())
 # 获取响应头
 print(response.getheaders())
 # 获取响应头Server信息
 print(response.getheader('Server'))
 # 获取响应结果原因
 print(response.reason)

urlretrleve()

1.参数说明

url : 下载链接地址;
filename : 指定保存本地路径(如果参数未指定,urllib会生成一个临时文件保存数据);
reporthook : 是一个回调函数,当连接上服务器、以及相应的数据块传输完毕时会触发该回调,我们可以利用这个回调函数来显示当前的下载进度;
data : 指post导服务器的数据,该方法返回一个包含两个元素的(filename, headers) 元组,filename 表示保存到本地的路径,header表示服务器的响应头;

2.具体用法

# 引入所需要的库
import os
import urllib.request
 
 
 # 定义回调函数
 def call_back(a, b, c):
 """
 图片下载回调
 :param a: 已经下载的数据块
 :param b: 数据块的大小
 :param c: 远程文件的大小
 :return: 
 """
 per = 100.0 * a * b / c
 if per > 100:
 per = 100
 print('%.2f%%' % per)
 
 
 # 定义下下载的地址
 url = 'http://www.baidu.com'
 # 构造文件保存路径
 path = os.path.abspath('.')
 file_path = os.path.join(path, 'baidu.html')
 # 进行下载
 urllib.request.urlretrieve(url, file_path, call_back)

urllib.parse 介绍

urlencode()

1.参数说明

query : url参数,可以是字符串,也可以是字典;
encoding : 编码方式;

2.具体用法

# 引入所需要的库
import urllib.parse
# 参数数据
 data = {
 'name': '张三',
 'age': 26
 }
 # 进行编码
 ret = urllib.parse.urlencode(data)
 print(ret)

parse_s()

1.参数说明

qs : url参数,编码后的字符串;
encoding : 字符方式;

2.具体用法

# 引入所需要的库
import urllib.parse
# 参数数据
data = {
 'name': '张三',
 'age': 26
 }
 # 进行编码
 ret1 = urllib.parse.urlencode(data)
 print(ret1)
 # 进行解码
 ret2 = urllib.parse.parse_qs(ret1)
 print(ret2)

urlparse()

1.参数说明

url : url地址字符串;

2.具体用法

# 引入所需要的库
import urllib.parse
# 声明url
 url = "https://www.baidu.com/s?wd=urlparse&rsv_spt=1&rsv_iqid=0x921f00fe005646ef&issp=1&f=8"
 # 进行url解析
 ret = urllib.parse.urlparse(url)
 print(ret)
 print('scheme:', ret.scheme) # 协议
 print('netloc:', ret.netloc) # 域名服务器
 print('path:', ret.path) # 相对路径
 print('params:', ret.params) # 路径端参数
 print('fragment:', ret.fragment) # 片段
 print('query:', ret.query) # 查询
 
 # urlunparse() 与 urlparse() 对应相反函数
 # 使用urlparse的格式组合成一个url,可以直接将urlparse的返回传递组合
 ret1 = urllib.parse.urlunparse(ret)
 print(ret1)

urlsplit()

1.参数说明

url : url地址字符串;

2.具体用法

# 引入所需要的库
import urllib.parse
# 声明url
 url = "https://www.baidu.com/s?wd=urlparse&rsv_spt=1&rsv_iqid=0x921f00fe005646ef&issp=1&f=8"
 # 进行url解析
 ret = urllib.parse.urlsplit(url)
 print(ret)
 print('scheme:', ret.scheme) # 协议
 print('netloc:', ret.netloc) # 域名服务器
 print('path:', ret.path) # 相对路径
 print('fragment:', ret.fragment) # 片段
 print('query:', ret.query) # 查询
 
 # urlunsplit() 与 urlsplit() 对应相反函数
 # 使用urlsplit的格式组合成一个url,可以直接将urlsplit的返回传递组合
 ret1 = urllib.parse.urlunsplit(ret)
 print(ret1)
 
 # 此函数和urlparse函数的区别在于此函数没有params

urljoin()

1.参数说明

qs : url参数,编码后的字符串;
encoding : 字符方式;

2.具体用法

# 引入所需要的库
import urllib.parse
 
 # 声明url
 url = "https://www.baidu.com/"
 # 参数数据
 data = {
 'name': '张三',
 'age': 26
 }
 # 格式化参数
 data = urllib.parse.urlencode(data)
 # 进行url拼接
 ret = urllib.parse.urljoin(url, data)
 print(ret)

urllib.error 介绍

我们在爬虫的时候发请求的时候难免出现错误,如访问不到服务器或者访问被禁止等等,error分为URLError和HTTPError两类:

1.URLError

没有网
服务器链接失败
找不大指定服务器

2.HTTPError

是URLError的子类

3.两者区别和联系

1).URLError封装的错误信息一般是由网络引起的,包括url错误
2).HTTPError封装的错误信息一般是服务器返回了错误状态码
3).URLError是OSERROR的子类,HTTPError是URLError的子类
4).【注意】两个同时捕获的时候需要将子类放在上面,父类放在下面

用法

# 引入所需要的库
import urllib.error
import urllib.request
 
 # 一个访问异常的url
 url = 'https://www.mz.com/156427/100'
 # 捕获异常
 try:
 ret = urllib.request.urlopen(url)
 print(ret)
 except urllib.error.HTTPError as e:
 print(e.getcode())
 except urllib.error.URLError as e:
 print(e)

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持三水点靠木。

Python 相关文章推荐
python制作企业邮箱的爆破脚本
Oct 05 Python
Python中的pygal安装和绘制直方图代码分享
Dec 08 Python
在pandas中一次性删除dataframe的多个列方法
Apr 10 Python
基于Pandas读取csv文件Error的总结
Jun 15 Python
解决pycharm的Python console不能调试当前程序的问题
Jan 20 Python
Python基础学习之类与实例基本用法与注意事项详解
Jun 17 Python
pyqt 实现QlineEdit 输入密码显示成圆点的方法
Jun 24 Python
Python音频操作工具PyAudio上手教程详解
Jun 26 Python
pandas数据处理之绘图的实现
Jun 15 Python
Python常用外部指令执行代码实例
Nov 05 Python
python中entry用法讲解
Dec 04 Python
Python字符串格式化方式
Apr 07 Python
python 生成器和迭代器的原理解析
Oct 12 #Python
python 表格打印代码实例解析
Oct 12 #Python
Django+uni-app实现数据通信中的请求跨域的示例代码
Oct 12 #Python
python3.7将代码打包成exe程序并添加图标的方法
Oct 11 #Python
python 多进程并行编程 ProcessPoolExecutor的实现
Oct 11 #Python
Python 中list ,set,dict的大规模查找效率对比详解
Oct 11 #Python
Python 网络编程之UDP发送接收数据功能示例【基于socket套接字】
Oct 11 #Python
You might like
高分R级DC动画剧《哈莉·奎茵》第二季正式预告首发
2020/04/09 欧美动漫
PHP中Header使用的HTTP协议及常用方法小结
2014/11/04 PHP
PHP开发中AJAX技术的简单应用
2015/12/11 PHP
详解PHP PDO简单教程
2019/05/28 PHP
基于jQuery试卷自动排版系统
2010/07/18 Javascript
div层的移动及性能优化
2010/11/16 Javascript
js控制input框只读实现示例
2014/01/20 Javascript
jQuery EasyUI Tab 选项卡问题小结
2016/08/16 Javascript
详解nodejs express下使用redis管理session
2017/04/24 NodeJs
详解从零搭建 vue2 vue-router2 webpack3 工程
2017/11/22 Javascript
浅谈Vue.js路由管理器 Vue Router
2018/08/16 Javascript
浅谈angular表单提交中ng-submit的默认使用方法
2018/09/30 Javascript
JavaScript碎片—函数闭包(模拟面向对象)
2019/03/13 Javascript
微信小程序如何实现radio单选框单击打勾和取消
2020/01/21 Javascript
Angular+ionic实现折叠展开效果的示例代码
2020/07/29 Javascript
vue treeselect获取当前选中项的label实例
2020/08/31 Javascript
[02:16]DOTA2英雄基础教程 干扰者
2014/01/15 DOTA
Python标准异常和异常处理详解
2015/02/02 Python
基于循环神经网络(RNN)实现影评情感分类
2018/03/26 Python
Python 200行代码实现一个滑动验证码过程详解
2019/07/11 Python
Python之time模块的时间戳,时间字符串格式化与转换方法(13位时间戳)
2019/08/12 Python
python openCV实现摄像头获取人脸图片
2020/08/20 Python
Python 转移文件至云对象存储的方法
2021/02/07 Python
HTML5页面嵌入小程序没有返回按钮及返回页面空白的问题
2020/05/28 HTML / CSS
法国包包和行李箱销售网站:Bagage24.fr
2020/03/24 全球购物
自我鉴定思想方面
2013/10/07 职场文书
旷课检讨书大全
2014/01/21 职场文书
《一个中国孩子的呼声》教学反思
2014/02/12 职场文书
教育技术学专业职业规划书
2014/03/03 职场文书
食品采购员岗位职责
2014/04/14 职场文书
少先队活动总结
2014/08/29 职场文书
群众路线教育实践活动自我剖析思想汇报
2014/10/04 职场文书
检讨书范文
2015/01/27 职场文书
研究生毕业登记表的自我鉴定范文
2019/07/15 职场文书
Mybatis-Plus进阶分页与乐观锁插件及通用枚举和多数据源详解
2022/03/21 Java/Android
MySQL主从切换的超详细步骤
2022/06/28 MySQL