编程 Python

python爬虫实战之最简单的网页爬虫教程

Posted in Python onAugust 13, 2017

前言

网络爬虫（又被称为网页蜘蛛，网络机器人，在FOAF社区中间，更经常的称为网页追逐者），是一种按照一定的规则，自动地抓取万维网信息的程序或者脚本。最近对python爬虫有了强烈地兴趣，在此分享自己的学习路径，欢迎大家提出建议。我们相互交流，共同进步。话不多说了，来一起看看详细的介绍：

1.开发工具

笔者使用的工具是sublime text3，它的短小精悍（可能男人们都不喜欢这个词）使我十分着迷。推荐大家使用，当然如果你的电脑配置不错，pycharm可能更加适合你。

sublime text3搭建python开发环境推荐查看这篇文章：

[sublime搭建python开发环境][https://3water.com/article/51838.htm]

2.爬虫介绍

爬虫顾名思义，就是像虫子一样，爬在Internet这张大网上。如此，我们便可以获取自己想要的东西。

既然要爬在Internet上，那么我们就需要了解URL，法号“统一资源定位器”，小名“链接”。其结构主要由三部分组成：

（1）协议：如我们在网址中常见的HTTP协议。

（2）域名或者IP地址：域名，如：www.baidu.com，IP地址，即将域名解析后对应的IP。

（3）路径：即目录或者文件等。

3.urllib开发最简单的爬虫

（1）urllib简介

Module	Introduce
urllib.error	Exception classes raised by urllib.request.
urllib.parse	Parse URLs into or assemble them from components.
urllib.request	Extensible library for opening URLs.
urllib.response	Response classes used by urllib.
urllib.robotparser	Load a robots.txt file and answer questions about fetchability of other URLs.

（2）开发最简单的爬虫

百度首页简洁大方，很适合我们爬虫。

爬虫代码如下：

from urllib import request

def visit_baidu():
 URL = "http://www.baidu.com"
 # open the URL
 req = request.urlopen(URL)
 # read the URL 
 html = req.read()
 # decode the URL to utf-8
 html = html.decode("utf_8")
 print(html)

if __name__ == '__main__':
 visit_baidu()

结果如下图：

python爬虫实战之最简单的网页爬虫教程

我们可以通过在百度首页空白处右击，查看审查元素来和我们的运行结果对比。

当然，request也可以生成一个request对象，这个对象可以用urlopen方法打开。

代码如下：

from urllib import request

def vists_baidu():
 # create a request obkect
 req = request.Request('http://www.baidu.com')
 # open the request object
 response = request.urlopen(req)
 # read the response 
 html = response.read()
 html = html.decode('utf-8')
 print(html)

if __name__ == '__main__':
 vists_baidu()

运行结果和刚才相同。

（3）错误处理

错误处理通过urllib模块来处理，主要有URLError和HTTPError错误，其中HTTPError错误是URLError错误的子类，即HTTRPError也可以通过URLError捕获。

HTTPError可以通过其code属性来捕获。

处理HTTPError的代码如下：

from urllib import request
from urllib import error

def Err():
 url = "https://segmentfault.com/zzz"
 req = request.Request(url)

 try:
 response = request.urlopen(req)
 html = response.read().decode("utf-8")
 print(html)
 except error.HTTPError as e:
 print(e.code)
if __name__ == '__main__':
 Err()

运行结果如图：

python爬虫实战之最简单的网页爬虫教程

404为打印出的错误代码，关于此详细信息大家可以自行百度。

URLError可以通过其reason属性来捕获。

chuliHTTPError的代码如下：

from urllib import request
from urllib import error

def Err():
 url = "https://segmentf.com/"
 req = request.Request(url)

 try:
 response = request.urlopen(req)
 html = response.read().decode("utf-8")
 print(html)
 except error.URLError as e:
 print(e.reason)
if __name__ == '__main__':
 Err()

运行结果如图：

python爬虫实战之最简单的网页爬虫教程

既然为了处理错误，那么最好两个错误都写入代码中，毕竟越细致越清晰。须注意的是，HTTPError是URLError的子类，所以一定要将HTTPError放在URLError的前面，否则都会输出URLError的，如将404输出为Not Found。

代码如下：

from urllib import request
from urllib import error

# 第一种方法，URLErroe和HTTPError
def Err():
 url = "https://segmentfault.com/zzz"
 req = request.Request(url)

 try:
 response = request.urlopen(req)
 html = response.read().decode("utf-8")
 print(html)
 except error.HTTPError as e:
 print(e.code)
 except error.URLError as e:
 print(e.reason)

大家可以更改url来查看各种错误的输出形式。

总结

以上就是这篇文章的全部内容了，希望本文的内容对大家的学习或者工作能带来一定的帮助，如果有疑问大家可以留言交流，谢谢大家对三水点靠木的支持。

python爬虫实战之最简单的网页爬虫教程

- Author -

xiaomi

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Python 相关文章推荐

Python实现的检测web服务器健康状况的小程序

Sep 17 Python

python+requests+unittest API接口测试实例(详解)

Jun 10 Python

解决pandas 作图无法显示中文的问题

May 24 Python

python删除本地夹里重复文件的方法

Nov 19 Python

Python对象中__del__方法起作用的条件详解

Nov 01 Python

使用Python实现将list中的每一项的首字母大写

Jun 11 Python

Django 模型类(models.py)的定义详解

Jul 19 Python

python中with用法讲解

Feb 07 Python

解决python便携版无法直接运行py文件的问题

Sep 01 Python

Django crontab定时任务模块操作方法解析

Sep 10 Python

用Python制作灯光秀短视频的思路详解

Apr 13 Python

Python利器openpyxl之操作excel表格

Apr 17 Python

详解python中executemany和序列的使用方法

Aug 12 #Python

mysql 之通过配置文件链接数据库

Aug 12 #Python

python+selenium开发环境搭建图文教程

Aug 11 #Python

Python实现的递归神经网络简单示例

Aug 11 #Python

Python调用系统底层API播放wav文件的方法

Aug 11 #Python

Django 导出 Excel 代码的实例详解

Aug 11 #Python

python技能之数据导出excel的实例代码

Aug 11 #Python

You might like

php堆排序（heapsort）练习

2013/11/13 PHP

php通过curl模拟登陆DZ论坛

2015/05/11 PHP

php实现倒计时效果

2015/12/19 PHP

php禁用cookie后session设置方法分析

2016/10/19 PHP

PHPCMS忘记后台密码的解决办法

2016/10/30 PHP

PHP策略模式定义与用法示例

2017/07/27 PHP

[原创]保存的js无法执行的解决办法

2007/02/25 Javascript

让GoogleCode的SVN下的HTML文件在FireFox下正常显示.

2009/05/25 Javascript

zShowBox 图片放大展示jquery版兼容性

2011/09/24 Javascript

js验证电话号码与手机支持+86的正则表达式

2014/01/23 Javascript

jquery判断浏览器后退时候弹出消息的方法

2014/08/11 Javascript

js中 javascript:void(0) 用法详解

2015/08/11 Javascript

关于JSON.parse(),JSON.stringify(),jQuery.parseJSON()的用法

2016/06/30 Javascript

使用express+multer实现node中的图片上传功能

2018/02/02 Javascript

JS实现的缓冲运动效果示例

2018/04/30 Javascript

关于jquery中attr()和prop()方法的区别

2018/05/28 jQuery

深入理解NodeJS 多进程和集群

2018/10/17 NodeJs

一些你可能不熟悉的JS知识点总结

2019/03/15 Javascript

解决layer 动态加载select 失效的问题

2019/09/18 Javascript

python操作摄像头截图实现远程监控的例子

2014/03/25 Python

python 平衡二叉树实现代码示例

2018/07/07 Python

Python+PyQt5实现美剧爬虫可视工具的方法

2019/04/25 Python

python scrapy爬虫代码及填坑

2019/08/12 Python

html5 video标签屏蔽右键视频另存为的js代码

2013/11/12 HTML / CSS

HTML5 Canvas玩转酷炫大波浪进度图效果实例（附demo）

2016/12/14 HTML / CSS

全球领先的美容用品专卖店：Beauty Plus Salon

2018/09/04 全球购物

Aquatalia官网：意大利著名鞋履品牌

2019/09/26 全球购物

应届生会计电算化求职信

2013/10/03 职场文书

文秘自荐信

2013/10/20 职场文书

中学生在校期间的自我评价分享

2013/11/13 职场文书

大学生实习证明范本

2014/01/15 职场文书

法律顾问服务方案

2014/05/15 职场文书

党支部三严三实对照检查材料思想汇报

2014/09/29 职场文书

个人工作决心书

2015/09/22 职场文书

六种css3实现的边框过渡效果

2021/04/22 HTML / CSS

使用Docker容器部署rocketmq单机的全过程

2022/04/03 Servers