编程 Python

Python3爬虫学习入门教程

Posted in Python onDecember 11, 2018

本文实例讲述了Python3爬虫相关入门知识。分享给大家供大家参考，具体如下：

在网上看到大多数爬虫教程都是Python2的，但Python3才是未来的趋势，许多初学者看了Python2的教程学Python3的话很难适应过来，毕竟Python2.x和Python3.x还是有很多区别的，一个系统的学习方法和路线非常重要，因此我在联系了一段时间之后，想写一下自己的学习过程，分享一下自己的学习经验，顺便也锻炼一下自己。

一、入门篇

这里是Python3的官方技术文档，在这里需要着重说一下，语言的技术文档是用来查的，不是用来学习的，真的没必要把文档背下来，这样学习效率真的很低，不如片学边做，在实践中才会学到东西，不然即使你背会了文档，你仍然很难做出什么项目来，我当初就是在这上面，走了很多弯路，在这里推荐W3cscjool里面的教程非常不错，学习与实践相结合。

1. 少废话，先看东西

第一个例子：爬取知乎首页源码。

#-*-coding:utf-8 -*-
import urllib.request
url = "http://www.zhihu.com"
page_info = urllib.request.urlopen(url).read()
page_info = page_info.decode('utf-8')
print(page_info)

运行结果：

Python3爬虫学习入门教程

运行之后，在IDLE shell里面知乎网站首页的源代码就会被读出来啦Blahblahblah~~~

爬虫定义：

网络爬虫（Web Spider），又被称为网页蜘蛛，是一种按照一定的规则，自动地抓取网站信息的程序或者脚本。

简介：

网络蜘蛛是一个很形象的名字。如果把互联网比喻成一个蜘蛛网，那么Spider就是在网上爬来爬去的蜘蛛。网络蜘蛛是通过网页的链接地址来寻找网页，从网站某一个页面开始，读取网页的内容，找到在网页中的其它链接地址，然后通过这些链接地址寻找下一个网页，这样一直循环下去，直到把这个网站所有的网页都抓取完为止。

爬虫流程：

①先由urllib的request打开Url得到网页html文档——②浏览器打开网页源代码分析元素节点——③通过Beautiful Soup（后面会讲到）或则正则表达式提取想要的数据——④存储数据到本地磁盘或数据库（抓取，分析，存储）

urllib和urllib2

python2.x里urllib2库，在python3.x里，urllib2改名为urllib，被分成一些子模块：urllib.request, urllib.parse和urllib.error。尽管函数名称大多数和原来一样，但是在用新的urllib库时需要注意哪些函数被移动到子模块里了。
urllib是python的标准库，包含了从网络请求数据，处理cookie，甚至改变像请求头和用户代理这些元数据的函数。
urlopen用来打开并读取一个从网络获取的远程对象。它可以轻松读取HTML文件、图像文件或其他任何文件流。

url = "http://www.zhihu.com"
page_info = urllib.request.urlopen(url).read()

urllib.request是urllib的一个子模块,可以打开和处理一些复杂的网址

decode('utf-8')用来将页面转换成utf-8的编码格式，否则会出现乱码

page_info = page_info.decode('utf-8')
print(page_info)

urllib.request.urlopen()方法实现了打开url,并返回一个 http.client.HTTPResponse对象,通过http.client.HTTPResponse的read()方法,获得response body,转码最后通过print()打印出来.

更多关于Python相关内容可查看本站专题：《Python Socket编程技巧总结》、《Python正则表达式用法总结》、《Python数据结构与算法教程》、《Python函数使用技巧总结》、《Python字符串操作技巧汇总》、《Python入门与进阶经典教程》及《Python文件与目录操作技巧汇总》

希望本文所述对大家Python程序设计有所帮助。

Python3爬虫学习入门教程

- Author -

Sailfish23

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Python 相关文章推荐

python中文乱码的解决方法

Nov 04 Python

Python数据结构之Array用法实例

Oct 09 Python

Python中规范定义命名空间的一些建议

Jun 04 Python

解决python文件字符串转列表时遇到空行的问题

Jul 09 Python

python实现报表自动化详解

Nov 16 Python

Python元组及文件核心对象类型详解

Feb 11 Python

PyQt5每天必学之带有标签的复选框

Apr 19 Python

python用pandas数据加载、存储与文件格式的实例

Dec 07 Python

Python功能点实现:函数级/代码块级计时器

Jan 02 Python

Python 中 -m 的典型用法、原理解析与发展演变

Nov 11 Python

Python基于paramunittest模块实现excl参数化

Apr 26 Python

对pytorch中x = x.view(x.size(0), -1) 的理解说明

Mar 03 Python

Python3实现爬取简书首页文章标题和文章链接的方法【测试可用】

Dec 11 #Python

python绘制散点图并标记序号的方法

Dec 11 #Python

pandas分别写入excel的不同sheet方法

Dec 11 #Python

使用Python横向合并excel文件的实例

Dec 11 #Python

padas 生成excel 增加sheet表的实例

Dec 11 #Python

python合并已经存在的sheet数据到新sheet的方法

Dec 11 #Python

Python 多线程不加锁分块读取文件的方法

Dec 11 #Python

You might like

探讨:如何通过stats命令分析Memcached的内部状态

2013/06/14 PHP

php实现模拟登陆方正教务系统抓取课表

2015/05/19 PHP

PHP+iframe图片上传实现即时刷新效果

2016/11/18 PHP

laravel实现Auth认证,登录、注册后的页面回跳方法

2019/09/30 PHP

基于laravel-admin 后台列表标签背景的使用方法

2019/10/03 PHP

基于mootools 1.3框架下的图片滑动效果代码

2011/04/22 Javascript

JQuery实现简单时尚快捷的气泡提示插件

2012/12/20 Javascript

JS保存、读取、换行、转Json报错处理方法

2013/06/14 Javascript

javascript删除option选项的多种方法总结

2013/11/22 Javascript

JS与C#编码解码

2013/12/03 Javascript

使用JavaScript实现网页版Pongo设计思路及源代码分享

2014/06/16 Javascript

jquery+CSS3实现淘宝移动网页菜单效果

2015/08/31 Javascript

jQuery插件实现带圆点的焦点图片轮播切换

2016/01/18 Javascript

jstl中判断list中是否包含某个值的简单方法

2016/10/14 Javascript

JS实现的图片预览插件与用法示例【不上传图片】

2016/11/25 Javascript

JS实现的数字格式化功能示例

2017/02/10 Javascript

jQuery+CSS3实现点赞功能

2017/03/13 Javascript

Angular2中如何使用ngx-translate进行国际化

2017/05/21 Javascript

Python模块WSGI使用详解

2018/02/02 Python

python实现石头剪刀布程序

2021/01/20 Python

pandas计数 value_counts()的使用

2019/06/24 Python

Python 实现大整数乘法算法的示例代码

2019/09/17 Python

PyTorch实现更新部分网络,其他不更新

2019/12/31 Python

Django models filter筛选条件详解

2020/03/16 Python

css3学习心得分享

2013/08/19 HTML / CSS

一款基于css3和jquery实现的动画显示弹出层按钮教程

2015/01/04 HTML / CSS

html5 touch事件实现页面上下滑动效果【附代码】

2016/03/10 HTML / CSS

导出HTML5 Canvas图片并上传服务器功能

2019/08/16 HTML / CSS

四年级语文教学反思

2014/02/05 职场文书

中专生自荐信

2014/06/25 职场文书

高中同学会活动方案

2014/08/14 职场文书

课外科技活动总结

2014/08/27 职场文书

幼儿园见习报告

2014/10/30 职场文书

2015年个人工作总结报告

2015/04/25 职场文书

赢在中国观后感

2015/06/02 职场文书

【HBU】数据库第四周单表查询

2021/04/05 SQL Server