python爬虫基础知识点整理


Posted in Python onJune 02, 2020

首先爬虫是什么?

网络爬虫(又被称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动的抓取万维网信息的程序或者脚本。

根据我的经验,要学习Python爬虫,我们要学习的共有以下几点:

  • Python基础知识
  • Python中urllib和urllib2库的用法
  • Python正则表达式
  • Python爬虫框架Scrapy
  • Python爬虫更高级的功能

1.Python基础学习

首先,我们要用Python写爬虫,肯定要了解Python的基础吧,万丈高楼平地起,不能忘啦那地基,哈哈,那么我就分享一下自己曾经看过的一些Python教程,小伙伴们可以作为参考。

1) Python学习网

Python学习网上有大量免费的Python入门教程,以便大家学习。不仅有视频教程,还有相应的问答版块,帮你解决学习过程中的问题,效果还是蛮不错的,内容基本上都是最基础的,入门开始的话,就这个吧

2) 廖雪峰Python教程

后来,我发现了廖老师的Python教程,讲的那是非常通俗易懂哪,感觉也是非常不错,大家如果想进一步了解Python就看一下这个吧。

3) 简明Python教程

还有一个我看过的,简明Python教程,感觉讲的也不错

学习网址:简明Python教程(https://woodpecker.org.cn/abyteofpython_cn/chinese/pr01.html#s01)

4) 汪海的实验室

这是我的本科实验室学长,入门的时候参考的他的文章,自己重新做了总结,后来这些系列文章又在他的基础上增加了一些内容。

学习网址:汪海的实验室(https://blog.csdn.net/wxg694175346/category_1418998_1.html)

2.Python urllib和urllib2 库的用法

urllib和urllib2库是学习Python爬虫最基本的库,利用这个库我们可以得到网页的内容,并对内容用正则表达式提取分析,得到我们想要的结果。这个在学习过程中我会和大家分享的。

3.Python 正则表达式

Python正则表达式是一种用来匹配字符串的强有力的武器。它的设计思想是用一种描述性的语言来给字符串定义一个规则,凡是符合规则的字符串,我们就认为它“匹配”了,否则,该字符串就是不合法的。这个在后面的博文会分享的。

4.爬虫框架Scrapy

如果你是一个Python高手,基本的爬虫知识都已经掌握了,那么就寻觅一下Python框架吧,我选择的框架是Scrapy框架。这个框架有什么强大的功能呢?下面是它的官方介绍:

HTML, XML源数据 选择及提取 的内置支持
提供了一系列在spider之间共享的可复用的过滤器(即 Item Loaders),对智能处理爬取数据提供了内置支持。
通过 feed导出 提供了多格式(JSON、CSV、XML),多存储后端(FTP、S3、本地文件系统)的内置支持
提供了media pipeline,可以 自动下载 爬取到的数据中的图片(或者其他资源)。
高扩展性。您可以通过使用 signals ,设计好的API(中间件, extensions, pipelines)来定制实现您的功能。
内置的中间件及扩展为下列功能提供了支持:
cookies and session 处理
HTTP 压缩
HTTP 认证
HTTP 缓存
user-agent模拟
robots.txt
爬取深度限制
针对非英语语系中不标准或者错误的编码声明, 提供了自动检测以及健壮的编码支持。
支持根据模板生成爬虫。在加速爬虫创建的同时,保持在大型项目中的代码更为一致。详细内容请参阅 genspider 命令。
针对多爬虫下性能评估、失败检测,提供了可扩展的 状态收集工具 。
提供 交互式shell终端 , 为您测试XPath表达式,编写和调试爬虫提供了极大的方便
提供 System service, 简化在生产环境的部署及运行
内置 Web service, 使您可以监视及控制您的机器
内置 Telnet终端 ,通过在Scrapy进程中钩入Python终端,使您可以查看并且调试爬虫
Logging 为您在爬取过程中捕捉错误提供了方便
支持 Sitemaps 爬取
具有缓存的DNS解析器

官方文档:http://doc.scrapy.org/en/latest/

等我们掌握了基础的知识,再用这个 Scrapy 框架吧!

扯了这么多,好像没多少有用的东西额,那就不扯啦!

知识点扩展:

爬虫基本原理

爬虫是 模拟用户在浏览器或者App应用上的操作,把操作的过程、实现自动化的程序

当我们在浏览器中输入一个url后回车,后台会发生什么?比如说你输入https://www.baidu.com

简单来说这段过程发生了以下四个步骤:

  1. 查找域名对应的IP地址。
  2. 浏览器首先访问的是DNS(Domain Name System,域名系统),dns的主要工作就是把域名转换成相应的IP地址向IP对应的服务器发送请求。
  3. 服务器响应请求,发回网页内容。
  4. 浏览器显示网页内容。

网络爬虫要做的,简单来说,就是实现浏览器的功能。通过指定url,直接返回给用户所需要的数据, 而不需要一步步人工去操纵浏览器获取。

到此这篇关于python爬虫基础知识点整理的文章就介绍到这了,更多相关Python2爬虫入门内容请搜索三水点靠木以前的文章或继续浏览下面的相关文章希望大家以后多多支持三水点靠木!

Python 相关文章推荐
Python元字符的用法实例解析
Jan 17 Python
Django rest framework基本介绍与代码示例
Jan 26 Python
Python中pillow知识点学习
Apr 30 Python
python实现将读入的多维list转为一维list的方法
Jun 28 Python
tensorflow: variable的值与variable.read_value()的值区别详解
Jul 30 Python
解决python opencv无法显示图片的问题
Oct 28 Python
Python设计模式之桥接模式原理与用法实例分析
Jan 10 Python
Python3模拟登录操作实例分析
Mar 12 Python
Python+OpenCv制作证件图片生成器的操作方法
Aug 21 Python
OpenCV模板匹配matchTemplate的实现
Oct 18 Python
tensorflow常用函数API介绍
Apr 19 Python
Python 串口通信的实现
Sep 29 Python
如何理解python面向对象编程
Jun 01 #Python
Python CSS选择器爬取京东网商品信息过程解析
Jun 01 #Python
matlab、python中矩阵的互相导入导出方式
Jun 01 #Python
如何理解Python中的变量
Jun 01 #Python
pycharm实现print输出保存到txt文件
Jun 01 #Python
Python如何爬取qq音乐歌词到本地
Jun 01 #Python
pycharm sciview的图片另存为操作
Jun 01 #Python
You might like
php压缩多个CSS为一个css的代码并缓存
2011/04/21 PHP
php fputcsv命令 写csv文件遇到的小问题(多维数组连接符)
2011/05/24 PHP
PHP实现将HTML5中Canvas图像保存到服务器的方法
2014/11/28 PHP
PHP实现原生态图片上传封装类方法
2016/11/08 PHP
PHP5.5新特性之yield理解与用法实例分析
2019/01/11 PHP
Apply an AutoFormat to an Excel Spreadsheet
2007/06/12 Javascript
jquery选择器之基本过滤选择器详解
2014/01/27 Javascript
JS创建自定义表格具体实现
2014/02/11 Javascript
JS实现很酷的水波文字特效实例
2015/02/26 Javascript
教你如何使用firebug调试功能了解javascript闭包和this
2015/03/04 Javascript
JavaScript 节流函数 Throttle 详解
2016/07/04 Javascript
完美实现八种js焦点轮播图(下篇)
2020/04/20 Javascript
微信页面倒计时代码(解决safari不兼容date的问题)
2016/12/13 Javascript
Jquery实现跨域异步上传文件总结
2017/02/03 Javascript
jquery实现自适应banner焦点图
2017/02/16 Javascript
Bootstrap 3浏览器兼容性问题及解决方案
2017/04/11 Javascript
jQuery简单绑定单个事件的方法示例
2017/06/10 jQuery
Bootstrap的aria-label和aria-labelledby属性实例详解
2018/11/02 Javascript
前端Electron新手入门教程详解
2019/06/21 Javascript
vue仿ios列表左划删除
2019/09/26 Javascript
JavaScript oncopy事件用法实例解析
2020/05/13 Javascript
JavaScript实现网页计算器功能
2020/10/29 Javascript
[56:46]2018DOTA2亚洲邀请赛 3.31 小组赛 B组 VP vs Effect
2018/04/01 DOTA
python实现sublime3的less编译插件示例
2014/04/27 Python
Python3访问并下载网页内容的方法
2015/07/28 Python
Python中列表和元组的使用方法和区别详解
2020/12/30 Python
详解Python循环作用域与闭包
2019/03/21 Python
关于HTML5你必须知道的28个新特性,新技巧以及新技术
2012/05/28 HTML / CSS
localStorage的过期时间设置的方法详解
2018/11/26 HTML / CSS
机电工程专业应届生求职信
2013/10/03 职场文书
《充气雨衣》教学反思
2014/04/07 职场文书
社区科普工作方案
2014/06/03 职场文书
会计学专业自荐信
2014/06/25 职场文书
十七岁的单车观后感
2015/06/12 职场文书
jquery插件实现搜索历史
2021/04/24 jQuery
python元组打包和解包过程详解
2021/08/02 Python