一文读懂python Scrapy爬虫框架


Posted in Python onFebruary 24, 2021

Scrapy是什么?

先看官网上的说明,http://scrapy-chs.readthedocs.io/zh_CN/latest/intro/overview.html

Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架。可以应用在包括数据挖掘,信息处理或存储历史数据等一系列的程序中。

其最初是为了页面抓取 (更确切来说, 网络抓取 )所设计的, 也可以应用在获取API所返回的数据(例如 Amazon Associates Web Services ) 或者通用的网络爬虫。

Scrapy是一个非常好用的爬虫框架,它不仅提供了一些开箱即用的基础组件,还提供了强大的自定义功能。

# Scrapy 安装

Scrapy 官网:https://scrapy.org/

各位同学的电脑环境应该和小编的相差不远(如果是使用 win10 的话) 安装过程需要10分钟左右

安装命令:

pip install scrapy

由于 Scrapy 依赖了大量的第三方的包,所以在执行上面的命令后并不会马上就下载 Scrapy ,而是会先不断的下载第三方包,包括并不限于以下几种:

  • pyOpenSSL:Python 用于支持 SSL(Security Socket Layer)的包。
  • cryptography:Python 用于加密的库。
  • CFFI:Python 用于调用 C 的接口库。
  • zope.interface:为 Python 缺少接口而提供扩展的库。
  • lxml:一个处理 XML、HTML 文档的库,比 Python 内置的 xml 模块更好用。
  • cssselect:Python 用于处理 CSS 选择器的扩展包。
  • Twisted:为 Python 提供的基于事件驱动的网络引擎包。
  • ……

如果安装不成功多试两次 或者 执行pip install --upgrade pip 后再执行 pip install scrapy

等待命令执行完成后,直接输入 scrapy 进行验证。

C:\Users\Administrator>scrapy
Scrapy 2.4.0 - no active project
Available commands:
bench   Run quick benchmark test
...

版本号可能会有差别,不用太在意

如果能正常出现以上内容,说明我们已经安装成功了。

理论上 Scrapy 安装出现各种问题才算正常情况

三、Scrapy创建项目

Scrapy 提供了一个命令来创建项目 scrapy 命令,在命令行上运行:

scrapy startproject jianshu

我们创建一个项目jianshu用来爬取简书首页热门文章的所有信息。

jianshu/
 scrapy.cfg
 jianshu/
  __init__.py
  items.py
  pipelines.py
  settings.py
  spiders/
   __init__.py
   ...

spiders文件夹下就是你要实现爬虫功能(具体如何爬取数据的代码),爬虫的核心。在spiders文件夹下自己创建一个spider,用于爬取简书首页热门文章。

scrapy.cfg是项目的配置文件。

settings.py用于设置请求的参数,使用代理,爬取数据后文件保存等。

items.py 自己预计需要爬取的内容

middlewares.py自定义中间件的文件

pipelines.py 管道,保持数据

项目的目录就用网图来展示一下吧

一文读懂python Scrapy爬虫框架

image Scrapy爬取简书首页热门文章

cd到Jianshu项目中,生成一个爬虫:

scrapy genspider jianshublog www.jianshu.com

这种方式生成的是常规爬虫

1)新建jianshuSpider

import scrapy
class JianshublogSpider(scrapy.Spider):
 name = 'jianshublog'
 allowed_domains = ['www.jianshu.com']
 start_urls = ['http://www.jianshu.com/']
 
 def parse(self, response):
  pass

可以看到,这个类里面有三个属性 nameallowed_domainsstart_urls 和一个parse()方法。

name,它是每个项目唯一的名字,用来区分不同的 Spider。

allowed_domains,它是允许爬取的域名,如果初始或后续的请求链接不是这个域名下的,则请求链接会被过滤掉。
start_urls,它包含了 Spider 在启动时爬取的 url 列表,初始请求是由它来定义的。

parse,它是 Spider 的一个方法。默认情况下,被调用时 start_urls 里面的链接构成的请求完成下载执行后,返回的响应就会作为唯一的参数传递给这个函数。该方法负责解析返回的响应、提取数据或者进一步生成要处理的请求。

到这里我们就清楚了,parse() 方法中的 response 是前面的 start_urls中链接的爬取结果,所以在 parse() 方法中,我们可以直接对爬取的结果进行解析。

修改USER_AGENT

打开settings.py 添加 UA 头信息

USER_AGENT = 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/69.0.3493.3 Safari/537.36'

修改`parse`方法解析网页

我们打开简书首页  右键检查(ctrl+shift+I)发现所有的博客头条都放在类名.note-list .content 的div 节点里面

一文读懂python Scrapy爬虫框架

修改jianshublog.py代码如下

一文读懂python Scrapy爬虫框架

jianshublog.py

import scrapy
 
class JianshublogSpider(scrapy.Spider):
 name = 'jianshublog'
 allowed_domains = ['www.jianshu.com']
 start_urls = ['http://www.jianshu.com/']
 
 def parse(self, response):
  blogs = response.css('.note-list .content')
  # 获取博客列表
  for blog in blogs: # 遍历博客列表
   title = blog.css('.title::text').extract_first() # 提取标题
   link = blog.css('.title::attr(href)').extract_first() # 提取链接
   nickname = blog.css('.nickname::text').extract_first() # 提作者
   print("标题:",title) # 打印标题
   # print("链接:", link)
   # print("作者:", nickname)

最后别忘了执行爬虫命令

scrapy crawl jianshublog

整个项目就完成啦

下一讲我们把文章数据爬取出来,存储在csv文件里面

到此这篇关于一文读懂python Scrapy爬虫框架的文章就介绍到这了,更多相关python Scrapy爬虫框架内容请搜索三水点靠木以前的文章或继续浏览下面的相关文章希望大家以后多多支持三水点靠木!

Python 相关文章推荐
Python通过websocket与js客户端通信示例分析
Jun 25 Python
python实现分析apache和nginx日志文件并输出访客ip列表的方法
Apr 04 Python
Python 中 Virtualenv 和 pip 的简单用法详解
Aug 18 Python
Python多进程并发与多线程并发编程实例总结
Feb 08 Python
python使用opencv驱动摄像头的方法
Aug 03 Python
Python使用matplotlib绘制三维图形示例
Aug 25 Python
python中pip的使用和修改下载源的方法
Jul 08 Python
对Django中static(静态)文件详解以及{% static %}标签的使用方法
Jul 28 Python
用pytorch的nn.Module构造简单全链接层实例
Jan 14 Python
使用PyWeChatSpy自动回复微信拍一拍功能的实现代码
Jul 02 Python
pycharm激活码免费分享适用最新pycharm2020.2.3永久激活
Nov 25 Python
Python3的进程和线程你了解吗
Mar 16 Python
Django如何重置migration的几种情景
Feb 24 #Python
Django中的DateTimeField和DateField实现
Feb 24 #Python
Python制作运行进度条的实现效果(代码运行不无聊)
Feb 24 #Python
学点简单的Django之第一个Django程序的实现
Feb 24 #Python
python单例模式的应用场景实例讲解
Feb 24 #Python
python编写扎金花小程序的实例代码
Feb 23 #Python
Python项目实战之使用Django框架实现支付宝付款功能
Feb 23 #Python
You might like
实用PHP会员权限控制实现原理分析
2011/05/29 PHP
PHP实现的蚂蚁爬杆路径算法代码
2015/12/03 PHP
php实现的二分查找算法示例
2017/06/20 PHP
thinkPHP5.0框架验证码调用及点击图片刷新简单实现方法
2018/09/07 PHP
JQuery扩展插件Validate 5添加自定义验证方法
2011/09/05 Javascript
基于nodejs 的多页面爬虫实例代码
2017/05/31 NodeJs
详解JS数组Reduce()方法详解及高级技巧
2017/08/18 Javascript
vue2.0移除或更改的一些东西(移除index key)
2017/08/28 Javascript
AngularJS实现与后台服务器进行交互的示例讲解
2018/08/13 Javascript
详解Vue实战指南之依赖注入(provide/inject)
2018/11/13 Javascript
JavaScript数组特性与实践应用深入详解
2018/12/30 Javascript
vue项目中使用scss的方法步骤
2019/05/16 Javascript
vue多个元素的样式选择器问题
2019/11/29 Javascript
浅谈vue中get请求解决传输数据是数组格式的问题
2020/08/03 Javascript
js实现磁性吸附的示例
2020/10/26 Javascript
Python实例一个类背后发生了什么
2016/02/09 Python
python读写json文件的简单实现
2017/04/11 Python
python实现外卖信息管理系统
2018/01/11 Python
在python中利用opencv简单做图片比对的方法
2019/01/24 Python
连接pandas以及数组转pandas的方法
2019/06/28 Python
python中tkinter的应用:修改字体的实例讲解
2019/07/17 Python
Laravel框架表单验证格式化输出的方法
2019/09/25 Python
Python dict的常用方法示例代码
2020/06/23 Python
CSS3 transform的skew属性值图文详解
2014/07/21 HTML / CSS
H5 video poster属性设置视频封面的方法
2020/05/25 HTML / CSS
澳大利亚最受欢迎的美发和美容在线商店:Catwalk
2018/12/12 全球购物
西班牙最大的婴儿用品网上商店:Bebitus
2019/05/30 全球购物
AJAX都有哪些有点和缺点
2012/11/03 面试题
经销商培训邀请函
2014/01/21 职场文书
致铅球运动员加油稿
2014/02/13 职场文书
社区母亲节活动记录
2014/03/06 职场文书
学雷锋志愿者活动总结
2014/06/27 职场文书
2016年度创先争优活动总结
2016/04/05 职场文书
详解CSS不定宽溢出文本适配滚动
2021/05/24 HTML / CSS
Mysql多层子查询示例代码(收藏夹案例)
2022/03/31 MySQL
不负正版帝国之名 《重返帝国》引领SLG手游制作新的标杆
2022/04/07 其他游戏