编程 Python

scrapy-redis分布式爬虫的搭建过程(理论篇)

Posted in Python onSeptember 29, 2020

1. 背景

Scrapy 是一个通用的爬虫框架，但是不支持分布式，Scrapy-redis是为了更方便地实现Scrapy分布式爬取，而提供了一些以redis为基础的组件(仅有组件)。

2. 环境

系统：win7
scrapy-redis
redis 3.0.5
python 3.6.1

3. 原理

3.1. 对比一下scrapy 和 Scrapy-redis 的架构图。

scrapy架构图：

scrapy-redis分布式爬虫的搭建过程(理论篇)

scrapy-redis 架构图：

scrapy-redis分布式爬虫的搭建过程(理论篇)

多了一个redis组件，主要影响两个地方：第一个是调度器。第二个是数据的处理。 3.2. Scrapy-Redis分布式策略。

scrapy-redis分布式爬虫的搭建过程(理论篇)

作为一个分布式爬虫，是需要有一个Master端（核心服务器）的，在Master端，会搭建一个Redis数据库，用来存储start_urls、request、items。Master的职责是负责url指纹判重，Request的分配，以及数据的存储（一般在Master端会安装一个mongodb用来存储redis中的items）。出了Master之外，还有一个角色就是slaver（爬虫程序执行端），它主要负责执行爬虫程序爬取数据，并将爬取过程中新的Request提交到Master的redis数据库中。

如上图，假设我们有四台电脑：A， B， C， D ，其中任意一台电脑都可以作为 Master端或 Slaver端。整个流程是：

首先Slaver端从Master端拿任务（Request、url）进行数据抓取，Slaver抓取数据的同时，产生新任务的Request便提交给 Master 处理；
Master端只有一个Redis数据库，负责将未处理的Request去重和任务分配，将处理后的Request加入待爬队列，并且存储爬取的数据。

scrapy-redis分布式爬虫的搭建过程(理论篇)

Scrapy-Redis默认使用的就是这种策略，我们实现起来很简单，因为任务调度等工作Scrapy-Redis都已经帮我们做好了，我们只需要继承RedisSpider、指定redis_key就行了。

缺点是，Scrapy-Redis调度的任务是Request对象，里面信息量比较大（不仅包含url，还有callback函数、headers等信息），可能导致的结果就是会降低爬虫速度、而且会占用Redis大量的存储空间，所以如果要保证效率，那么就需要一定硬件水平。

4. 运行流程

第一步：在slaver端的爬虫中，指定好 redis_key，并指定好redis数据库的地址，比如：

class MySpider(RedisSpider):
  """Spider that reads urls from redis queue (myspider:start_urls)."""
  name = 'amazon'
  redis_key = 'amazonCategory:start_

# 指定redis数据库的连接参数
'REDIS_HOST': '172.16.1.99',
'REDIS_PORT': 6379,

第二步：启动slaver端的爬虫，爬虫进入等待状态，等待 redis 中出现 redis_key ，Log如下：

2017-12-12 15:54:18 [scrapy.utils.log] INFO: Scrapy 1.4.0 started (bot: scrapybot)
2017-12-12 15:54:18 [scrapy.utils.log] INFO: Overridden settings: {'SPIDER_LOADER_WARN_ONLY': True}
2017-12-12 15:54:18 [scrapy.middleware] INFO: Enabled extensions:
['scrapy.extensions.corestats.CoreStats',
 'scrapy.extensions.telnet.TelnetConsole',
 'scrapy.extensions.logstats.LogStats']
2017-12-12 15:54:18 [myspider_redis] INFO: Reading start URLs from redis key 'myspider:start_urls' (batch size: 110, encoding: utf-8
2017-12-12 15:54:18 [scrapy.middleware] INFO: Enabled downloader middlewares:
['scrapy.downloadermiddlewares.httpauth.HttpAuthMiddleware',
 'scrapy.downloadermiddlewares.downloadtimeout.DownloadTimeoutMiddleware',
 'scrapy.downloadermiddlewares.defaultheaders.DefaultHeadersMiddleware',
 'redisClawerSlaver.middlewares.ProxiesMiddleware',
 'redisClawerSlaver.middlewares.HeadersMiddleware',
 'scrapy.downloadermiddlewares.retry.RetryMiddleware',
 'scrapy.downloadermiddlewares.redirect.MetaRefreshMiddleware',
 'scrapy.downloadermiddlewares.httpcompression.HttpCompressionMiddleware',
 'scrapy.downloadermiddlewares.redirect.RedirectMiddleware',
 'scrapy.downloadermiddlewares.httpproxy.HttpProxyMiddleware',
 'scrapy.downloadermiddlewares.stats.DownloaderStats']
2017-12-12 15:54:18 [scrapy.middleware] INFO: Enabled spider middlewares:
['scrapy.spidermiddlewares.httperror.HttpErrorMiddleware',
 'scrapy.spidermiddlewares.offsite.OffsiteMiddleware',
 'scrapy.spidermiddlewares.referer.RefererMiddleware',
 'scrapy.spidermiddlewares.urllength.UrlLengthMiddleware',
 'scrapy.spidermiddlewares.depth.DepthMiddleware']
2017-12-12 15:54:18 [scrapy.middleware] INFO: Enabled item pipelines:
['redisClawerSlaver.pipelines.ExamplePipeline',
 'scrapy_redis.pipelines.RedisPipeline']
2017-12-12 15:54:18 [scrapy.core.engine] INFO: Spider opened
2017-12-12 15:54:18 [scrapy.extensions.logstats] INFO: Crawled 0 pages (at 0 pages/min), scraped 0 items (at 0 items/min)
2017-12-12 15:55:18 [scrapy.extensions.logstats] INFO: Crawled 0 pages (at 0 pages/min), scraped 0 items (at 0 items/min)
2017-12-12 15:56:18 [scrapy.extensions.logstats] INFO: Crawled 0 pages (at 0 pages/min), scraped 0 items (at 0 items/min)

第三步：启动脚本，往redis数据库中填入redis_key（start_urls）

#!/usr/bin/env python
# -*- coding:utf-8 -*-

import redis

# 将start_url 存储到redis中的redis_key中，让爬虫去爬取
redis_Host = "172.16.1.99"
redis_key = 'amazonCategory:start_urls'

# 创建redis数据库连接
rediscli = redis.Redis(host = redis_Host, port = 6379, db = "0")

# 先将redis中的requests全部清空
flushdbRes = rediscli.flushdb()
print(f"flushdbRes = {flushdbRes}")
rediscli.lpush(redis_key, https://www.baidu.com)

scrapy-redis分布式爬虫的搭建过程(理论篇)

第四步：slaver端的爬虫开始爬取数据。Log如下：

2017-12-12 15:56:18 [scrapy.extensions.logstats] INFO: Crawled 0 pages (at 0 pages/min), scraped 0 items (at 0 items/min)
parse url = https://www.baidu.com, status = 200, meta = {'download_timeout': 25.0, 'proxy': 'http://proxy.abuyun.com:9020', 'download_slot': 'www.baidu.com', 'download_latency': 0.2569999694824219, 'depth': 7}
parse url = https://www.baidu.com, status = 200, meta = {'download_timeout': 25.0, 'proxy': 'http://proxy.abuyun.com:9020', 'download_slot': 'www.baidu.com', 'download_latency': 0.8840000629425049, 'depth': 8}
2017-12-12 15:57:18 [scrapy.extensions.logstats] INFO: Crawled 2 pages (at 2 pages/min), scraped 1 items (at 1 items/min)

第五步：启动脚本，将redis中的items，转储到mongodb中。

这部分代码，请参照：scrapy-redis分布式爬虫的搭建过程（代码篇）

5. 环境安装以及代码编写

5.1. scrapy-redis环境安装

pip install scrapy-redis

scrapy-redis分布式爬虫的搭建过程(理论篇)

代码位置：后面可以进行修改定制。

scrapy-redis分布式爬虫的搭建过程(理论篇)

5.2. scrapy-redis分布式爬虫编写

第一步，下载官网的示例代码，地址：https://github.com/rmax/scrapy-redis （需要安装过git）

git clone https://github.com/rmax/scrapy-redis.git

scrapy-redis分布式爬虫的搭建过程(理论篇)

官网提供了两种示例代码，分别继承自 Spider + redis 和 CrawlSpider + redis

scrapy-redis分布式爬虫的搭建过程(理论篇)

第二步，根据官网提供的示例代码进行修改。

到此这篇关于scrapy-redis分布式爬虫的搭建过程(理论篇)的文章就介绍到这了,更多相关scrapy redis分布式爬虫搭建内容请搜索三水点靠木以前的文章或继续浏览下面的相关文章希望大家以后多多支持三水点靠木！

scrapy-redis分布式爬虫的搭建过程(理论篇)

- Author -

Kosmoo

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Python 相关文章推荐

Win7上搭建Cocos2d-x 3.1.1开发环境

Jul 03 Python

Python类的专用方法实例分析

Jan 09 Python

Python中使用pprint函数进行格式化输出的教程

Apr 07 Python

Python中一些自然语言工具的使用的入门教程

Apr 13 Python

在Python的web框架中编写创建日志的程序的教程

Apr 30 Python

python自定义类并使用的方法

May 07 Python

Python while、for、生成器、列表推导等语句的执行效率测试

Jun 03 Python

python中string模块各属性以及函数的用法介绍

May 30 Python

python2.7到3.x迁移指南

Feb 01 Python

python格式化输出保留2位小数的实现方法

Jul 02 Python

简单了解python中的f.b.u.r函数

Nov 02 Python

利用Python自动化操作AutoCAD的实现

Apr 01 Python

python ssh 执行shell命令的示例

Sep 29 #Python

Scrapy基于scrapy_redis实现分布式爬虫部署的示例

Sep 29 #Python

浅析python 字典嵌套

Sep 29 #Python

详解基于Scrapy的IP代理池搭建

Sep 29 #Python

Python 创建守护进程的示例

Sep 29 #Python

Python 解析xml文件的示例

Sep 29 #Python

Python 字典一个键对应多个值的方法

Sep 29 #Python

You might like

php定时计划任务与fsockopen持续进程实例

2014/05/23 PHP

ThinkPHP中U方法的使用浅析

2014/06/13 PHP

php中使用PHPExcel读写excel(xls)文件的方法

2014/09/15 PHP

PHP数组对象与Json转换操作实例分析

2019/10/22 PHP

JavaScript 联动的无限级封装类,数据采用非Ajax方式,随意添加联动

2010/06/29 Javascript

javascript创建数组之联合数组的使用方法示例

2013/12/26 Javascript

javascript实现的HashMap类代码

2014/06/27 Javascript

使用 js+正则表达式为关键词添加链接

2014/11/11 Javascript

基于bootstrap3和jquery的分页插件

2015/07/31 Javascript

javascript实现不同颜色Tab标签切换效果

2016/04/27 Javascript

JavaScript Ajax编程应用篇

2016/07/02 Javascript

js的新生代垃圾回收知识点总结

2019/08/22 Javascript

[02:17]DOTA2亚洲邀请赛 RAVE战队出场宣传片

2015/02/07 DOTA

[01:58]2018DOTA2亚洲邀请赛趣味视频——交流

2018/04/03 DOTA

python中关于时间和日期函数的常用计算总结(time和datatime)

2013/03/08 Python

python获取文件扩展名的方法

2015/07/06 Python

你所不知道的Python奇技淫巧13招【实用】

2016/12/14 Python

Python之os操作方法(详解)

2017/06/15 Python

Python使用Matplotlib实现雨点图动画效果的方法

2017/12/23 Python

python实现多线程网页下载器

2018/04/15 Python

解决Pycharm下面出现No R interpreter defined的问题

2018/10/29 Python

opencv实现图片模糊和锐化操作

2018/11/19 Python

Python实现八皇后问题示例代码

2018/12/09 Python

Python基础之函数的定义与使用示例

2019/03/23 Python

django fernet fields字段加密实践详解

2019/08/12 Python

python图片二值化提高识别率代码实例

2019/08/24 Python

python文件操作的简单方法总结

2019/11/07 Python

Python基础教程（一）——Windows搭建开发Python开发环境

2020/07/20 Python

css3实现书本翻页效果的示例代码

2021/03/08 HTML / CSS

学生干部培训方案

2014/06/12 职场文书

促销活动总结模板

2014/07/01 职场文书

美丽人生观后感

2015/06/03 职场文书

任命书格式模板

2015/09/22 职场文书

2019开业庆典剪彩仪式主持词！

2019/07/22 职场文书

详解MySQL的半同步

2021/04/22 MySQL

Python读取和写入Excel数据

2022/04/20 Python