编程 Python

详解Scrapy Redis入门实战

Posted in Python onNovember 18, 2020

简介

scrapy-redis是一个基于redis的scrapy组件，用于快速实现scrapy项目的分布式部署和数据爬取，其运行原理如下图所示。

详解Scrapy Redis入门实战

Scrapy-Redis特性

分布式爬取

你可以启动多个共享同一redis队列的爬虫实例，多个爬虫实例将各自提取到或者已请求的Requests在队列中统一进行登记，使得Scheduler在请求调度时能够对重复Requests进行过滤，即保证已经由某一个爬虫实例请求过的Request将不会再被其他的爬虫实例重复请求。

分布式数据处理

将scrapy爬取到的items汇聚到同一个redis队列中，意味着你可以根据你的需要启动尽可能多的共享这个items队列的后处理程序。

Scrapy即插即用组件

Scheduler调度器 + Duplication重复过滤器、Item Pipeline、基础Spider爬虫

Scrapy-Redis示例

本文将以爬取京东所有图书分类下的图书信息为例对Scrapy-Redis的用法进行示例。

开发环境

Python 3.7
Redis 3.2.100

下面列举出了 Python 中 Scrapy-Redis 所需要的各个模块及其版本：

redis 2.10.6
redis-py-cluster 1.3.6
scrapy-redis 0.6.8
scrapy-redis-cluster 0.4

在开发之前需要先安装好以上模块，以scrapy-redis-cluster模块为例，使用pip进行安装的命令如下：

pip install scrapy-redis-cluster # 安装模块
pip install scrapy-redis-cluster==0.4 # 安装模块时指定版本
pip install --upgrade scrapy-redis-cluster # 升级模块版本

创建项目

在Windows命令行执行如下命令完成项目创建：

d:\scrapy>scrapy startproject jd_book

执行完该命令后，将会在当前目录下创建包含下列内容的 jd_book 目录：

详解Scrapy Redis入门实战

定义Item

在items.py中把我们将要爬取的图书字段预先定义好。

# -*- coding: utf-8 -*-

import scrapy

class JdBookItem(scrapy.Item):
  b_cate = scrapy.Field() # 图书所属一级分类名称
  s_cate = scrapy.Field() # 图书所属二级分类名称
  s_href = scrapy.Field() # 图书所属二级分类地址
  book_name = scrapy.Field() # 名称
  book_img = scrapy.Field() # 封面图片地址
  book_author = scrapy.Field() # 作者
  book_press = scrapy.Field() # 出版社
  book_publish_date = scrapy.Field() # 出版日期
  book_sku = scrapy.Field() # 商品编号
  book_price = scrapy.Field() # 价格

创建Spider

在Windows命令行执行如下命令完成Spider创建：

d:\scrapy\jd_book>cd jd_book
d:\scrapy\jd_book>scrapy genspider jdbook jd.com

执行完该命令后，将会在 jd_book 的 spiders 目录下生成一个 jdbook.py 文件：

详解Scrapy Redis入门实战

jdbook.py的完整爬虫代码如下。

# -*- coding: utf-8 -*-
import scrapy
import json
import urllib
from copy import deepcopy
from jd_book.items import JdBookItem

class JdbookSpider(scrapy.Spider):
  name = 'jdbook'
  allowed_domains = ['jd.com','3.cn']
  start_urls = ['https://book.jd.com/booksort.html']

  def parse(self, response): # 处理图书分类页
    dt_list = response.xpath("//div[@class='mc']/dl/dt") # 提取一级分类元素
    for dt in dt_list:
      item = JdBookItem()
      item["b_cate"] = dt.xpath("./a/text()").extract_first() # 提取一级分类名称
      em_list = dt.xpath("./following-sibling::dd[1]/em") # 提取二级分类元素
      for em in em_list:
        item["s_cate"] = em.xpath("./a/text()").extract_first() # 提取二级分类名称
        item["s_href"] = em.xpath("./a/@href").extract_first() # 提取二级分类地址
        if item["s_href"] is not None:
          item['s_href'] = "https:" + item['s_href'] # 补全二级分类地址
          yield scrapy.Request(item['s_href'], callback=self.parse_book_list, meta={"item": deepcopy(item)})

  def parse_book_list(self, response): # 处理二级分类下图书列表页
    item = response.meta['item']
    li_list = response.xpath("//div[@id='plist']/ul/li") # 提取所有的图书元素
    for li in li_list:
      item["book_img"] = li.xpath(".//div[@class='p-img']//img/@data-lazy-img").extract_first()
      if item["book_img"] is None:
        item["book_img"] = li.xpath(".//div[@class='p-img']//img/@src").extract_first()
      if item["book_img"] is not None:
        item["book_img"] = "https:"+item["book_img"]
      item["book_name"] = li.xpath(".//div[@class='p-name']/a/em/text()").extract_first().strip()
      item["book_author"] = li.xpath(".//span[@class='author_type_1']/a/text()").extract()
      item["book_press"] = li.xpath(".//span[@class='p-bi-store']/a/@title").extract_first()
      item["book_publish_date"] = li.xpath(".//span[@class='p-bi-date']/text()").extract_first().strip()
      item["book_sku"] = li.xpath("./div/@data-sku").extract_first()
      price_url = "https://p.3.cn/prices/mgets?skuIds=j_{}".format(item["book_sku"]) # 提取图书价格请求地址
      yield scrapy.Request(price_url, callback=self.parse_book_price, meta={"item": deepcopy(item)})

    # 提取列表页下一页地址
    next_url = response.xpath("//a[@class='pn-next']/@href").extract_first()
    if next_url is not None:
      next_url = urllib.parse.urljoin(response.url, next_url)
      # yield scrapy.Request(next_url,callback=self.parse_book_list,meta={"item":item})

  def parse_book_price(self, response):
    item = response.meta['item']
    item["book_price"] = json.loads(response.body.decode())[0]["op"]
    yield item

修改配置

在settings.py 中增加Scrapy-Redis相关配置。

# -*- coding: utf-8 -*-

BOT_NAME = 'jd_book'

SPIDER_MODULES = ['jd_book.spiders']
NEWSPIDER_MODULE = 'jd_book.spiders'

# Crawl responsibly by identifying yourself (and your website) on the user-agent
USER_AGENT = 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/71.0.3578.98 Safari/537.36'

# Obey robots.txt rules
ROBOTSTXT_OBEY = False


######################################################
##############下面是Scrapy-Redis相关配置################
######################################################

# 指定Redis的主机名和端口
REDIS_HOST = 'localhost'
REDIS_PORT = 6379

# 调度器启用Redis存储Requests队列
SCHEDULER = "scrapy_redis.scheduler.Scheduler"

# 确保所有的爬虫实例使用Redis进行重复过滤
DUPEFILTER_CLASS = "scrapy_redis.dupefilter.RFPDupeFilter"

# 将Requests队列持久化到Redis，可支持暂停或重启爬虫
SCHEDULER_PERSIST = True

# Requests的调度策略，默认优先级队列
SCHEDULER_QUEUE_CLASS = 'scrapy_redis.queue.PriorityQueue'

# 将爬取到的items保存到Redis 以便进行后续处理
ITEM_PIPELINES = {
  'scrapy_redis.pipelines.RedisPipeline': 300
}

启动爬虫

至此京东图书项目就算配置完成了，你可以将项目部署到多台服务器中去，并使用如下命令来启动爬虫：

d:\scrapy\jd_book>scrapy crawl jdbook

爬取到的图书数据结构如下：

详解Scrapy Redis入门实战

相应地，在Redis数据库中同时生成了如下3个键：

详解Scrapy Redis入门实战

其中，jdbook:requests 中保存了待爬取的Request对象；jdbook:dupefilter 中保存了已经爬取过的Request对象的指纹；jdbook:items中保存了爬取到的Item对象。

通过上述京东图书项目不难看出，scrapy-redis项目与普通的scrapy项目相比，除了在settings.py配置时额外增加了一些scrapy-redis的专属配置外，其他环节完全相同。

参考文章

https://scrapy-redis.readthedocs.io/en/stable/index.html

到此这篇关于详解Scrapy Redis入门实战的文章就介绍到这了,更多相关Scrapy Redis入门内容请搜索三水点靠木以前的文章或继续浏览下面的相关文章希望大家以后多多支持三水点靠木！

详解Scrapy Redis入门实战

- Author -

pengjunlee

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Python 相关文章推荐

python获取当前计算机cpu数量的方法

Apr 18 Python

举例讲解Python中装饰器的用法

Apr 27 Python

Django Admin实现上传图片校验功能

Mar 06 Python

python交互式图形编程实例（二）

Nov 17 Python

深入理解Python单元测试unittest的使用示例

Nov 18 Python

python3发送邮件需要经过代理服务器的示例代码

Jul 25 Python

Python中输入和输出（打印）数据实例方法

Oct 13 Python

python为什么会环境变量设置不成功

Jun 23 Python

python使用nibabel和sitk读取保存nii.gz文件实例

Jul 01 Python

使用PyWeChatSpy自动回复微信拍一拍功能的实现代码

Jul 02 Python

Python 利用Entrez库筛选下载PubMed文献摘要的示例

Nov 24 Python

基于Python编写一个监控CPU的应用系统

Jun 25 Python

如何在scrapy中集成selenium爬取网页的方法

Nov 18 #Python

Python 实现键盘鼠标按键模拟

Nov 18 #Python

如何向scrapy中的spider传递参数的几种方法

Nov 18 #Python

python更新数据库中某个字段的数据(方法详解)

Nov 18 #Python

Python下载的11种姿势(小结)

Nov 18 #Python

Python监听键盘和鼠标事件的示例代码

Nov 18 #Python

Opencv python 图片生成视频的方法示例

Nov 18 #Python

You might like

php写的带缓存数据功能的mysqli类

2012/09/06 PHP

浅析PHP递归函数返回值使用方法

2013/02/18 PHP

PHP 实现explort() 功能的详解

2013/06/20 PHP

php操作mongoDB实例分析

2014/12/29 PHP

php实现基于openssl的加密解密方法

2016/09/30 PHP

详解Yii2高级版引入bootstrap.js的一个办法

2017/03/21 PHP

php+websocket 实现的聊天室功能详解

2020/05/27 PHP

JavaScript 的方法重载效果

2009/08/07 Javascript

jQuery $.extend()用法总结

2014/06/15 Javascript

js+css实现导航效果实例

2015/02/10 Javascript

javascript表格隔行变色加鼠标移入移出及点击效果的方法

2015/04/10 Javascript

jQuery鼠标事件汇总

2015/08/30 Javascript

JS跨域请求外部服务器的资源

2017/02/06 Javascript

vue2.0嵌套路由实现豆瓣电影分页功能(附demo)

2017/03/13 Javascript

JS检测window.open打开的窗口是否关闭

2017/06/25 Javascript

微信小程序上传图片实例

2018/05/28 Javascript

express启用https使用小记

2019/05/21 Javascript

vue canvas绘制矩形并解决由clearRec带来的闪屏问题

2019/09/02 Javascript

微信小程序实现通讯录列表展开收起

2020/11/18 Javascript

[02:28]DOTA2 2015国际邀请赛中国区预选赛首日现场百态

2015/05/26 DOTA

编写Python脚本使得web页面上的代码高亮显示

2015/04/24 Python

python jieba分词并统计词频后输出结果到Excel和txt文档方法

2018/02/11 Python

python 读取文本文件的行数据,文件.splitlines()的方法

2018/07/12 Python

pyqt5的QWebEngineView 使用模板的方法

2018/08/18 Python

Python 3.3实现计算两个日期间隔秒数/天数的方法示例

2019/01/07 Python

Python多线程threading模块用法实例分析

2019/05/22 Python

对Python3之方法的覆盖与super函数详解

2019/06/26 Python

基于Python实现下载网易音乐代码实例

2020/08/10 Python

35款精致的 CSS3 和 HTML5 网页模板推荐

2012/08/03 HTML / CSS

html5使用canvas绘制文字特效

2014/12/15 HTML / CSS

Bobbi Brown芭比波朗美国官网：化妆师专业彩妆保养品品牌

2016/08/18 全球购物

质检部经理岗位职责

2014/02/19 职场文书

新闻简讯格式及范文

2015/07/22 职场文书

pytorch 使用半精度模型部署的操作

2021/05/24 Python

springboot利用redis、Redisson处理并发问题的操作

2021/06/18 Java/Android

Pandas-DataFrame知识点汇总

2022/03/16 Python