scrapy redis配置文件setting参数详解


Posted in Python onNovember 18, 2020

scrapy项目 setting.py

#Resis 设置

#使能Redis调度器

SCHEDULER = 'scrapy_redis.scheduler.Scheduler'

#所有spider通过redis使用同一个去重过滤器

DUPEFILTER_CLASS = 'scrapy_redis.dupefilter.RFPDupeFilter'

#不清除Redis队列、这样可以暂停/恢复 爬取

#SCHEDULER_PERSIST = True

#SCHEDULER_QUEUE_CLASS ='scrapy_redis.queue.PriorityQueue' #默认队列,优先级队列
#备用队列。
#SCHEDULER_QUEUE_CLASS ='scrapy_redis.queue.FifoQueue' #先进先出队列
#SCHEDULER_QUEUE_CLASS ='scrapy_redis.queue.LifoQueue' #后进先出队列

#最大空闲时间防止分布式爬虫因为等待而关闭

#SCHEDULER_IDLE_BEFORE_CLOSE = 10


#将抓取的item存储在Redis中以进行后续处理。

ITEM_PIPELINES = {
   'scrapy_redis.pipelines.RedisPipeline':300,
}

# The item pipeline serializes and stores the items in this redis key.
#item pipeline 将items 序列化 并用如下key名储存在redis中

#REDIS_ITEMS_KEY = '%(spider)s:items'

#默认的item序列化方法是ScrapyJSONEncoder,你也可以使用自定义的序列化方式

#REDIS_ITEMS_SERIALIZER = 'json.dumps'


#设置redis地址 端口 密码

REDIS_HOST = 'localhost'
REDIS_HOST = 6379

#也可以通过下面这种方法设置redis地址 端口和密码,一旦设置了这个,则会覆盖上面所设置的REDIS_HOST和REDIS_HOST

 REDIS_URL = 'redis://root:redis_pass@xxx.xx.xx.xx:6379' 
 #root用户名,redis_pass:你设置的redis验证密码,xxxx:你的主机ip

#你设置的redis其他参数 Custom redis client parameters (i.e.: socket timeout, etc.)
REDIS_PARAMS = {}


#自定义的redis客户端类
#REDIS_PARAMS['redis_cls'] = 'myproject.RedisClient'

# If True, it uses redis ``zrevrange`` and ``zremrangebyrank`` operation. You have to use the ``zadd``
# command to add URLS and Scores to redis queue. This could be useful if you
# want to use priority and avoid duplicates in your start urls list.

#REDIS_START_URLS_AS_SET = False

# 默认的RedisSpider 或 RedisCrawlSpider start urls key

#REDIS_START_URLS_KEY = '%(name)s:start_urls'

#redis的默认encoding是utf-8,如果你想用其他编码可以进行如下设置:

#REDIS_ENCODING = 'latin1'

类scrapy_redis.spiders.RedisSpider使spider可以从redis数据库中读取URL。Redis队列中的URL将被爬取,如果第一个请求产生更多请求,则spider将处理这些请求,然后再从Redis中获取另一个URL。

创建spider

from scrapy_redis.spiders import RedisSpider

class MySpider(RedisSpider):
  name = 'myspider'

  def parse(self, response):
    # do stuff
    pass

在redis-cli设置start_url

redis-cli lpush myspider:start_urls http://google.com

到此这篇关于scrapy redis配置文件setting参数详解的文章就介绍到这了,更多相关scrapy redis配置setting参数内容请搜索三水点靠木以前的文章或继续浏览下面的相关文章希望大家以后多多支持三水点靠木!

Python 相关文章推荐
python控制台英汉汉英电子词典
Apr 23 Python
Python入门篇之数字
Oct 20 Python
Python实现提取谷歌音乐搜索结果的方法
Jul 10 Python
Python wxPython库Core组件BoxSizer用法示例
Sep 03 Python
想学python 这5本书籍你必看!
Dec 11 Python
代码实例讲解python3的编码问题
Jul 08 Python
Python异常模块traceback用法实例分析
Oct 22 Python
Pyecharts绘制全球流向图的示例代码
Jan 08 Python
Django 博客实现简单的全文搜索的示例代码
Feb 17 Python
pyecharts在数据可视化中的应用详解
Jun 08 Python
matplotlib 多个图像共用一个colorbar的实现示例
Sep 10 Python
Pytorch中的学习率衰减及其用法详解
Jun 05 Python
Scrapy-Redis之RedisSpider与RedisCrawlSpider详解
Nov 18 #Python
详解Scrapy Redis入门实战
Nov 18 #Python
如何在scrapy中集成selenium爬取网页的方法
Nov 18 #Python
Python 实现键盘鼠标按键模拟
Nov 18 #Python
如何向scrapy中的spider传递参数的几种方法
Nov 18 #Python
python更新数据库中某个字段的数据(方法详解)
Nov 18 #Python
Python下载的11种姿势(小结)
Nov 18 #Python
You might like
php面向对象全攻略 (五) 封装性
2009/09/30 PHP
PHP的命令行命令使用指南
2015/08/18 PHP
3种php生成唯一id的方法
2015/11/23 PHP
详解WordPress中分类函数wp_list_categories的使用
2016/01/04 PHP
[原创]CI(CodeIgniter)简单统计访问人数实现方法
2016/01/19 PHP
PHP生成短网址的思路以及实现方法的详解
2019/03/25 PHP
jQuery 表单验证扩展代码(二)
2010/10/20 Javascript
Uglifyjs(JS代码优化工具)入门 安装使用
2020/04/13 Javascript
jquery移除button的inline onclick事件(已测试及兼容浏览器)
2013/01/25 Javascript
Jquery遍历节点的方法小集
2014/01/22 Javascript
javascript动态创建表格及添加数据实例详解
2015/05/13 Javascript
js实现精美的银灰色竖排折叠菜单
2015/05/16 Javascript
Web安全测试之XSS实例讲解
2016/08/15 Javascript
第一次接触神奇的Bootstrap
2016/10/14 Javascript
微信小程序动态的加载数据实例代码
2017/04/14 Javascript
AngularJS 霸道的过滤器小结
2017/04/26 Javascript
vue-axios使用详解
2017/05/10 Javascript
es6学习笔记之Async函数的使用示例
2017/05/11 Javascript
微信小程序实现多选框全选与反全选及购物车中删除选中的商品功能
2019/12/17 Javascript
JavaScript canvas动画实现时钟效果
2020/02/10 Javascript
使用 Jest 和 Supertest 进行接口端点测试实例详解
2020/04/25 Javascript
[56:41]iG vs Winstrike 2018国际邀请赛小组赛BO2 第二场
2018/08/17 DOTA
[01:11:08]Winstrike vs NB 2018国际邀请赛淘汰赛BO1 8.21
2018/08/22 DOTA
跟老齐学Python之开始真正编程
2014/09/12 Python
Python自动化部署工具Fabric的简单上手指南
2016/04/19 Python
Python爬虫实战:分析《战狼2》豆瓣影评
2018/03/26 Python
用python爬取租房网站信息的代码
2018/12/14 Python
python匹配两个短语之间的字符实例
2018/12/25 Python
Python 调用PIL库失败的解决方法
2019/01/08 Python
python+openCV调用摄像头拍摄和处理图片的实现
2019/08/06 Python
Python Opencv图像处理基本操作代码详解
2020/08/31 Python
iostream与iostream.h的区别
2015/01/16 面试题
校园报刊亭创业计划书
2014/01/02 职场文书
日语专业求职信
2014/07/04 职场文书
数学教师个人总结
2015/02/06 职场文书
如何使用注解方式实现 Redis 分布式锁
2022/07/23 Redis