scrapy redis配置文件setting参数详解


Posted in Python onNovember 18, 2020

scrapy项目 setting.py

#Resis 设置

#使能Redis调度器

SCHEDULER = 'scrapy_redis.scheduler.Scheduler'

#所有spider通过redis使用同一个去重过滤器

DUPEFILTER_CLASS = 'scrapy_redis.dupefilter.RFPDupeFilter'

#不清除Redis队列、这样可以暂停/恢复 爬取

#SCHEDULER_PERSIST = True

#SCHEDULER_QUEUE_CLASS ='scrapy_redis.queue.PriorityQueue' #默认队列,优先级队列
#备用队列。
#SCHEDULER_QUEUE_CLASS ='scrapy_redis.queue.FifoQueue' #先进先出队列
#SCHEDULER_QUEUE_CLASS ='scrapy_redis.queue.LifoQueue' #后进先出队列

#最大空闲时间防止分布式爬虫因为等待而关闭

#SCHEDULER_IDLE_BEFORE_CLOSE = 10


#将抓取的item存储在Redis中以进行后续处理。

ITEM_PIPELINES = {
   'scrapy_redis.pipelines.RedisPipeline':300,
}

# The item pipeline serializes and stores the items in this redis key.
#item pipeline 将items 序列化 并用如下key名储存在redis中

#REDIS_ITEMS_KEY = '%(spider)s:items'

#默认的item序列化方法是ScrapyJSONEncoder,你也可以使用自定义的序列化方式

#REDIS_ITEMS_SERIALIZER = 'json.dumps'


#设置redis地址 端口 密码

REDIS_HOST = 'localhost'
REDIS_HOST = 6379

#也可以通过下面这种方法设置redis地址 端口和密码,一旦设置了这个,则会覆盖上面所设置的REDIS_HOST和REDIS_HOST

 REDIS_URL = 'redis://root:redis_pass@xxx.xx.xx.xx:6379' 
 #root用户名,redis_pass:你设置的redis验证密码,xxxx:你的主机ip

#你设置的redis其他参数 Custom redis client parameters (i.e.: socket timeout, etc.)
REDIS_PARAMS = {}


#自定义的redis客户端类
#REDIS_PARAMS['redis_cls'] = 'myproject.RedisClient'

# If True, it uses redis ``zrevrange`` and ``zremrangebyrank`` operation. You have to use the ``zadd``
# command to add URLS and Scores to redis queue. This could be useful if you
# want to use priority and avoid duplicates in your start urls list.

#REDIS_START_URLS_AS_SET = False

# 默认的RedisSpider 或 RedisCrawlSpider start urls key

#REDIS_START_URLS_KEY = '%(name)s:start_urls'

#redis的默认encoding是utf-8,如果你想用其他编码可以进行如下设置:

#REDIS_ENCODING = 'latin1'

类scrapy_redis.spiders.RedisSpider使spider可以从redis数据库中读取URL。Redis队列中的URL将被爬取,如果第一个请求产生更多请求,则spider将处理这些请求,然后再从Redis中获取另一个URL。

创建spider

from scrapy_redis.spiders import RedisSpider

class MySpider(RedisSpider):
  name = 'myspider'

  def parse(self, response):
    # do stuff
    pass

在redis-cli设置start_url

redis-cli lpush myspider:start_urls http://google.com

到此这篇关于scrapy redis配置文件setting参数详解的文章就介绍到这了,更多相关scrapy redis配置setting参数内容请搜索三水点靠木以前的文章或继续浏览下面的相关文章希望大家以后多多支持三水点靠木!

Python 相关文章推荐
python抓取网页时字符集转换问题处理方案分享
Jun 19 Python
Python创建xml的方法
Mar 10 Python
Windows下Python的Django框架环境部署及应用编写入门
Mar 10 Python
Python实现接受任意个数参数的函数方法
Apr 21 Python
Tornado实现多进程/多线程的HTTP服务详解
Jul 25 Python
django基础学习之send_mail功能
Aug 07 Python
Python requests设置代理的方法步骤
Feb 23 Python
python如何编写win程序
Jun 08 Python
python实现斗地主分牌洗牌
Jun 22 Python
python 6种方法实现单例模式
Dec 15 Python
Python数组变形的几种实现方法
May 30 Python
Python实现聚类K-means算法详解
Jul 15 Python
Scrapy-Redis之RedisSpider与RedisCrawlSpider详解
Nov 18 #Python
详解Scrapy Redis入门实战
Nov 18 #Python
如何在scrapy中集成selenium爬取网页的方法
Nov 18 #Python
Python 实现键盘鼠标按键模拟
Nov 18 #Python
如何向scrapy中的spider传递参数的几种方法
Nov 18 #Python
python更新数据库中某个字段的数据(方法详解)
Nov 18 #Python
Python下载的11种姿势(小结)
Nov 18 #Python
You might like
PHPlet在Windows下的安装
2006/10/09 PHP
数组与类使用PHP的可变变量名需要的注意的问题
2013/06/20 PHP
php加密算法之实现可逆加密算法和解密分享
2014/01/21 PHP
推荐十款免费 WordPress 插件
2015/03/24 PHP
深入理解PHP变量的值类型和引用类型
2015/10/21 PHP
thinkPHP自动验证机制详解
2016/12/05 PHP
PHP实现找出链表中环的入口节点
2018/01/16 PHP
Javascript miscellanea -display data real time, using window.status
2007/01/09 Javascript
JS正则中的RegExp对象对象
2012/11/07 Javascript
JavaScript中OnLoad几种使用方法
2012/12/15 Javascript
javascript监听鼠标滚轮事件浅析
2014/06/05 Javascript
jquery实现简单合拢与展开网页面板的方法
2015/09/01 Javascript
JS实现的打字机效果完整实例
2016/06/20 Javascript
js实现前端图片上传即时预览功能
2017/08/02 Javascript
vue中的过滤器实例代码详解
2019/06/06 Javascript
详解Webpack如何引入CDN链接来优化编译后的体积
2019/06/21 Javascript
node实现爬虫的几种简易方式
2019/08/22 Javascript
Python实现Youku视频批量下载功能
2017/03/14 Python
Python3.5编程实现修改IIS WEB.CONFIG的方法示例
2017/08/18 Python
TensorFlow模型保存和提取的方法
2018/03/08 Python
Python实现string字符串连接的方法总结【8种方式】
2018/07/06 Python
mac使用python识别图形验证码功能
2020/01/10 Python
美国领先的礼品卡网站:GiftCards.com
2016/11/02 全球购物
澳大利亚先进的皮肤和激光诊所购物网站:Soho Skincare
2018/10/15 全球购物
MYPROTEIN澳大利亚官方网站:欧洲运动营养品牌
2019/06/26 全球购物
台湾7-ELEVEN线上购物中心:7-11
2021/01/21 全球购物
澳大利亚在线性感内衣商店:Fantasy Lingerie
2021/02/07 全球购物
土木工程建筑专业毕业生求职信
2013/10/21 职场文书
主管会计岗位责任制
2014/02/10 职场文书
新员工试用期自我鉴定
2014/04/17 职场文书
服务明星事迹材料
2014/12/29 职场文书
特此通知格式
2015/04/27 职场文书
2016中秋节问候语
2015/11/11 职场文书
看看如何用Python绘制小米新版天价logo
2021/04/20 Python
解决Mysql中的innoDB幻读问题
2022/04/29 MySQL
详解Python中的for循环
2022/04/30 Python