记录一下scrapy中settings的一些配置小结


Posted in Python onSeptember 28, 2020

本文主要介绍了scrapy settings配置,分享给大家,具体如下:

# 字符编码
FEED_EXPORT_ENCODING = 'utf-8'
# redis写法一
# REDIS_URL = 'redis://localhost:6379' 

# redis写法二
REDIS_HOST = '192.168.10.223'
REDIS_PORT = 6379
# 默认的 scrapy redis 会读取下面的密码和db
REDIS_PARAMS = {
 'password': '123456',
 'db': redis_db
}
# 对于失败的HTTP请求(如超时)进行重试会降低爬取效率,当爬取目标基数很大时,舍弃部分数据不影响大局,提高效率
# RETRY_ENABLED = False
# 请求下载超时时间,默认180秒
DOWNLOAD_TIMEOUT = 10
# 1:设置去重组件,使用的是scrapy_redis的去重组件,而不是scrapy自己的去重组件了
DUPEFILTER_CLASS = "scrapy_redis.dupefilter.RFPDupeFilter"
# 2:设置调度器,使用scrapy——redis重写的调度器,
# 而不再使用scrapy内部的调度器了
SCHEDULER = "scrapy_redis.scheduler.Scheduler"
# 3:可以实现断点爬取=jondir,(请求的记录不会丢失,会存储在redis数据库中,
# 不会清除redis的队列,下次直接从redis的队列中爬取)
SCHEDULER_PERSIST = True
# 4:设置任务队列的模式(三选一):
# SpiderPriorityQueue数据scrapy-redis默认使用的队列模式(
# 有自己的优先级)默认第一种
SCHEDULER_QUEUE_CLASS = "scrapy_redis.queue.SpiderPriorityQueue"
# 使用了队列的形式,任务先进先出。
# SCHEDULER_QUEUE_CLASS = "scrapy_redis.queue.SpiderQueue"
# 采用了栈的形式:任务先进后出
# SCHEDULER_QUEUE_CLASS = "scrapy_redis.queue.SpiderStack"

'''
用来控制当接收到的 response 头信息中的 Content-Length 和内容不匹配或者response chunk 未正确结束时的时所采取的操作。
当 DOWNLOAD_FAIL_ON_DATALOSS 为 True 的时候抛出 ResponseFailed([_DataLoss]) 错误
当设置为 False 时, 校验未通过的 response 将被忽略并且添加一个名为 dataloss 的 flag 到 response.flag
'''
DOWNLOAD_FAIL_ON_DATALOSS = False
MONGO_URI = 'mongodb://用户名:密码@ip:port'

到此这篇关于记录一下scrapy中settings的一些配置小结的文章就介绍到这了,更多相关scrapy settings配置内容请搜索三水点靠木以前的文章或继续浏览下面的相关文章希望大家以后多多支持三水点靠木!

Python 相关文章推荐
让python同时兼容python2和python3的8个技巧分享
Jul 11 Python
python实现端口转发器的方法
Mar 13 Python
使用Python制作自动推送微信消息提醒的备忘录功能
Sep 06 Python
python  ceiling divide 除法向上取整(或小数向上取整)的实例
Dec 27 Python
Python使用monkey.patch_all()解决协程阻塞问题
Apr 15 Python
python plt可视化——打印特殊符号和制作图例代码
Apr 17 Python
基于Python实现2种反转链表方法代码实例
Jul 06 Python
Flask中sqlalchemy模块的实例用法
Aug 02 Python
Django创建一个后台的基本步骤记录
Oct 02 Python
Python模块常用四种安装方式
Oct 20 Python
Python安装Bs4的多种方法
Nov 28 Python
Python基础之pandas数据合并
Apr 27 Python
使用scrapy ImagesPipeline爬取图片资源的示例代码
Sep 28 #Python
详解scrapy内置中间件的顺序
Sep 28 #Python
Python爬虫代理池搭建的方法步骤
Sep 28 #Python
浅析python 通⽤爬⾍和聚焦爬⾍
Sep 28 #Python
Scrapy 配置动态代理IP的实现
Sep 28 #Python
Scrapy中如何向Spider传入参数的方法实现
Sep 28 #Python
详解向scrapy中的spider传递参数的几种方法(2种)
Sep 28 #Python
You might like
PHP 将图片按创建时间进行分类存储的实现代码
2010/01/05 PHP
centos 5.6 升级php到5.3的方法
2011/05/14 PHP
PHP清除字符串中所有无用标签的方法
2014/12/01 PHP
javascript之更有效率的字符串替换
2008/08/02 Javascript
JS URL传中文参数引发的乱码问题
2009/09/02 Javascript
script标签属性type与language使用选择
2012/12/02 Javascript
js判断输入是否为数字的具体实例
2013/08/03 Javascript
js禁止回车提交表单的示例代码
2013/12/23 Javascript
JavaScript File分段上传
2016/03/10 Javascript
JavaScript 栈的详解及实例代码
2017/01/22 Javascript
vue鼠标移入添加class样式,鼠标移出去除样式(active)实现方法
2018/08/22 Javascript
JavaScript表格隔行变色和Tab标签页特效示例【附jQuery版】
2019/07/11 jQuery
微信内置浏览器图片查看器的代码实例
2019/10/08 Javascript
js实现登录时记住密码的方法分析
2020/04/05 Javascript
[05:48]DOTA2英雄梦之声vol21 屠夫
2014/06/20 DOTA
Python删除指定目录下过期文件的2个脚本分享
2014/04/10 Python
Python实现批量转换文件编码的方法
2015/07/28 Python
Python编程中字符串和列表的基本知识讲解
2015/10/14 Python
python构建自定义回调函数详解
2017/06/20 Python
Django读取Mysql数据并显示在前端的实例
2018/05/27 Python
查看TensorFlow checkpoint文件中的变量名和对应值方法
2018/06/14 Python
Python 脚本获取ES 存储容量的实例
2018/12/27 Python
Pygame的程序开始示例代码
2020/05/07 Python
澳大利亚玩具剧场:Toy Playhouse
2019/03/03 全球购物
Otticanet意大利:最顶尖的世界名牌眼镜, 能得到打折季的价格
2019/03/10 全球购物
惠普香港官方商店:HP香港
2019/04/30 全球购物
小学生自我评价范例
2013/09/24 职场文书
营销总经理的岗位职责
2013/12/15 职场文书
高中自我鉴定
2013/12/20 职场文书
希特勒经典演讲稿
2014/05/19 职场文书
2014年世界艾滋病日宣传活动总结
2014/11/18 职场文书
办公室岗位职责
2015/02/04 职场文书
2015年七夕情人节感言
2015/08/03 职场文书
迎客户欢迎词三篇
2019/09/27 职场文书
某学校的2019年度工作报告范本
2019/10/11 职场文书
为什么mysql字段要使用NOT NULL
2021/05/13 MySQL