Python爬虫框架Scrapy常用命令总结


Posted in Python onJuly 26, 2018

本文实例讲述了Python爬虫框架Scrapy常用命令。分享给大家供大家参考,具体如下:

在Scrapy中,工具命令分为两种,一种为全局命令,一种为项目命令

全局命令不需要依靠Scrapy项目就可以在全局中直接运行,而项目命令必须要在Scrapy项目中才可以运行

全局命令

全局命令有哪些呢,要想了解在Scrapy中有哪些全局命令,可以在不进入Scrapy项目所在目录的情况下,运行scrapy-h,如图所示:

Python爬虫框架Scrapy常用命令总结

可以看到,此时在可用命令在终端下展示出了常见的全局命令,分别为fetchrunspidersettingsshellstartprojectversionview

fetch命令

fetch命令主要用来显示爬虫爬取的过程.如下图所示:

Python爬虫框架Scrapy常用命令总结

在使用fetch命令时,同样可以使用某些参数进行相应的控制。那么fetch有哪些相关参数可以使用呢?我们可以通过scrpy fetch -h列出所有可以使用的fetch相关参数。比如我们可以使用?headers显示头信息,也可以使用?nolog控制不显示日志信息,还可以使用?spider=SPIDER参数来控制使用哪个爬虫,通过?logfile=FILE指定存储日志信息的文件,通过?loglevel=LEVEL控制日志等级。举个栗子:

# 显示头信息,并且不显示日志信息
scrpay -fetch --headers --nolog http://www.baidu.com

sunspider命令

通过runspider命令可以不依托scrapy的爬虫项目,直接运行一个爬虫文件

# first.py为自定义的一个爬虫文件
scrapy runspider first.py

settings命令

在scrapy项目所在的目录中使用settings命令查看的使用对应的项目配置信息,如果在scrapy项目所在的目录外使用settings命令查看的Scrapy默认的配置信息

# 在项目中使用此命令打印的为BOT_NAME对应的值,即scrapy项目名称。
# 在项目外使用此命令打印的为scrapybot
scrapy settings --get BOT_NAME

shell命令

通过shell命令可以启动Scrapy的交互终端。

Scrapy的交互终端经常在开发以及调试的时候用到,使用Scrapy的交互终端可以实现在不启动Scrapy爬虫的情况下,对网站响应进行调试,同样,在该交互终端下,我们也可以写一些Python代码进行相应测试。

Python爬虫框架Scrapy常用命令总结

>>>后面可以输入交互命令以及相应的代码

startproject命令

用于创建scrapy项目

version命令

查看scrapy版本

view命令

用于下载某个网页,然后通过浏览器查看

项目命令

bench命令

测试本地硬件的性能

scrapy bench

genspider命令

用于创建爬虫文件,这是一种快速创建爬虫文件的方式。

# scrpay genspider -t 基本格式
# basic 模板
# baidu.com 爬取的域名
scrapy genspider -t basic xxx baidu.com

此时在spider文件夹下会生成一个以xxx命名的py文件。可以使用scrapy genspider -l查看所有可用爬虫模板。当前可用的爬虫模板有:basiccrawlcsvfeedxmlfeed

check命令

使用check命令可以实现对某个爬虫文件进行合同检查,即测试.

# xxx为爬虫名
scrapy check xxx

crawl命令

启动某个爬虫

# xxx为爬虫名
scrapy crawl xxx

list命令

列出当前可使用的爬虫文件

scrapy list

edit命令

编辑爬虫文件

scrapy edit xxx

parse命令

通过parse命令,我们可以实现获取指定的URL网址,并使用对应的爬虫文件进行处理和分析

日志等级

等级名 含义
CRITICAL 发生了最严重的错误
ERROR 发生了必须立即处理的错误
WARNING 出现了一些警告信息,即存在潜在错误
INFO 输出一些提示显示
DEBUG 输出一些调试信息

更多关于Python相关内容可查看本站专题:《Python Socket编程技巧总结》、《Python正则表达式用法总结》、《Python数据结构与算法教程》、《Python函数使用技巧总结》、《Python字符串操作技巧汇总》、《Python入门与进阶经典教程》及《Python文件与目录操作技巧汇总》

希望本文所述对大家Python程序设计有所帮助。

Python 相关文章推荐
Python批量重命名同一文件夹下文件的方法
May 25 Python
python实现将英文单词表示的数字转换成阿拉伯数字的方法
Jul 02 Python
Python中optparser库用法实例详解
Jan 26 Python
Python实现中一次读取多个值的方法
Apr 22 Python
对numpy中向量式三目运算符详解
Oct 31 Python
python 实现分页显示从es中获取的数据方法
Dec 26 Python
Python 处理图片像素点的实例
Jan 08 Python
keras中模型训练class_weight,sample_weight区别说明
May 23 Python
Python叠加矩形框图层2种方法及效果
Jun 18 Python
Python 开发工具通过 agent 代理使用的方法
Sep 27 Python
Python Parser的用法
May 12 Python
总结Python变量的相关知识
Jun 28 Python
Python退火算法在高次方程的应用
Jul 26 #Python
Python爬虫框架Scrapy基本用法入门教程
Jul 26 #Python
Tensorflow 合并通道及加载子模型的方法
Jul 26 #Python
解决tensorflow测试模型时NotFoundError错误的问题
Jul 26 #Python
tensorflow 恢复指定层与不同层指定不同学习率的方法
Jul 26 #Python
kaggle+mnist实现手写字体识别
Jul 26 #Python
解决tensorflow模型参数保存和加载的问题
Jul 26 #Python
You might like
PHP概述.
2006/10/09 PHP
基于PHP与XML的PDF文档生成技术
2006/10/09 PHP
模仿OSO的论坛(四)
2006/10/09 PHP
逐步提升php框架的性能
2008/01/10 PHP
PHP对字符串的递增运算分析
2010/08/08 PHP
数组与类使用PHP的可变变量名需要的注意的问题
2013/06/20 PHP
div li的多行多列 无刷新分页示例代码
2013/10/16 PHP
PHP根据IP判断地区名信息的示例代码
2014/03/03 PHP
thinkPHP显示不出验证码的原因与解决方法分析
2017/05/20 PHP
php 读写json文件及修改json的方法
2018/03/07 PHP
一个简单的js渐显(fadeIn)渐隐(fadeOut)类
2010/06/19 Javascript
我的NodeJs学习小结(一)
2014/07/06 NodeJs
实例讲解JQuery中this和$(this)区别
2014/12/08 Javascript
NodeJS使用jQuery选择器操作DOM
2015/02/13 NodeJs
jQuery判断数组是否包含了指定的元素
2015/03/10 Javascript
js+html5操作sqlite数据库的方法
2016/02/02 Javascript
Web Uploader文件上传插件使用详解
2016/05/10 Javascript
JS验证全角与半角及相互转化的介绍
2017/05/18 Javascript
JS中正则表达式要注意lastIndex属性
2017/08/08 Javascript
JS实现问卷星自动填问卷脚本并在两秒自动提交功能
2020/06/17 Javascript
vue axios登录请求拦截器
2018/04/02 Javascript
vue click.stop阻止点击事件继续传播的方法
2018/09/04 Javascript
原生JS实现逼真的图片3D旋转效果详解
2019/02/16 Javascript
在Docker上部署Python的Flask框架的教程
2015/04/08 Python
python日志记录模块实例及改进
2017/02/12 Python
Python内置函数—vars的具体使用方法
2017/12/04 Python
Python学习笔记之pandas索引列、过滤、分组、求和功能示例
2019/06/03 Python
使用Python进行中文繁简转换的实现代码
2019/10/18 Python
python实现图片横向和纵向拼接
2020/03/05 Python
简单了解Python变量作用域正确使用方法
2020/06/12 Python
关于HTML5语义标签的实践(blog页面)
2016/07/12 HTML / CSS
Crocs卡骆驰洞洞鞋日本官方网站:Crocs日本
2016/08/25 全球购物
邀请函格式范文
2015/02/02 职场文书
幼儿园见习总结
2015/06/23 职场文书
深入详解JS函数的柯里化
2021/06/09 Javascript
Python利用FlashText算法实现替换字符串
2022/03/31 Python