pycharm下打开、执行并调试scrapy爬虫程序的方法


Posted in Python onNovember 29, 2017

首先得有一个Scrapy项目,我在Desktop上新建一个Scrapy的项目叫test,在Desktop目录打开命令行,键入命令:scrapy startproject test1

pycharm下打开、执行并调试scrapy爬虫程序的方法

目录结构如下:

pycharm下打开、执行并调试scrapy爬虫程序的方法

pycharm下打开、执行并调试scrapy爬虫程序的方法

pycharm下打开、执行并调试scrapy爬虫程序的方法

打开Pycharm,选择open

pycharm下打开、执行并调试scrapy爬虫程序的方法

选择项目,ok

pycharm下打开、执行并调试scrapy爬虫程序的方法

打开如下界面之后,按alt + 1, 打开project 面板

pycharm下打开、执行并调试scrapy爬虫程序的方法

pycharm下打开、执行并调试scrapy爬虫程序的方法

在test1/spiders/,文件夹下,新建一个爬虫spider.py, 注意代码中的name="dmoz"。这个名字后面会用到。

pycharm下打开、执行并调试scrapy爬虫程序的方法

在test1目录和scrapy.cfg同级目录下面,新建一个begin.py文件(便于理解可以写成main.py),注意箭头2所指的名字和第5步中的name='dmoz'名字是一样的。

from scrapy import cmdline
cmdline.execute("scrapy crawl dmoz".split())

pycharm下打开、执行并调试scrapy爬虫程序的方法

7. 上面把文件搞定了,下面要配置一下pycharm了。点击Run->Edit Configurations

pycharm下打开、执行并调试scrapy爬虫程序的方法

8. 新建一个运行的python模块

pycharm下打开、执行并调试scrapy爬虫程序的方法

9. Name:改成spider; script:选择刚才新建的那个begin.py文件;Working Direciton:改成自己的工作目录

pycharm下打开、执行并调试scrapy爬虫程序的方法

10. 至此,大功告成了,点击下图,右上角的按钮就能运行了。

pycharm下打开、执行并调试scrapy爬虫程序的方法

调试

可以在其他代码中设置断点,就可以debug运行

pycharm下打开、执行并调试scrapy爬虫程序的方法

pycharm下打开、执行并调试scrapy爬虫程序的方法

遇到问题

1. Unknown command: crawl

调试运行,断点并未命中,控制台输出信息如下:

H:\Python\Python36\python.exe "H:\Program Files (x86)\JetBrains\PyCharm Community Edition 4.5.4\helpers\pydev\pydevd.py" --multiproc --client 127.0.0.1 --port 59810 --file H:/Python/Python36/Lib/site-packages/scrapy/cmdline.py crawl quotes -o quotes.jl
pydev debugger: process 4740 is connecting

Connected to pydev debugger (build 141.3058)
Scrapy 1.3.2 - no active project

Unknown command: crawl

Use "scrapy" to see available commands

Process finished with exit code 2

工作目录设置有误,造成无法识别 scrapy 命令,按照上文所说,将工作目录设置为包含 scrapy.cfg,重新运行,问题解决。

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持三水点靠木。

Python 相关文章推荐
python中类的一些方法分析
Sep 25 Python
Python多线程下载文件的方法
Jul 10 Python
在Django中使用Sitemap的方法讲解
Jul 22 Python
Python selenium 三种等待方式解读
Sep 15 Python
VSCode中自动为Python文件添加头部注释
Nov 14 Python
将python安装信息加入注册表的示例
Nov 20 Python
Python openpyxl 插入折线图实例
Apr 17 Python
python的pip有什么用
Jun 17 Python
python 进程池pool使用详解
Oct 15 Python
Python基于staticmethod装饰器标示静态方法
Oct 17 Python
Python为何不支持switch语句原理详解
Oct 21 Python
Python用摘要算法生成token及检验token的示例代码
Dec 01 Python
Python快速排序算法实例分析
Nov 29 #Python
Python3学习urllib的使用方法示例
Nov 29 #Python
Python实现的选择排序算法示例
Nov 29 #Python
Python实现的桶排序算法示例
Nov 29 #Python
[原创]教女朋友学Python(一)运行环境搭建
Nov 29 #Python
对变量赋值的理解--Pyton中让两个值互换的实现方法
Nov 29 #Python
基于Python函数的作用域规则和闭包(详解)
Nov 29 #Python
You might like
php模拟asp中的XmlHttpRequest实现http请求的代码
2011/03/24 PHP
php的ajax简单实例
2014/02/27 PHP
PHP循环遍历数组的3种方法list()、each()和while总结
2014/11/19 PHP
PHP实现根据密码长度显示安全条
2017/07/04 PHP
javascript克隆对象深度介绍
2012/11/20 Javascript
js导航菜单(自写)简单大方
2013/03/28 Javascript
javascript作用域链(Scope Chain)用法实例解析
2015/11/30 Javascript
详解JavaScript UTC时间转换方法
2016/01/07 Javascript
jQuery取消特定的click事件
2016/02/29 Javascript
Node.js的Web模板引擎ejs的入门使用教程
2016/06/06 Javascript
d3.js实现简单的网络拓扑图实例代码
2016/11/06 Javascript
AngularJS实现页面定时刷新
2017/03/14 Javascript
JS运动特效之任意值添加运动的方法分析
2018/01/24 Javascript
几个你不知道的技巧助你写出更优雅的vue.js代码
2018/06/11 Javascript
JavaScript时间日期操作实例小结【5个示例】
2018/12/22 Javascript
JavaScript学习教程之cookie与webstorage
2019/06/23 Javascript
[01:09:13]DOTA2-DPC中国联赛 正赛 CDEC vs XG BO3 第三场 1月19日
2021/03/11 DOTA
浅析Python基础-流程控制
2016/03/18 Python
python版本的仿windows计划任务工具
2018/04/30 Python
python多线程调用exit无法退出的解决方法
2019/02/18 Python
django自带serializers序列化返回指定字段的方法
2019/08/21 Python
python的pyecharts绘制各种图表详细(附代码)
2019/11/11 Python
浅谈python已知元素,获取元素索引(numpy,pandas)
2019/11/26 Python
opencv resize图片为正方形尺寸的实现方法
2019/12/26 Python
keras load model时出现Missing Layer错误的解决方式
2020/06/11 Python
Python自动巡检H3C交换机实现过程解析
2020/08/14 Python
浅谈html5标签css3的常用样式
2016/10/20 HTML / CSS
AmazeUI导航的示例代码
2020/08/14 HTML / CSS
日本最新流行服饰网购:Nissen
2016/07/24 全球购物
佳能英国官方网站:Canon UK
2017/08/08 全球购物
介绍下WebSphere的安全性
2013/01/31 面试题
如何查找和删除数据库中的重复数据
2014/11/05 面试题
个人查摆剖析材料
2014/02/04 职场文书
课外活动总结范文
2014/07/09 职场文书
销售团队获奖感言
2014/08/14 职场文书
2015迎新晚会活动总结
2015/07/16 职场文书