Python中Pyspider爬虫框架的基本使用详解


Posted in Python onJanuary 27, 2021

1.pyspider介绍  

     一个国人编写的强大的网络爬虫系统并带有强大的WebUI。采用Python语言编写,分布式架构,支持多种数据库后端,强大的WebUI支持脚本编辑器,任务监视器,项目管理器以及结果查看器。

  • 用Python编写脚本
  • 功能强大的WebUI,包含脚本编辑器,任务监视器,项目管理器和结果查看器
  • MySQL,MongoDB,Redis,SQLite,Elasticsearch ; PostgreSQL与SQLAlchemy作为数据库后端
  • RabbitMQ,Beanstalk,Redis和Kombu作为消息队列
  • 任务优先级,重试,定期,按年龄重新抓取等...
  • 分布式架构,抓取JavaScript页面,Python 2和3等... 

2.pyspider文档

1>中文文档:http://www.pyspider.cn/

2>英文文档:http://docs.pyspider.org/

3.pyspider安装

打开cmd命令行工具,执行命令

pip install pyspider

Python中Pyspider爬虫框架的基本使用详解

出现下图则安装成功

Python中Pyspider爬虫框架的基本使用详解

4.pyspider启动服务,进入WebUI界面

安装pyspider后,打开cmd命令工具,执行命令来启动服务器

pyspider

Python中Pyspider爬虫框架的基本使用详解

出现下图则启动服务成功,默认地址端口为127.0.0.1:5000

Python中Pyspider爬虫框架的基本使用详解

输入地址127.0.0.1:5000,打开WebUI界面

Python中Pyspider爬虫框架的基本使用详解

队列统计是为了方便查看爬虫状态,优化爬虫爬取速度新增的状态统计.每个组件之间的数字就是对应不同队列的排队数量.通常来是0或是个位数.如果达到了几十甚至一百说明下游组件出现了瓶颈或错误,需要分析处理.

新建项目:pyspider与scrapy最大的区别就在这,pyspider新建项目调试项目完全在web下进行,而scrapy是在命令行下开发并运行测试.

组名:项目新建后一般来说是不能修改项目名的,如果需要特殊标记可修改组名.直接在组名上点鼠标左键进行修改.注意:组名改为delete后如果状态为stop状态,24小时后项目会被系统删除.

运行状态:这一栏显示的是当前项目的运行状态.每个项目的运行状态都是单独设置的.直接在每个项目的运行状态上点鼠标左键进行修改.运行分为五个状态:TODO,STOP,CHECKING,DEBUG,RUNNING.各状态说明:TODO是新建项目后的默认状态,不会运行项目.STOP状态是停止状态,也不会运行.CHECHING是修改项目代码后自动变的状态.DEBUG是调试模式,遇到错误信息会停止继续运行,RUNNING是运行状态,遇到错误会自动尝试,如果还是错误会跳过错误的任务继续运行.

速度控制:很多朋友安装好用说爬的慢,多数情况是速度被限制了.这个功能就是速度设置项.rate是每秒爬取页面数,burst是并发数.如1/3是三个并发,每秒爬取一个页面.

简单统计:这个功能只是简单的做的运行状态统计,5m是五分钟内任务执行情况,1h是一小时内运行任务统计,1d是一天内运行统计,all是所有的任务统计.

运行:run按钮是项目初次运行需要点的按钮,这个功能会运行项目的on_start方法来生成入口任务.

任务列表:显示最新任务列表,方便查看状态,查看错误等

结果查看:查看项目爬取的结果.

5.创建pyspider项目

点击上图中的新建项目按钮

Python中Pyspider爬虫框架的基本使用详解

6.创建后的pyspider项目

Python中Pyspider爬虫框架的基本使用详解

Python中Pyspider爬虫框架的基本使用详解

Python中Pyspider爬虫框架的基本使用详解

到此这篇关于Python中Pyspider爬虫框架的基本使用详解的文章就介绍到这了,更多相关Pyspider爬虫框架使用内容请搜索三水点靠木以前的文章或继续浏览下面的相关文章希望大家以后多多支持三水点靠木!

Python 相关文章推荐
python 判断一个进程是否存在
Apr 09 Python
Python list操作用法总结
Nov 10 Python
Python编程实现微信企业号文本消息推送功能示例
Aug 21 Python
PyQt5实现类似别踩白块游戏
Jan 24 Python
TensorFlow实现简单的CNN的方法
Jul 18 Python
解决Python计算矩阵乘向量,矩阵乘实数的一些小错误
Aug 26 Python
Python倒排索引之查找包含某主题或单词的文件
Nov 13 Python
linux环境下安装python虚拟环境及注意事项
Jan 07 Python
python实现输入三角形边长自动作图求面积案例
Apr 12 Python
Python参数传递对象的引用原理解析
May 22 Python
Python使用urlretrieve实现直接远程下载图片的示例代码
Aug 17 Python
python中的plt.cm.Paired用法说明
May 31 Python
Python3 + Appium + 安卓模拟器实现APP自动化测试并生成测试报告
Jan 27 #Python
一个入门级python爬虫教程详解
Jan 27 #Python
python+selenium爬取微博热搜存入Mysql的实现方法
Jan 27 #Python
Python实现网络聊天室的示例代码(支持多人聊天与私聊)
Jan 27 #Python
基于Python的接口自动化unittest测试框架和ddt数据驱动详解
Jan 27 #Python
python实现scrapy爬虫每天定时抓取数据的示例代码
Jan 27 #Python
使用bandit对目标python代码进行安全函数扫描的案例分析
Jan 27 #Python
You might like
全国FM电台频率大全 - 15 山东省
2020/03/11 无线电
Warning: session_destroy() : Trying to destroy uninitialized sessionq错误
2011/06/16 PHP
Yii入门教程之Yii安装及hello world
2014/11/25 PHP
PHP生成唯一ID之SnowFlake算法
2016/12/17 PHP
Laravel-admin之修改操作日志的方法
2019/09/30 PHP
splice slice区别
2006/10/09 Javascript
JavaScript 异步调用框架 (Part 3 - 代码实现)
2009/08/04 Javascript
类似CSDN图片切换效果脚本
2009/09/17 Javascript
jQuery 源码分析笔记(3) Deferred机制
2011/06/19 Javascript
js处理json以及字符串的比较等常用操作
2013/09/08 Javascript
js实现日历可获得指定日期周数及星期几示例分享(js获取星期几)
2014/03/14 Javascript
JS实现点击颜色块切换指定区域背景颜色的方法
2015/02/25 Javascript
AngularJs学习第八篇 过滤器filter创建
2016/06/08 Javascript
浅谈JS之iframe中的窗口
2016/09/13 Javascript
JavaScript原生编写《飞机大战坦克》游戏完整实例
2017/01/04 Javascript
JavaScript原生节点操作小结
2017/01/17 Javascript
基于vue-cli npm run build之后vendor.js文件过大的解决方法
2018/09/27 Javascript
JQuery的加载和选择器用法简单示例
2019/05/13 jQuery
vue在路由中验证token是否存在的简单实现
2019/11/11 Javascript
[01:02:20]Mineski vs TNC 2019国际邀请赛小组赛 BO2 第二场 8.15
2019/08/16 DOTA
python得到qq句柄,并显示在前台的方法
2018/10/14 Python
python使用adbapi实现MySQL数据库的异步存储
2019/03/19 Python
Python3.0中普通方法、类方法和静态方法的比较
2019/05/03 Python
基于Python实现拆分和合并GIF动态图
2019/10/22 Python
pytorch实现查看当前学习率
2020/06/24 Python
基于tf.shape(tensor)和tensor.shape()的区别说明
2020/06/30 Python
python 制作网站小说下载器
2021/02/20 Python
馥蕾诗美国官网:Fresh美国
2019/10/09 全球购物
大学生军训自我鉴定
2014/02/12 职场文书
高一新生军训方案
2014/05/12 职场文书
教师党员自我评议不足范文
2014/10/19 职场文书
2014年车间主任工作总结
2014/12/10 职场文书
模范教师材料大全
2014/12/16 职场文书
房产销售员2015年终工作总结
2015/10/22 职场文书
小学学习委员竞选稿
2015/11/20 职场文书
vue如何使用模拟的json数据查看效果
2022/03/31 Vue.js