使用Python的Scrapy框架十分钟爬取美女图


Posted in Python onDecember 26, 2016

简介

scrapy 是一个 python 下面功能丰富、使用快捷方便的爬虫框架。用 scrapy 可以快速的开发一个简单的爬虫,官方给出的一个简单例子足以证明其强大:

使用Python的Scrapy框架十分钟爬取美女图

快速开发

下面开始10分钟倒计时:

当然开始前,可以先看看之前我们写过的 scrapy 入门文章 《零基础写python爬虫之使用Scrapy框架编写爬虫

1. 初始化项目

scrapy startproject mzt
cd mzt
scrapy genspider meizitu meizitu.com

2. 添加 spider 代码:

定义 scrapy.Item ,添加 image_urls 和 images ,为下载图片做准备。

修改 start_urls 为初始页面, 添加 parse 用于处理列表页, 添加 parse_item 处理项目页面。

使用Python的Scrapy框架十分钟爬取美女图

3. 修改配置文件:

DOWNLOAD_DELAY = 1 # 添加下载延迟配置
ITEM_PIPELINES = {'scrapy.pipelines.images.ImagesPipeline': 1} # 添加图片下载 pipeline
IMAGES_STORE = '.' # 设置图片保存目录

4. 运行项目:

scrapy crawl meizitu

看,项目运行效果图

使用Python的Scrapy框架十分钟爬取美女图

等待一会儿,就是收获的时候了

使用Python的Scrapy框架十分钟爬取美女图

使用Python的Scrapy框架十分钟爬取美女图

总结

以上就是这篇文章的全部内容了,希望本文的内容对大家的学习或者工作能带来一定的帮助,如果有疑问大家可以留言交流。

Python 相关文章推荐
python创建和删除目录的方法
Apr 29 Python
python实现将英文单词表示的数字转换成阿拉伯数字的方法
Jul 02 Python
python去掉行尾的换行符方法
Jan 04 Python
python3 对list中每个元素进行处理的方法
Jun 29 Python
对Python模块导入时全局变量__all__的作用详解
Jan 11 Python
浅谈Python基础—判断和循环
Mar 22 Python
查看python安装路径及pip安装的包列表及路径
Apr 03 Python
python定时按日期备份MySQL数据并压缩
Apr 19 Python
PyCharm 2020 激活到 2100 年的教程
Mar 25 Python
django rest framework serializers序列化实例
May 13 Python
python如何支持并发方法详解
Jul 25 Python
用Python生成会跳舞的美女
Jan 18 Python
Python中如何获取类属性的列表
Dec 26 #Python
Python中强大的命令行库click入门教程
Dec 26 #Python
Python快速从注释生成文档的方法
Dec 26 #Python
浅谈Python类的__getitem__和__setitem__特殊方法
Dec 25 #Python
解决pyqt中ui编译成窗体.py中文乱码的问题
Dec 23 #Python
详解python进行mp3格式判断
Dec 23 #Python
详解python发送各类邮件的主要方法
Dec 22 #Python
You might like
谈谈PHP语法(3)
2006/10/09 PHP
PHP中的多种加密技术及代码示例解析
2016/10/20 PHP
PHP用户验证和标签推荐的简单使用
2016/10/31 PHP
php 中奖概率算法实现代码
2017/01/25 PHP
js 函数的副作用分析
2011/08/23 Javascript
Jquery图片滚动与幻灯片的实例代码
2013/04/08 Javascript
javascript-表格排序(降序/反序)实现介绍(附图)
2013/05/30 Javascript
jQuery中ajax和post处理json的不同示例对比
2014/11/02 Javascript
浅谈JS日期(Date)处理函数
2014/12/07 Javascript
js检测判断日期大于多少天的方法
2015/05/04 Javascript
微信小程序 wxapp地图 map详解
2016/10/31 Javascript
利用n工具轻松管理Node.js的版本
2017/04/21 Javascript
详解vue+webpack+express中间件接口使用
2018/07/17 Javascript
vue2 中二级路由高亮问题及配置方法
2019/06/10 Javascript
jQuery实现验证用户登录
2019/12/10 jQuery
原生javascript制作的拼图游戏实现方法详解
2020/02/23 Javascript
vue实现树状表格效果
2020/12/29 Vue.js
[01:32:10]NAVI vs VG Supermajor 败者组 BO3 第一场 6.5
2018/06/06 DOTA
Python实现大文件排序的方法
2015/07/10 Python
Python将图片转换为字符画的方法
2020/06/16 Python
pandas 数据实现行间计算的方法
2018/06/08 Python
Python 正则表达式 re.match/re.search/re.sub的使用解析
2019/07/22 Python
Python 共享变量加锁、释放详解
2019/08/28 Python
pandas按行按列遍历Dataframe的几种方式
2019/10/23 Python
Python3 读取Word文件方式
2020/02/13 Python
python re模块常见用法例举
2021/03/01 Python
债务纠纷委托书
2014/08/30 职场文书
医德医魂心得体会
2014/09/11 职场文书
趣味运动会加油词
2015/07/18 职场文书
小学体育队列队形教学反思
2016/02/16 职场文书
Html5生成验证码的示例代码
2021/05/10 Javascript
pytorch 权重weight 与 梯度grad 可视化操作
2021/06/05 Python
看完这篇文章获得一些java if优化技巧
2021/07/15 Java/Android
图文详解nginx日志切割的实现
2022/01/18 Servers
Redis特殊数据类型HyperLogLog基数统计算法讲解
2022/06/01 Redis
MySQL数据管理操作示例讲解
2022/12/24 MySQL