编程 Python

Python之Scrapy爬虫框架安装及使用详解

Posted in Python onNovember 16, 2017

题记：早已听闻python爬虫框架的大名。近些天学习了下其中的Scrapy爬虫框架，将自己理解的跟大家分享。有表述不当之处，望大神们斧正。

一、初窥Scrapy

Scrapy是一个为了爬取网站数据，提取结构性数据而编写的应用框架。可以应用在包括数据挖掘，信息处理或存储历史数据等一系列的程序中。

其最初是为了页面抓取 (更确切来说, 网络抓取 )所设计的，也可以应用在获取API所返回的数据(例如 Amazon Associates Web Services ) 或者通用的网络爬虫。

本文档将通过介绍Scrapy背后的概念使您对其工作原理有所了解，并确定Scrapy是否是您所需要的。

当您准备好开始您的项目后，您可以参考入门教程。

二、Scrapy安装介绍

Scrapy框架运行平台及相关辅助工具

Python 2.7（Python最新版3.5，这里选择了2.7版本）
Python Package: pip and setuptools. 现在 pip 依赖 setuptools ，如果未安装，则会自动安装setuptools 。
lxml. 大多数Linux发行版自带了lxml。如果缺失，请查看http://lxml.de/installation.html
OpenSSL. 除了Windows(请查看平台安装指南)之外的系统都已经提供。
您可以使用pip来安装Scrapy(推荐使用pip来安装Python package).

pip install Scrapy

Windows下安装流程：

1、安装Python 2.7之后，您需要修改 PATH 环境变量，将Python的可执行程序及额外的脚本添加到系统路径中。将以下路径添加到 PATH 中:

C:\Python27\;C:\Python27\Scripts\;

除此之外，还可以用cmd命令来设置Path：

c:\python27\python.exe c:\python27\tools\scripts\win_add2path.py

安装配置完成之后，可以执行命令python --version查看安装的python版本。（如图所示）

Python之Scrapy爬虫框架安装及使用详解

2、从 http://sourceforge.net/projects/pywin32/ 安装 pywin32

请确认下载符合您系统的版本(win32或者amd64)

从 https://pip.pypa.io/en/latest/installing.html 安装 pip

3、打开命令行窗口，确认 pip 被正确安装:

pip --version

4、到目前为止Python 2.7 及 pip 已经可以正确运行了。接下来安装Scrapy:

pip install Scrapy

至此windows下Scrapy安装已经结束。

三、Scrapy入门教程

1、在cmd中创建Scrapy项目工程。

scrapy startproject tutorial

H:\python\scrapyDemo>scrapy startproject tutorial
New Scrapy project 'tutorial', using template directory 'f:\\python27\\lib\\site-packages\\scrapy\\templates\\project', created in:
 H:\python\scrapyDemo\tutorial

You can start your first spider with:
 cd tutorial
 scrapy genspider example example.com

2、文件目录结构如下：

Python之Scrapy爬虫框架安装及使用详解

解析scrapy框架结构：

scrapy.cfg: 项目的配置文件。
tutorial/: 该项目的python模块。之后您将在此加入代码。
tutorial/items.py: 项目中的item文件。
tutorial/pipelines.py: 项目中的pipelines文件。
tutorial/settings.py: 项目的设置文件。
tutorial/spiders/: 放置spider代码的目录。

3、编写简单的爬虫

1）、在item.py中配置需采集页面的字段实例。

# -*- coding: utf-8 -*-

# Define here the models for your scraped items
#
# See documentation in:
# http://doc.scrapy.org/en/latest/topics/items.html

import scrapy
from scrapy.item import Item, Field

class TutorialItem(Item):
 title = Field()
 author = Field()
 releasedate = Field()

2）、在tutorial/spiders/spider.py中书写要采集的网站以及分别采集各字段。

# -*-coding:utf-8-*-
import sys
from scrapy.linkextractors.sgml import SgmlLinkExtractor
from scrapy.spiders import CrawlSpider, Rule
from tutorial.items import TutorialItem

reload(sys)
sys.setdefaultencoding("utf-8")


class ListSpider(CrawlSpider):
 # 爬虫名称
 name = "tutorial"
 # 设置下载延时
 download_delay = 1
 # 允许域名
 allowed_domains = ["news.cnblogs.com"]
 # 开始URL
 start_urls = [
 "https://news.cnblogs.com"
 ]
 # 爬取规则,不带callback表示向该类url递归爬取
 rules = (
 Rule(SgmlLinkExtractor(allow=(r'https://news.cnblogs.com/n/page/\d',))),
 Rule(SgmlLinkExtractor(allow=(r'https://news.cnblogs.com/n/\d+',)), callback='parse_content'),
 )

 # 解析内容函数
 def parse_content(self, response):
 item = TutorialItem()

 # 当前URL
 title = response.selector.xpath('//div[@id="news_title"]')[0].extract().decode('utf-8')
 item['title'] = title

 author = response.selector.xpath('//div[@id="news_info"]/span/a/text()')[0].extract().decode('utf-8')
 item['author'] = author

 releasedate = response.selector.xpath('//div[@id="news_info"]/span[@class="time"]/text()')[0].extract().decode(
  'utf-8')
 item['releasedate'] = releasedate

 yield item

3、在tutorial/pipelines.py管道中保存数据。

# -*- coding: utf-8 -*-

# Define your item pipelines here
#
# Don't forget to add your pipeline to the ITEM_PIPELINES setting
# See: http://doc.scrapy.org/en/latest/topics/item-pipeline.html
import json
import codecs


class TutorialPipeline(object):
 def __init__(self):
 self.file = codecs.open('data.json', mode='wb', encoding='utf-8')#数据存储到data.json

 def process_item(self, item, spider):
 line = json.dumps(dict(item)) + "\n"
 self.file.write(line.decode("unicode_escape"))

 return item

4、tutorial/settings.py中配置执行环境。

# -*- coding: utf-8 -*-

BOT_NAME = 'tutorial'

SPIDER_MODULES = ['tutorial.spiders']
NEWSPIDER_MODULE = 'tutorial.spiders'

# 禁止cookies,防止被ban
COOKIES_ENABLED = False
COOKIES_ENABLES = False

# 设置Pipeline,此处实现数据写入文件
ITEM_PIPELINES = {
 'tutorial.pipelines.TutorialPipeline': 300
}

# 设置爬虫爬取的最大深度
DEPTH_LIMIT = 100

5、新建main文件执行爬虫代码。

from scrapy import cmdline
cmdline.execute("scrapy crawl tutorial".split())

最终，执行main.py后在data.json文件中获取到采集结果的json数据。

Python之Scrapy爬虫框架安装及使用详解

以上就是本文的全部内容，希望对大家的学习有所帮助，也希望大家多多支持三水点靠木。

Python之Scrapy爬虫框架安装及使用详解

- Author -

leerh

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Python 相关文章推荐

Python Web框架Pylons中使用MongoDB的例子

Dec 03 Python

python实现批量下载新浪博客的方法

Jun 15 Python

对Python的Django框架中的项目进行单元测试的方法

Apr 11 Python

Python中模块与包有相同名字的处理方法

May 05 Python

解决Ubuntu pip 安装 mysql-python包出错的问题

Jun 11 Python

Python3解释器知识点总结

Feb 19 Python

python中嵌套函数的实操步骤

Feb 27 Python

python3实现单目标粒子群算法

Nov 14 Python

python将logging模块封装成单独模块并实现动态切换Level方式

May 12 Python

python实现图片转换成素描和漫画格式

Aug 19 Python

python推导式的使用方法实例

Feb 28 Python

python获取带有返回值的多线程

May 02 Python

python字典操作实例详解

Nov 16 #Python

python实现报表自动化详解

Nov 16 #Python

TF-IDF算法解析与Python实现方法详解

Nov 16 #Python

疯狂上涨的Python 开发者应从2.x还是3.x着手?

Nov 16 #Python

Python自然语言处理之词干,词形与最大匹配算法代码详解

Nov 16 #Python

用不到50行的Python代码构建最小的区块链

Nov 16 #Python

python内置函数：lambda、map、filter简单介绍

Nov 16 #Python

You might like

PHP XML和数组互相转换详解

2016/10/26 PHP

Laravel 简单实现Ajax滚动加载示例

2019/10/22 PHP

thinkPHP框架乐观锁和悲观锁实例分析

2019/10/30 PHP

ThinkPHP5.1+Ajax实现的无刷新分页功能示例

2020/02/10 PHP

JS图片浏览组件PhotoLook的公开属性方法介绍和进阶实例代码

2010/11/09 Javascript

dojo学习第一天 Tab选项卡实现

2011/08/28 Javascript

基于jquery的跟随屏幕滚动代码

2012/07/24 Javascript

漂亮的jquery提示效果(仿腾讯弹出层)

2013/02/05 Javascript

jQuery操作元素css样式的三种方法

2014/06/04 Javascript

jQuery实现切换字体大小的方法

2015/03/10 Javascript

利用BootStrap的Carousel.js实现轮播图动画效果

2016/12/21 Javascript

原生js二级联动效果

2017/06/20 Javascript

js学习总结_基于数据类型检测的四种方式(必看)

2017/07/04 Javascript

AngularJS中的路由使用及实现代码

2017/10/09 Javascript

jquery ajaxfileupload异步上传插件

2017/11/21 jQuery

基于vue.js实现的分页

2018/03/13 Javascript

基于vue cli 通过命令行传参实现多环境配置

2018/07/12 Javascript

小程序中this.setData的使用和注意事项

2019/08/28 Javascript

原生js实现九宫格拖拽换位

2021/01/26 Javascript

[46:47]2014 DOTA2国际邀请赛中国区预选赛 DT VS HGT

2014/05/22 DOTA

[10:18]2018DOTA2国际邀请赛寻真——找回自信的TNCPredator

2018/08/13 DOTA

Python实现将数据库一键导出为Excel表格的实例

2016/12/30 Python

python numpy和list查询其中某个数的个数及定位方法

2018/06/27 Python

在python中创建指定大小的多维数组方式

2019/11/28 Python

英国莱斯特松木橡木家具网上商店：Choice Furniture Superstore

2019/07/05 全球购物

医学实习生自我鉴定

2013/12/12 职场文书

教师新年寄语

2014/04/03 职场文书

委托公证书范本

2014/04/03 职场文书

高中生操行评语

2014/04/25 职场文书

群众路线教育实践活动个人对照检查材料

2014/09/22 职场文书

银行委托书范本

2014/09/28 职场文书

2016初一新生军训心得体会

2016/01/11 职场文书

关于拾金不昧的感谢信（五篇）

2019/10/18 职场文书

解决ObjectMapper.convertValue() 遇到的一些问题

2021/06/30 Java/Android

Python中itertools库的四个函数介绍

2022/04/06 Python

Win11怎么添加用户?Win11添加用户账户的方法

2022/07/15 数码科技