编程 Python

Python爬虫Scrapy框架CrawlSpider原理及使用案例

Posted in Python onNovember 20, 2020

提问：如果想要通过爬虫程序去爬取”糗百“全站数据新闻数据的话，有几种实现方法？

方法一：基于Scrapy框架中的Spider的递归爬去进行实现的(Request模块回调)

方法二：基于CrawlSpider的自动爬去进行实现(更加简洁和高效)

一、简单介绍CrawlSpider

CrawlSpider其实是Spider的一个子类，除了继承到Spider的特性和功能外，还派生除了其自己独有的更加强大的特性和功能。其中最显著的功能就是”LinkExtractors链接提取器“。Spider是所有爬虫的基类，其设计原则只是为了爬取start_url列表中网页，而从爬取到的网页中提取出的url进行继续的爬取工作使用CrawlSpider更合适。

二、使用

1.创建scrapy工程(cmd切换到要创建项目的文件夹下执行)：scrapy startproject projectName （如：scrapy startproject crawlPro）

2.创建爬虫文件(cmd切换到创建的项目下执行)：scrapy genspider -t crawl spiderName www.xxx.com (如：scrapy genspider -t crawl crawlDemo www.qiushibaike.com)

--此指令对比以前的指令多了 "-t crawl"，表示创建的爬虫文件是基于CrawlSpider这个类的，而不再是Spider这个基类。

3.启动爬虫文件(cmd基于步骤二的路径执行)：scrapy crawl crawlDemo (启动的一定是name对应的值，如果爬虫文件与name的值不一致，任然以name的值进行启动)

观察生成的爬虫文件

crawlDemo.py

# -*- coding: utf-8 -*-
import scrapy
# 导入CrawlSpider相关模块
from scrapy.linkextractors import LinkExtractor
from scrapy.spiders import CrawlSpider, Rule

# 表示该爬虫程序是基于CrawlSpider类的
class CrawldemoSpider(CrawlSpider):
  name = 'crawlDemo'  #爬虫文件名称
  #allowed_domains = ['www.qiushibaike.com']
  start_urls = ['http://www.qiushibaike.com/']
  
  #连接提取器：会去起始url响应回来的页面中提取指定的url
  link = LinkExtractor(allow=r'/8hr/page/\d+')
  #rules元组中存放的是不同的规则解析器（封装好了某种解析规则)
  rules = (
    #规则解析器：可以将连接提取器提取到的所有连接表示的页面进行指定规则（回调函数）的解析
    Rule(link, callback='parse_item', follow=True),
  )
  # 解析方法
  def parse_item(self, response):
    #print(response.url)
    divs = response.xpath('//div[@id="content-left"]/div')
    for div in divs:
      author = div.xpath('./div[@class="author clearfix"]/a[2]/h2/text()').extract_first()
      print(author)

CrawlSpider类和Spider类的最大不同是CrawlSpider多了一个rules属性，其作用是定义”提取动作“。在rules中可以包含一个或多个Rule对象，在Rule对象中包含了LinkExtractor对象。　

三、生成的爬虫文件参数介绍

3.1 LinkExtractor：顾名思义，链接提取器。

LinkExtractor(

　 allow=r'Items/'，# 满足括号中“正则表达式”的值会被提取，如果为空，则全部匹配。

deny=xxx, # 满足正则表达式的则不会被提取。

restrict_xpaths=xxx, # 满足xpath表达式的值会被提取

restrict_css=xxx, # 满足css表达式的值会被提取

deny_domains=xxx, # 不会被提取的链接的domains。　

)

- 作用：提取response中符合规则的链接。　

3.2 Rule : 规则解析器。根据链接提取器中提取到的链接，根据指定规则提取解析器链接网页中的内容。

Rule(LinkExtractor(allow=r'Items/'), callback='parse_item', follow=True)

- 参数介绍：

参数1：指定链接提取器

参数2：指定规则解析器解析数据的规则（回调函数）

参数3：是否将链接提取器继续作用到链接提取器提取出的链接网页中。当callback为None,参数3的默认值为true。

3.3 rules=( ):指定不同规则解析器。一个Rule对象表示一种提取规则。

3.4 CrawlSpider整体爬取流程：

a)爬虫文件首先根据起始url，获取该url的网页内容

b)链接提取器会根据指定提取规则将步骤a中网页内容中的链接进行提取

c)规则解析器会根据指定解析规则将链接提取器中提取到的链接中的网页内容根据指定的规则进行解析

d)将解析数据封装到item中，然后提交给管道进行持久化存储

四、基于CrawlSpider示例

创建爬虫项目和启动爬虫项目以及settings中配置自行完成，在这里不在追赘述

4.1爬虫文件

# -*- coding: utf-8 -*-
import scrapy
from scrapy.linkextractors import LinkExtractor
from scrapy.spiders import CrawlSpider, Rule
from qiubaiBycrawl.items import QiubaibycrawlItem
import re
class QiubaitestSpider(CrawlSpider):
  name = 'qiubaiTest'
  #起始url
  start_urls = ['http://www.qiushibaike.com/']

  #定义链接提取器，且指定其提取规则
  page_link = LinkExtractor(allow=r'/8hr/page/\d+/')
  
  rules = (
    #定义规则解析器，且指定解析规则通过callback回调函数
    Rule(page_link, callback='parse_item', follow=True),
  )

  #自定义规则解析器的解析规则函数
  def parse_item(self, response):
    div_list = response.xpath('//div[@id="content-left"]/div')
    
    for div in div_list:
      #定义item
      item = QiubaibycrawlItem()
      #根据xpath表达式提取糗百中段子的作者
      item['author'] = div.xpath('./div/a[2]/h2/text()').extract_first().strip('\n')
      #根据xpath表达式提取糗百中段子的内容
      item['content'] = div.xpath('.//div[@class="content"]/span/text()').extract_first().strip('\n')

      yield item #将item提交至管道

4.2items文件

# -*- coding: utf-8 -*-

# Define here the models for your scraped items
#
# See documentation in:
# https://doc.scrapy.org/en/latest/topics/items.html

import scrapy


class QiubaibycrawlItem(scrapy.Item):
  # define the fields for your item here like:
  # name = scrapy.Field()
  author = scrapy.Field() #作者
  content = scrapy.Field() #内容

4.3管道文件

# -*- coding: utf-8 -*-

# Define your item pipelines here
#
# Don't forget to add your pipeline to the ITEM_PIPELINES setting
# See: https://doc.scrapy.org/en/latest/topics/item-pipeline.html

class QiubaibycrawlPipeline(object):
  
  def __init__(self):
    self.fp = None
    
  def open_spider(self,spider):
    print('开始爬虫')
    self.fp = open('./data.txt','w')
    
  def process_item(self, item, spider):
    #将爬虫文件提交的item写入文件进行持久化存储
    self.fp.write(item['author']+':'+item['content']+'\n')
    return item
  
  def close_spider(self,spider):
    print('结束爬虫')
    self.fp.close()

以上就是本文的全部内容，希望对大家的学习有所帮助，也希望大家多多支持三水点靠木。

Python爬虫Scrapy框架CrawlSpider原理及使用案例

- Author -

迎风而来

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Python 相关文章推荐

python通过ftplib登录到ftp服务器的方法

May 08 Python

Python即时网络爬虫项目启动说明详解

Feb 23 Python

Python matplotlib绘图可视化知识点整理(小结)

Mar 16 Python

浅析Python 3 字符串中的 STR 和 Bytes 有什么区别

Oct 14 Python

对Pycharm创建py文件时自定义头部模板的方法详解

Feb 12 Python

基于Python的ModbusTCP客户端实现详解

Jul 13 Python

在Python中画图(基于Jupyter notebook的魔法函数)

Oct 28 Python

python、Matlab求定积分的实现

Nov 20 Python

使用Pytorch来拟合函数方式

Jan 14 Python

python读取dicom图像示例(SimpleITK和dicom包实现)

Jan 16 Python

关于Tensorflow分布式并行策略

Feb 03 Python

pycharm部署django项目到云服务器的详细流程

Jun 29 Python

Pyqt助手安装PyQt5帮助文档过程图解

Nov 20 #Python

python IP地址转整数

Nov 20 #Python

Python django框架 web端视频加密的实例详解

Nov 20 #Python

总结python 三种常见的内存泄漏场景

Nov 20 #Python

Python偏函数实现原理及应用

Nov 20 #Python

python与idea的集成的实现

Nov 20 #Python

安装pyinstaller遇到的各种问题(小结)

Nov 20 #Python

You might like

PHP新手上路（六）

2006/10/09 PHP

在smarty中调用php内置函数的方法

2013/02/07 PHP

PHP中使用smarty生成静态文件的例子

2014/04/24 PHP

使用PHP similar text计算两个字符串相似度

2015/11/06 PHP

zend framework中使用memcache的方法

2016/03/04 PHP

滚动图片效果 jquery实现回旋滚动效果

2013/01/08 Javascript

动态获取复选框checkbox选中个数的jquery代码

2013/06/25 Javascript

前端轻量级MVC框架CanJS详解

2014/09/26 Javascript

浅析node连接数据库（express+mysql）

2015/11/30 Javascript

JavaScript判断图片是否已经加载完毕的方法汇总

2016/02/05 Javascript

JS实现环形进度条（从0到100%）效果

2016/07/05 Javascript

浅析Node.js实现HTTP文件下载

2016/08/05 Javascript

JavaScript提高加载和执行效率的方法

2017/02/03 Javascript

Bootstrap轮播图学习使用

2017/02/10 Javascript

vue.js实现数据动态响应 Vue.set的简单应用

2017/06/15 Javascript

深入理解Vue-cli搭建项目后的目录结构探秘

2017/07/13 Javascript

微信小程序开发教程之增加mixin扩展

2017/08/09 Javascript

chorme 浏览器记住密码后input黄色背景处理方法(两种)

2017/11/22 Javascript

NW.js 简介与使用方法

2018/02/01 Javascript

解决Vue中引入swiper,在数据渲染的时候,发生不滑动的问题

2018/09/27 Javascript

JS+css3实现幻灯片轮播图

2020/08/14 Javascript

用C++封装MySQL的API的教程

2015/05/06 Python

PyQt5每天必学之日历控件QCalendarWidget

2018/04/19 Python

Python3实现的爬虫爬取数据并存入mysql数据库操作示例

2018/06/06 Python

python中文分词库jieba使用方法详解

2020/02/11 Python

John Hardy官方网站：手工设计首饰的奢侈品牌

2017/07/05 全球购物

美国排名第一的葡萄酒俱乐部：Firstleaf Wine Club

2020/01/02 全球购物

大学生毕业自我鉴定范文

2013/11/03 职场文书

《圆明园的毁灭》教学反思

2014/02/28 职场文书

yy司仪主持词

2014/03/22 职场文书

物流专业求职信

2014/06/30 职场文书

信仰心得体会

2014/09/05 职场文书

法人代表身份证明书及授权委托书

2014/09/16 职场文书

2016年质量月活动总结报告

2016/04/05 职场文书

几款流行的HTML5 UI框架比较(小结)

2021/04/08 HTML / CSS

Ajax实现三级联动效果

2021/10/05 Javascript