编程 Python

python爬虫scrapy基于CrawlSpider类的全站数据爬取示例解析

Posted in Python onFebruary 20, 2021

一、CrawlSpider类介绍

1.1 引入

使用scrapy框架进行全站数据爬取可以基于Spider类，也可以使用接下来用到的CrawlSpider类。基于Spider类的全站数据爬取之前举过栗子，感兴趣的可以康康

1.2 介绍和使用

1.2.1 介绍

CrawlSpider是Spider的一个子类，因此CrawlSpider除了继承Spider的特性和功能外，还有自己特有的功能，主要用到的是 LinkExtractor()和rules = (Rule(LinkExtractor(allow=r'Items/'), callback='parse_item', follow=True),)

LinkExtractor()：链接提取器
LinkExtractor()接受response对象，并根据allow对应的正则表达式提取响应对象中的链接

link = LinkExtractor(
# Items只能是一个正则表达式,会提取当前页面中满足该"正则表达式"的url	
　 allow=r'Items/'
)

rules = (Rule(link, callback='parse_item', follow=True),)：规则解析器
按照指定规则从链接提取器中提取到的链接中解析网页数据
link：是一个LinkExtractor()对象，指定链接提取器
callback：回调函数，指定规则解析器(解析方法)解析数据
follow：是否将链接提取器继续作用到链接提取器提取出的链接网页中

import scrapy
# 导入相关的包
from scrapy.linkextractors import LinkExtractor
from scrapy.spiders import CrawlSpider, Rule

class TextSpider(CrawlSpider):
 name = 'text'
 allowed_domains = ['www.xxx.com']
 start_urls = ['http://www.xxx.com/']

# 链接提取器,从接受到的response对象中,根据item正则表达式提取页面中的链接
	link = LinkExtractor(allow=r'Items/')
	link2 = LinkExtractor(allow=r'Items/')
# 规则解析器,根据callback将链接提取器提取到的链接进行数据解析
# follow为true,则表示将链接提取器继续作用到链接提取器所提取到的链接页面中
# 故:在我们提取多页数据时,若第一页对应的网页中包含了第2,3,4,5页的链接,
# 当跳转到第5页时,第5页又包含了第6,7,8,9页的链接,
# 令follow=True,就可以持续作用,从而提取到所有页面的链接
 rules = (Rule(link, callback='parse_item', follow=True),
 		Rule(link2,callback='parse_content',follow=False))
 # 链接提取器link使用parse_item解析数据
	def parse_item(self, response):
 item = {}
 
 yield item
 # 链接提取器link2使用parse_content解析数据
	def parse_content(self, response):
		item = {}
		
		yield item

1.2.2 使用

创建爬虫文件：除了创建爬虫文件不同外，创建项目和运行爬虫使用的命令和基于Spider类使用的命令相同

scrapy genspider crawl -t spiderName www.xxx.com

二、案例：古诗文网全站数据爬取

爬取古诗文网首页古诗的标题，以及每一首诗详情页古诗的标题和内容。
最后将从详情页提取到的古诗标题和内容进行持久化存储

2.1 爬虫文件

import scrapy
from scrapy.linkextractors import LinkExtractor

from scrapy.spiders import CrawlSpider, Rule
from gushiPro.items import GushiproItem,ContentItem

class GushiSpider(CrawlSpider):
 name = 'gushi'
 #allowed_domains = ['www.xxx.com']
 start_urls = ['https://www.gushiwen.org/']

 # 链接提取器:只能使用正则表达式，提取当前页面的满足allow条件的链接
 link = LinkExtractor(allow=r'/default_\d+\.aspx')

 # 链接提取器，提取所有标题对应的详情页url
 content_link = LinkExtractor(allow=r'cn/shiwenv_\w+\.aspx')
 rules = (
 # 规则解析器，需要解析所有的页面，所有follow=True
 Rule(link, callback='parse_item', follow=True),

 # 不需要写follow，因为我们只需要解析详情页中的数据，而不是详情页中的url
 Rule(content_link, callback='content_item'),
 )

 # 解析当前页面的标题
 def parse_item(self, response):
 p_list = response.xpath('//div[@class="sons"]/div[1]/p[1]')

 for p in p_list:
 title = p.xpath('./a//text()').extract_first()
 item = GushiproItem()
 item['title'] = title
 yield item
 
 # 解析详情页面的标题和内容
 def content_item(self,response):
 # //div[@id="sonsyuanwen"]/div[@class="cont"]/div[@class="contson"]
 # 解析详情页面的内容
 content = response.xpath('//div[@id="sonsyuanwen"]/div[@class="cont"]/div[@class="contson"]//text()').extract()
 content = "".join(content)
 # # 解析详情页面的标题
 title = response.xpath('//div[@id="sonsyuanwen"]/div[@class="cont"]/h1/text()').extract_first()
 # print("title:"+title+"\ncontent:"+content)
 item = ContentItem()
 item["content"] = content
 item["title"] = title
 # 将itme对象传给管道
 yield item

2.2 item文件

import scrapy

# 不同的item类是独立的，他们可以创建不同的item对象
class GushiproItem(scrapy.Item):
 # define the fields for your item here like:
 # name = scrapy.Field()
 title = scrapy.Field()

class ContentItem(scrapy.Item):
 title = scrapy.Field()
 content = scrapy.Field()

2.3 管道文件

from itemadapter import ItemAdapter

class GushiproPipeline:
 def __init__(self):
 self.fp = None

 def open_spider(self,spider):
 self.fp = open("gushi.txt",'w',encoding='utf-8')
 print("开始爬虫")

 def process_item(self, item, spider):
 # 从详情页获取标题和内容，所以需要判断爬虫文件中传来的item是什么类的item
 # item.__class__.__name__判断属于什么类型的item
 if item.__class__.__name__ == "ContentItem":
 content = "《"+item['title']+"》",item['content']
 content = "".join(content) 
 print(content)
 self.fp.write(content)
 return item

 def close_spider(self,spider):
 self.fp.close()
 print("结束爬虫")

2.4 配置文件

python爬虫scrapy基于CrawlSpider类的全站数据爬取示例解析

2.5 输出结果

python爬虫scrapy基于CrawlSpider类的全站数据爬取示例解析

到此这篇关于python爬虫scrapy基于CrawlSpider类的全站数据爬取示例解析的文章就介绍到这了,更多相关python爬虫scrapy数据爬取内容请搜索三水点靠木以前的文章或继续浏览下面的相关文章希望大家以后多多支持三水点靠木！

python爬虫scrapy基于CrawlSpider类的全站数据爬取示例解析

- Author -

小王子爱上玫瑰

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Python 相关文章推荐

利用一个简单的例子窥探CPython内核的运行机制

Mar 30 Python

python的keyword模块用法实例分析

Jun 30 Python

Django Admin实现上传图片校验功能

Mar 06 Python

python 剪切移动文件的实现代码

Aug 02 Python

python使用mitmproxy抓取浏览器请求的方法

Jul 02 Python

详解Django admin高级用法

Nov 06 Python

python实现的Iou与Giou代码

Jan 18 Python

基于python3的socket聊天编程

Feb 17 Python

Python解释器以及PyCharm的安装教程图文详解

Feb 26 Python

Python实现清理微信僵尸粉功能示例【基于itchat模块】

May 29 Python

python如何进行矩阵运算

Jun 05 Python

Python经纬度坐标转换为距离及角度的实现

Nov 01 Python

TensorFlow的环境配置与安装方法

Feb 20 #Python

python爬虫爬取某网站视频的示例代码

Feb 20 #Python

python爬虫线程池案例详解(梨视频短视频爬取)

Feb 20 #Python

python爬虫scrapy框架的梨视频案例解析

Feb 20 #Python

Keras保存模型并载入模型继续训练的实现

Feb 20 #Python

TensorFlow2.0使用keras训练模型的实现

Feb 20 #Python

tensorflow2.0教程之Keras快速入门

Feb 20 #Python

You might like

把从SQL中取出的数据转化成XMl格式

2006/10/09 PHP

PHP中strtr字符串替换用法详解

2014/11/26 PHP

php实现判断访问来路是否为搜索引擎机器人的方法

2015/04/15 PHP

PHP中使用OpenSSL生成证书及加密解密

2017/02/05 PHP

SUN的《AJAX与J2EE》全文译了

2007/02/23 Javascript

javascript学习网址备忘

2007/05/29 Javascript

JQuery控制div外点击隐藏而div内点击不会隐藏的方法

2015/01/13 Javascript

js结合正则实现国内手机号段校验

2015/06/19 Javascript

一些实用性较高的js方法

2016/04/19 Javascript

js流动式效果显示当前系统时间

2016/05/16 Javascript

js数组常用操作方法小结(增加,删除,合并,分割等)

2016/08/02 Javascript

微信小程序（应用号）开发新闻客户端实例

2016/10/24 Javascript

js实现PC端根据IP定位当前城市地理位置

2017/02/22 Javascript

js实现登录框鼠标拖拽效果

2017/03/09 Javascript

详解react-webpack2-热模块替换[HMR]

2017/08/03 Javascript

JS分页的实现（同步与异步）

2017/09/16 Javascript

微信小程序实现图片懒加载的示例代码

2017/12/13 Javascript

ES6与CommonJS中的模块处理的区别

2018/06/13 Javascript

nuxt.js 缓存实践

2018/06/25 Javascript

微信小程序页面间传值与页面取值操作实例分析

2019/04/30 Javascript

Vue和React有哪些区别

2020/09/12 Javascript

JavaScript中的几种继承方法示例

2020/12/06 Javascript

[05:09]2016国际邀请赛中国区预选赛淘汰赛首日精彩回顾

2016/06/29 DOTA

Python+OpenCV+图片旋转并用原底色填充新四角的例子

2019/12/12 Python

Python通过两个dataframe用for循环求笛卡尔积

2020/04/29 Python

详解pytorch中squeeze()和unsqueeze()函数介绍

2020/09/03 Python

机械专业应届生求职信

2013/09/21 职场文书

优秀求职自荐信怎样写

2013/12/18 职场文书

个人存款证明书

2014/10/18 职场文书

实习指导教师评语

2014/12/30 职场文书

党小组考察意见

2015/06/02 职场文书

安全生产标语口号

2015/12/26 职场文书

nginx常用命令放入shell脚本详解

2021/03/31 Servers

简单介绍Python的第三方库yaml

2021/06/18 Python

OpenCV项目实践之停车场车位实时检测

2022/04/11 Python

nginx配置之并发频次限制

2022/04/18 Servers