编程 Python

python网络爬虫 Scrapy中selenium用法详解

Posted in Python onSeptember 28, 2019

引入

在通过scrapy框架进行某些网站数据爬取的时候，往往会碰到页面动态数据加载的情况发生，如果直接使用scrapy对其url发请求，是绝对获取不到那部分动态加载出来的数据值。但是通过观察我们会发现，通过浏览器进行url请求发送则会加载出对应的动态加载出的数据。那么如果我们想要在scrapy也获取动态加载出的数据，则必须使用selenium创建浏览器对象，然后通过该浏览器对象进行请求发送，获取动态加载的数据值。

1.案例分析：

- 需求：爬取网易新闻的国内、国际、军事、无人机板块下的新闻数据

- 需求分析：当点击国内超链进入国内对应的页面时，会发现当前页面展示的新闻数据是被动态加载出来的，如果直接通过程序对url进行请求，是获取不到动态加载出的新闻数据的。则需要我们使用selenium实例化一个浏览器对象，在该对象中进行url的请求，获取动态加载的新闻数据。

2.selenium在scrapy中使用的原理分析：

python网络爬虫 Scrapy中selenium用法详解

当引擎将国内板块url对应的请求提交给下载器后，下载器进行网页数据的下载，然后将下载到的页面数据，封装到response中，提交给引擎，引擎将response再转交给Spiders。Spiders接受到的response对象中存储的页面数据里是没有动态加载的新闻数据的。要想获取动态加载的新闻数据，则需要在下载中间件中对下载器提交给引擎的response响应对象进行拦截，切对其内部存储的页面数据进行篡改，修改成携带了动态加载出的新闻数据，然后将被篡改的response对象最终交给Spiders进行解析操作。

3.selenium在scrapy中的使用流程：

重写爬虫文件的构造方法，在该方法中使用selenium实例化一个浏览器对象（因为浏览器对象只需要被实例化一次）
重写爬虫文件的closed(self,spider)方法，在其内部关闭浏览器对象。该方法是在爬虫结束时被调用
重写下载中间件的process_response方法，让该方法对响应对象进行拦截，并篡改response中存储的页面数据
在配置文件中开启下载中间件

4.实例：

# 1.spider文件

import scrapy
from wangyiPro.items import WangyiproItem
from selenium import webdriver

class WangyiSpider(scrapy.Spider):
  name = 'wangyi'
  # allowed_domains = ['www.xxx.con']
  start_urls = ['https://news.163.com/']
  # 浏览器实例化的操作只会被执行一次
  bro = webdriver.Chrome(executable_path='chromedriver.exe')

  urls = []# 最终存放的就是5个板块对应的url

  def parse(self, response):
    li_list = response.xpath('//*[@id="index2016_wrap"]/div[1]/div[2]/div[2]/div[2]/div[2]/div/ul/li')
    for index in [3,4,6,7,8]:
      li = li_list[index]
      new_url = li.xpath('./a/@herf').extract_first()
      self.urls.append(new_url)

      # 对5大板块对应的url进行请求发送
      yield scrapy.Request(url=new_url,callback=self.parse_news)

  # 用来解析每一个板块对应的新闻数据【只能解析到新闻的标题】
  def parse_news(self,response):
    div_list = response.xpath('//div[@class="ndi_main"]/div')
    for div in div_list:
      title = div.xpath('./div/div[1]/h3/a/text()').extract_first()
      news_detail_url = div.xpath('./div/div[1]/h3/a/@href').extract_first()
      # 实例化item对象，将解析到的标题和内容存储到item对象中
      item = WangyiproItem()
      item['title'] = title
      # 对详情页的url进行手动请求发送获得新闻内容
      yield scrapy.Request(url=news_detail_url,callback=self.parse_detail,meta={'item':item})

  def parse_detail(self,response):
    item = response.meta['item']
    # 通过response解析出新闻内容
    content = response.xpath('//div[@id="endText"]//text()').extract()
    content = ''.join(content)

    item['content'] = content
    yield item

  def close(self,spider):
    # 当爬虫结束之后，调用关闭浏览器方法
    print('爬虫整体结束~~~~~~~~~~~~~~~~~~~')
    self.bro.quit()
----------------------------------------------------------------------------------------
# 2.items文件

import scrapy

class WangyiproItem(scrapy.Item):
  # define the fields for your item here like:
  # name = scrapy.Field()
  title = scrapy.Field()
  content = scrapy.Field()
----------------------------------------------------------------------------------------
# 3.middlewares文件

from scrapy import signals
from scrapy.http import HtmlResponse
from time import sleep

class WangyiproDownloaderMiddleware(object):

  def process_request(self, request, spider):
    return None

  def process_response(self, request, response, spider):
    # 判断哪些响应对象是5个板块的，如果在就对响应对象进行处理
    if response.url in spider.urls:
      # 获取在爬虫类中定义好的浏览器
      bro = spider.bro
      bro.get(response.url)

      bro.execute_script('window.scrollTo(0,document.body.scrollHeight)')
      sleep(1)
      bro.execute_script('window.scrollTo(0,document.body.scrollHeight)')
      sleep(1)
      bro.execute_script('window.scrollTo(0,document.body.scrollHeight)')
      sleep(1)
      bro.execute_script('window.scrollTo(0,document.body.scrollHeight)')
      sleep(1)

      # 获取携带了新闻数据的页面源码数据
      page_text = bro.page_source
      # 实例化一个新的响应对象
      new_response = HtmlResponse(url=response.url,body=page_text,encoding='utf-8',request=request)
      return new_response
    else:
      return response

  def process_exception(self, request, exception, spider):
    pass
----------------------------------------------------------------------------------------
# 4.pipelines文件

class WangyiproPipeline(object):
  def process_item(self, item, spider):
    print(item)
    return item
----------------------------------------------------------------------------------------
# 5.setting文件
BOT_NAME = 'wangyiPro'

SPIDER_MODULES = ['wangyiPro.spiders']
NEWSPIDER_MODULE = 'wangyiPro.spiders'

USER_AGENT = 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/76.0.3809.132 Safari/537.36'

ROBOTSTXT_OBEY = False

DOWNLOADER_MIDDLEWARES = {
  'wangyiPro.middlewares.WangyiproDownloaderMiddleware': 543,
}

ITEM_PIPELINES = {
  'wangyiPro.pipelines.WangyiproPipeline': 300,
}

LOG_LEVEL = 'ERROR'

以上就是本文的全部内容，希望对大家的学习有所帮助，也希望大家多多支持三水点靠木。

python网络爬虫 Scrapy中selenium用法详解

- Author -

陪伴is最长情的告白

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Python 相关文章推荐

Python 中的 else详解

Apr 23 Python

Python入门教程之运算符与控制流

Aug 17 Python

Python实现按照指定要求逆序输出一个数字的方法

Apr 19 Python

django与小程序实现登录验证功能的示例代码

Feb 19 Python

Python3.5面向对象与继承图文实例详解

Apr 24 Python

Python求两点之间的直线距离(2种实现方法)

Jul 07 Python

利用 Flask 动态展示 Pyecharts 图表数据方法小结

Sep 04 Python

pandas 缺失值与空值处理的实现方法

Oct 12 Python

Python求解正态分布置信区间教程

Nov 20 Python

python3 使用openpyxl将mysql数据写入xlsx的操作

May 15 Python

numpy的Fancy Indexing和array比较详解

Jun 11 Python

python 字典和列表嵌套用法详解

Jun 29 Python

在vscode中配置python环境过程解析

Sep 28 #Python

python爬虫线程池创建并获取文件代码实例

Sep 28 #Python

python 单线程和异步协程工作方式解析

Sep 28 #Python

python爬虫正则表达式解析

Sep 28 #Python

python爬虫 Pyppeteer使用方法解析

Sep 28 #Python

python安装scipy的步骤解析

Sep 28 #Python

python网络爬虫 CrawlSpider使用详解

Sep 27 #Python

You might like

php不用正则采集速度探究总结

2008/03/24 PHP

洪恩在线成语词典小偷程序php版

2012/04/20 PHP

php字符串截取的简单方法

2013/07/04 PHP

[原创]php使用curl判断网页404(不存在)的方法

2016/06/23 PHP

使用自定义setTimeout和setInterval使之可以传递参数和对象参数

2009/04/24 Javascript

Jquery 常用方法经典总结

2010/01/28 Javascript

面向对象Javascript核心支持代码分享

2012/05/23 Javascript

JQuery中DOM事件合成用法实例分析

2015/06/13 Javascript

Javascript HTML5 Canvas实现的一个画板

2020/04/12 Javascript

将JSON字符串转换成Map对象的方法

2016/11/30 Javascript

jquery ui sortable拖拽后保存位置

2017/04/27 jQuery

js实现鼠标跟随运动效果

2020/08/02 Javascript

通过button将form表单的数据提交到action层的实例

2017/09/08 Javascript

Vue中用props给data赋初始值遇到的问题解决

2018/11/27 Javascript

Vue CLI3中使用compass normalize的方法

2019/05/30 Javascript

js canvas实现5张图片合成一张图片

2019/07/15 Javascript

解决node.js含有%百分号时发送get请求时浏览器地址自动编码的问题

2019/11/20 Javascript

vue项目开启Gzip压缩和性能优化操作

2020/10/26 Javascript

使用httplib模块来制作Python下HTTP客户端的方法

2015/06/19 Python

python中实现k-means聚类算法详解

2017/11/11 Python

python读取目录下最新的文件夹方法

2018/12/24 Python

python matplotlib拟合直线的实现

2019/11/19 Python

在Tensorflow中实现梯度下降法更新参数值

2020/01/23 Python

浅谈PyTorch的可重复性问题(如何使实验结果可复现)

2020/02/20 Python

No module named ‘win32gui‘ 的解决方法(踩坑之旅)

2021/02/18 Python

美国知名的摄影器材销售网站：Adorama

2017/02/01 全球购物

为什么如下的代码int a=100,b=100;long int c=a * b;不能工作

2013/11/29 面试题

大家检讨书5000字

2014/02/03 职场文书

生日寄语大全

2014/04/08 职场文书

入股协议书

2014/04/14 职场文书

诉讼授权委托书

2014/10/15 职场文书

公司行政管理制度范本

2015/08/05 职场文书

导游词之重庆渣滓洞

2020/01/08 职场文书

vue+spring boot实现校验码功能

2021/05/27 Vue.js

豆瓣2021评分最高动画剧集-豆瓣评分最高的动画剧集2021

2022/03/18 日漫

微软发布Windows 11今年最大更新22H2(附 ISO 镜像官方下载)

2022/09/23 数码科技