编程 Python

使用Scrapy爬取动态数据

Posted in Python onOctober 21, 2018

对于动态数据的爬取，可以选择selenium和PhantomJS两种方式，本文选择的是PhantomJS。

网址：

https://s.taobao.com/search?q=%E7%AC%94%E8%AE%B0%E6%9C%AC%E7%94%B5%E8%84%91&imgfile=&commend=all&ssid=s5-e&search_type=item&sourceId=tb.index&spm=a21bo.2017.201856-taobao-item.1&ie=utf8&initiative_id=tbindexz_20170306

1.首先第一步，对中间件的设置。

进入pipelines.py文件中：

from selenium import webdriver
from scrapy.http.response.html import HtmlResponse
from scrapy.http.response import Response
class SeleniumSpiderMiddleware(object):
  def __init__(self):
    self.driver = webdriver.PhantomJS()
  def process_request(self ,request ,spider):
    # 当引擎从调度器中取出request进行请求发送下载器之前
    # 会先执行当前的爬虫中间件 ，在中间件里面使用selenium
    # 请求这个request ，拿到动态网站的数据 然后将请求
    # 返回给spider爬虫对象
    if spider.name == 'taobao':
      # 使用爬虫文件的url地址
      spider.driver.get(request.url)
      for x in range(1 ,12 ,2):
        i = float(x) / 11
        # scrollTop 从上往下的滑动距离
        js = 'document.body.scrollTop=document.body.scrollHeight * %f' % i
        spider.driver.execute_script(js)
      response = HtmlResponse(url=request.url,
                  body=spider.driver.page_source,
                  encoding='utf-8',
                  request=request)
      # 这个地方只能返回response对象，当返回了response对象，那么可以直接跳过下载中间件，将response的值传递给引擎，引擎又传递给 spider进行解析
      return response

在设置中，要将middlewares设置打开。

进入settings.py文件中，将

DOWNLOADER_MIDDLEWARES = {
  'taobaoSpider.middlewares.SeleniumSpiderMiddleware': 543,
}

打开。

2.第二步，爬取数据

回到spider爬虫文件中。

引入：

from selenium import webdriver

自定义属性：

def __init__(self):
  self.driver = webdriver.PhantomJS()

查找数据和分析数据：

def parse(self, response):
  div_info = response.xpath('//div[@class="info-cont"]')
  print(div_info)
  for div in div_info:
    title = div.xpath('.//div[@class="title-row "]/a/text()').extract_first('')
    # title = self.driver.find_element_by_class_name("title-row").text
    print('名称：', title)
    price = div.xpath('.//div[@class="sale-row row"]/div/span[2]/strong/text()').extract_first('')

3.第三步，传送数据到item中：

在item.py文件中：

name = scrapy.Field()
price = scrapy.Field()

回到spider.py爬虫文件中：

引入：

from ..items import TaobaospiderItem

传送数据：

#创建实例化对象。

item = TaobaospiderItem()
item['name'] = title
item['price'] = price
yield item

在设置中，打开：

ITEM_PIPELINES = {
  'taobaoSpider.pipelines.TaobaospiderPipeline': 300,
}

4.第四步，写入数据库：

进入管道文件中。

引入

import sqlite3
写入数据库的代码如下：
class TaobaospiderPipeline(object):
  def __init__(self):
    self.connect = sqlite3.connect('taobaoDB')
    self.cursor = self.connect.cursor()
    self.cursor.execute('create table if not exists taobaoTable (name text,price text)')
  def process_item(self, item, spider):
    self.cursor.execute('insert into taobaoTable (name,price)VALUES ("{}","{}")'.format(item['name'],item['price']))
    self.connect.commit()
    return item
  def close_spider(self):
    self.cursor.close()
    self.connect.close()

在设置中打开：

ITEM_PIPELINES = {
  'taobaoSpider.pipelines.TaobaospiderPipeline': 300,
}

因为在上一步，我们已经将管道传送设置打开，所以这一步可以不用重复操作。

然后运行程序，打开数据库查看数据。

使用Scrapy爬取动态数据

至此，程序结束。

下附spider爬虫文件所有代码：

# -*- coding: utf-8 -*-
import scrapy
from selenium import webdriver
from ..items import TaobaospiderItem
class TaobaoSpider(scrapy.Spider):
  name = 'taobao'
  allowed_domains = ['taobao.com']
  start_urls = ['https://s.taobao.com/search?q=%E7%AC%94%E8%AE%B0%E6%9C%AC%E7%94%B5%E8%84%91&imgfile=&commend=all&ssid=s5-e&search_type=item&sourceId=tb.index&spm=a21bo.2017.201856-taobao-item.1&ie=utf8&initiative_id=tbindexz_20170306']
  def __init__(self):
    self.driver = webdriver.PhantomJS()
  def parse(self, response):
    div_info = response.xpath('//div[@class="info-cont"]')
    print(div_info)
    for div in div_info:
      title = div.xpath('.//div[@class="title-row "]/a/text()').extract_first('')
      print('名称：', title)
      price = div.xpath('.//div[@class="sale-row row"]/div/span[2]/strong/text()').extract_first('')
      item = TaobaospiderItem()
      item['name'] = title
      item['price'] = price
      yield item
  def close(self,reason):
    print('结束了',reason)
    self.driver.quit()

关于scrapy的中文文档：http://scrapy-chs.readthedocs.io/zh_CN/latest/faq.html

总结

以上就是这篇文章的全部内容了，希望本文的内容对大家的学习或者工作具有一定的参考学习价值，谢谢大家对三水点靠木的支持。如果你想了解更多相关内容请查看下面相关链接

使用Scrapy爬取动态数据

- Author -

回忆不说话

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Python 相关文章推荐

深入分析在Python模块顶层运行的代码引起的一个Bug

Jul 04 Python

Python中正则表达式的用法实例汇总

Aug 18 Python

利用python模拟实现POST请求提交图片的方法

Jul 25 Python

Python决策树和随机森林算法实例详解

Jan 30 Python

详解python3 + Scrapy爬虫学习之创建项目

Apr 12 Python

用python求一个数组的和与平均值的实现方法

Jun 29 Python

python用for循环求和的方法总结

Jul 08 Python

python读取dicom图像示例(SimpleITK和dicom包实现)

Jan 16 Python

python如何提取英语pdf内容并翻译

Mar 03 Python

python实现超级马里奥

Mar 18 Python

python 爬取豆瓣网页的示例

Apr 13 Python

python实现简单石头剪刀布游戏

Oct 24 Python

python使用正则表达式来获取文件名的前缀方法

Oct 21 #Python

python遍历文件夹找出文件夹后缀为py的文件方法

Oct 21 #Python

python os.listdir按文件存取时间顺序列出目录的实例

Oct 21 #Python

python查找指定文件夹下所有文件并按修改时间倒序排列的方法

Oct 21 #Python

Python3中关于cookie的创建与保存

Oct 21 #Python

Python3中在Anaconda环境下安装basemap包

Oct 21 #Python

解决安装python库时windows error5 报错的问题

Oct 21 #Python

You might like

php使用number_format函数截取小数的方法分析

2016/05/27 PHP

php 解决扫描二维码下载跳转问题

2017/01/13 PHP

PHP+MYSQL实现读写分离简单实战

2017/03/13 PHP

详解php伪造Referer请求反盗链资源

2019/01/24 PHP

JQuery for与each性能比较分析

2013/05/14 Javascript

利用js判断浏览器类型(是否为IE,Firefox,Opera浏览器)

2013/11/22 Javascript

javascript调试过程中找不到哪里出错的可能原因

2013/12/16 Javascript

jquery实现点击文字可编辑并修改保存至数据库

2014/04/15 Javascript

jQuery网页选项卡插件rTabs用法实例分析

2015/08/26 Javascript

在AngularJS中如何使用谷歌地图把当前位置显示出来

2016/01/25 Javascript

将form表单通过ajax实现无刷新提交的简单实例

2016/10/12 Javascript

简单谈谈Javascript函数中的arguments

2017/02/09 Javascript

JS异步加载的三种实现方式

2017/03/16 Javascript

vue之父子组件间通信实例讲解(props、$ref、$emit)

2018/05/22 Javascript

微信小程序实现红包功能（后端PHP实现逻辑）

2018/07/11 Javascript

Vue项目中使用WebUploader实现文件上传的方法

2019/07/21 Javascript

[03:01]2014DOTA2国际邀请赛 DC：我是核弹粉，为Burning和国土祝福

2014/07/13 DOTA

使用Python脚本将绝对url替换为相对url的教程

2015/04/24 Python

python如何实现远程控制电脑（结合微信）

2015/12/21 Python

使用jupyter Nodebook查看函数或方法的参数以及使用情况

2020/04/14 Python

Python ini文件常用操作方法解析

2020/04/26 Python

Python中logging日志记录到文件及自动分割的操作代码

2020/08/05 Python

有关pycharm登录github时有的时候会报错connection reset的问题

2020/09/15 Python

Anaconda使用IDLE的实现示例

2020/09/23 Python

html5默认气泡修改的代码详解

2020/03/13 HTML / CSS

深圳-东方伟业笔试部分

2015/02/11 面试题

会计专业毕业生求职信

2014/07/04 职场文书

企业优秀团员事迹材料

2014/08/20 职场文书

法院反腐倡廉心得体会

2014/09/09 职场文书

2014年妇委会工作总结

2014/12/10 职场文书

收银员岗位职责

2015/02/03 职场文书

公司门卫岗位职责

2015/04/13 职场文书

2015年中学体育教师工作总结

2015/10/23 职场文书

2016中学教师读书心得体会

2016/01/13 职场文书

上手简单,功能强大的Python爬虫框架——feapder

2021/04/27 Python

Python 键盘事件详解

2021/11/11 Python