编程 Python

Scrapy框架介绍之Puppeteer渲染的使用

Posted in Python onJune 19, 2020

1、Scrapy框架

Scrapy是用纯Python实现一个为了爬取网站数据、提取结构性数据而编写的应用框架，用途非常广泛。
框架的力量，用户只需要定制开发几个模块就可以轻松的实现一个爬虫，用来抓取网页内容以及各种图片，非常之方便。
Scrapy 使用了 Twisted'twɪstɪd异步网络框架来处理网络通讯，可以加快我们的下载速度，不用自己去实现异步框架，并且包含了各种中间件接口，可以灵活的完成各种需求。

Scrapy Engine(引擎): 负责Spider、ItemPipeline、Downloader、Scheduler中间的通讯，信号、数据传递等。
Scheduler(调度器): 它负责接受引擎发送过来的Request请求，并按照一定的方式进行整理排列，入队，当引擎需要时，交还给引擎。
Downloader（下载器）：负责下载Scrapy Engine(引擎)发送的所有Requests请求，并将其获取到的Responses交还给Scrapy Engine(引擎)，由引擎交给Spider来处理，
Spider（爬虫）：它负责处理所有Responses,从中分析提取数据，获取Item字段需要的数据，并将需要跟进的URL提交给引擎，再次进入Scheduler(调度器)，
Item Pipeline(管道)：它负责处理Spider中获取到的Item，并进行进行后期处理（详细分析、过滤、存储等）的地方.
Downloader Middlewares（下载中间件）：你可以当作是一个可以自定义扩展下载功能的组件。
Spider Middlewares（Spider中间件）：你可以理解为是一个可以自定扩展和操作引擎和Spider中间通信的功能组件（比如进入Spider的Responses;和从Spider出去的Requests）

2、Puppeteer渲染

Puppeteer 是 Chrome 开发团队在 2017 年发布的一个 Node.js 包，用来模拟 Chrome 浏览器的运行。
为了爬取js渲染的html页面，我们需要用浏览器来解析js后生成html。在scrapy中可以利用pyppeteer来实现对应功能。
完整代码 ?scrapy-pyppeteer.zip
我们需要新建项目中middlewares.py文件(./项目名/middlewares.py)

import websockets
from scrapy.http import HtmlResponse
from logging import getLogger
import asyncio
import pyppeteer
import logging
from concurrent.futures._base import TimeoutError
import base64
import sys
import random

pyppeteer_level = logging.WARNING
logging.getLogger('websockets.protocol').setLevel(pyppeteer_level)
logging.getLogger('pyppeteer').setLevel(pyppeteer_level)

PY3 = sys.version_info[0] >= 3


def base64ify(bytes_or_str):
  if PY3 and isinstance(bytes_or_str, str):
    input_bytes = bytes_or_str.encode('utf8')
  else:
    input_bytes = bytes_or_str

  output_bytes = base64.urlsafe_b64encode(input_bytes)
  if PY3:
    return output_bytes.decode('ascii')
  else:
    return output_bytes


class ProxyMiddleware(object):
  USER_AGENT = open('useragents.txt').readlines()

  def process_request(self, request, spider):
    # 代理服务器
    proxyHost = "t.16yun.cn"
    proxyPort = "31111"
    # 代理隧道验证信息
    proxyUser = "username"
    proxyPass = "password"

    request.meta['proxy'] = "http://{0}:{1}".format(proxyHost, proxyPort)

    # 添加验证头
    encoded_user_pass = base64ify(proxyUser + ":" + proxyPass)
    request.headers['Proxy-Authorization'] = 'Basic ' + encoded_user_pass

    # 设置IP切换头(根据需求)
    tunnel = random.randint(1, 10000)
    request.headers['Proxy-Tunnel'] = str(tunnel)
    request.headers['User-Agent'] = random.choice(self.USER_AGENT)


class PyppeteerMiddleware(object):
  def __init__(self, **args):
    """
    init logger, loop, browser
    :param args:
    """
    self.logger = getLogger(__name__)
    self.loop = asyncio.get_event_loop()
    self.browser = self.loop.run_until_complete(
      pyppeteer.launch(headless=True))
    self.args = args

  def __del__(self):
    """
    close loop
    :return:
    """
    self.loop.close()

  def render(self, url, retries=1, script=None, wait=0.3, scrolldown=False, sleep=0,
        timeout=8.0, keep_page=False):
    """
    render page with pyppeteer
    :param url: page url
    :param retries: max retry times
    :param script: js script to evaluate
    :param wait: number of seconds to wait before loading the page, preventing timeouts
    :param scrolldown: how many times to page down
    :param sleep: how many long to sleep after initial render
    :param timeout: the longest wait time, otherwise raise timeout error
    :param keep_page: keep page not to be closed, browser object needed
    :param browser: pyppetter browser object
    :param with_result: return with js evaluation result
    :return: content, [result]
    """

    # define async render
    async def async_render(url, script, scrolldown, sleep, wait, timeout, keep_page):
      try:
        # basic render
        page = await self.browser.newPage()
        await asyncio.sleep(wait)
        response = await page.goto(url, options={'timeout': int(timeout * 1000)})
        if response.status != 200:
          return None, None, response.status
        result = None
        # evaluate with script
        if script:
          result = await page.evaluate(script)

        # scroll down for {scrolldown} times
        if scrolldown:
          for _ in range(scrolldown):
            await page._keyboard.down('PageDown')
            await asyncio.sleep(sleep)
        else:
          await asyncio.sleep(sleep)
        if scrolldown:
          await page._keyboard.up('PageDown')

        # get html of page
        content = await page.content()

        return content, result, response.status
      except TimeoutError:
        return None, None, 500
      finally:
        # if keep page, do not close it
        if not keep_page:
          await page.close()

    content, result, status = [None] * 3

    # retry for {retries} times
    for i in range(retries):
      if not content:
        content, result, status = self.loop.run_until_complete(
          async_render(url=url, script=script, sleep=sleep, wait=wait,
                 scrolldown=scrolldown, timeout=timeout, keep_page=keep_page))
      else:
        break

    # if need to return js evaluation result
    return content, result, status

  def process_request(self, request, spider):
    """
    :param request: request object
    :param spider: spider object
    :return: HtmlResponse
    """
    if request.meta.get('render'):
      try:
        self.logger.debug('rendering %s', request.url)
        html, result, status = self.render(request.url)
        return HtmlResponse(url=request.url, body=html, request=request, encoding='utf-8',
                  status=status)
      except websockets.exceptions.ConnectionClosed:
        pass

  @classmethod
  def from_crawler(cls, crawler):
    return cls(**crawler.settings.get('PYPPETEER_ARGS', {}))

然后修改项目配置文件 (./项目名/settings.py)

DOWNLOADER_MIDDLEWARES = {
    'scrapypyppeteer.middlewares.PyppeteerMiddleware': 543,
    'scrapypyppeteer.middlewares.ProxyMiddleware': 100,    
  }

然后我们运行程序

Scrapy框架介绍之Puppeteer渲染的使用

到此这篇关于Scrapy框架介绍之Puppeteer渲染的使用的文章就介绍到这了,更多相关Scrapy Puppeteer渲染内容请搜索三水点靠木以前的文章或继续浏览下面的相关文章希望大家以后多多支持三水点靠木！

Scrapy框架介绍之Puppeteer渲染的使用

- Author -

Laicaling

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Python 相关文章推荐

python类定义的讲解

Nov 01 Python

python并发编程之线程实例解析

Dec 27 Python

利用TensorFlow训练简单的二分类神经网络模型的方法

Mar 05 Python

Python 静态方法和类方法实例分析

Nov 21 Python

python os.path.isfile 的使用误区详解

Nov 29 Python

Python tkinter三种布局实例详解

Jan 06 Python

python使用gdal对shp读取,新建和更新的实例

Mar 10 Python

Python hashlib和hmac模块使用方法解析

Dec 08 Python

利用python+request通过接口实现人员通行记录上传功能

Jan 13 Python

python os.listdir()乱码解决方案

Jan 31 Python

Python操作Excel的学习笔记

Feb 18 Python

Django实现WebSocket在线聊天室功能(channels库)

Sep 25 Python

Python内置方法和属性应用：反射和单例(推荐)

Jun 19 #Python

Python应用实现双指数函数及拟合代码实例

Jun 19 #Python

PyQT5 实现快捷键复制表格数据的方法示例

Jun 19 #Python

如何在keras中添加自己的优化器(如adam等)

Jun 19 #Python

详解pyinstaller生成exe的闪退问题解决方案

Jun 19 #Python

Python实现爬取并分析电商评论

Jun 19 #Python

keras 实现轻量级网络ShuffleNet教程

Jun 19 #Python

You might like

英雄试炼之肉山谷—引领RPG新潮流

2020/04/20 DOTA

基于php 随机数的深入理解

2013/06/05 PHP

php设置页面超时时间解决方法

2015/09/22 PHP

PHP微信开发之微信消息自动回复下所遇到的坑

2016/05/09 PHP

MSN消息提示类

2006/09/05 Javascript

jquery ajax 检测用户注册时用户名是否存在

2009/11/03 Javascript

js之ActiveX控件使用说明 new ActiveXObject()

2014/03/03 Javascript

javascript批量修改文件编码格式的方法

2015/01/27 Javascript

JavaScript事件类型中UI事件详解

2016/01/14 Javascript

JS设置时间无效问题的解决办法

2017/02/18 Javascript

bootstrap弹出层的多种触发方式

2017/05/10 Javascript

动态加载JavaScript文件的3种方式

2018/05/05 Javascript

Vue入门之数量加减运算操作示例

2018/12/11 Javascript

ES6中let、const的区别及变量的解构赋值操作方法实例分析

2019/10/15 Javascript

使用vue实现一个电子签名组件的示例代码

2020/01/06 Javascript

详解javascript脚本何时会被执行

2021/02/05 Javascript

[07:55]2014DOTA2 TI正赛第三日 VG上演推进荣耀DKEG告别

2014/07/21 DOTA

tornado捕获和处理404错误的方法

2014/02/26 Python

python实现颜色rgb和hex相互转换的函数

2015/03/19 Python

Python读取键盘输入的2种方法

2015/06/16 Python

python实现识别手写数字 python图像识别算法

2020/03/23 Python

django缓存配置的几种方法详解

2018/07/16 Python

python将秒数转化为时间格式的实例

2018/09/16 Python

Python装饰器语法糖

2019/01/02 Python

Python基于scipy实现信号滤波功能

2019/05/08 Python

PyCharm专业最新版2019.1安装步骤（含激活码）

2019/10/09 Python

浅谈tensorflow 中tf.concat()的使用

2020/02/07 Python

TensorFlow2.X结合OpenCV 实现手势识别功能

2020/04/08 Python

韩国三大免税店之一：THE GRAND 中文免税店

2016/07/21 全球购物

尊老爱亲美德少年事迹材料

2014/08/14 职场文书

大学生作弊检讨书

2014/09/11 职场文书

优秀员工推荐材料

2014/12/20 职场文书

论文答辩开场白大全

2015/05/27 职场文书

2015年董事长秘书工作总结

2015/07/23 职场文书

你对自己的信用报告有过了解吗？

2019/07/09 职场文书

PostgreSQL常用字符串分割函数整理汇总

2022/07/07 PostgreSQL