编程 Python

python协程gevent案例爬取斗鱼图片过程解析

Posted in Python onAugust 27, 2019

分析

分析网站寻找需要的网址

用谷歌浏览器摁F12打开开发者工具，然后打开斗鱼颜值分类的页面，如图：

在里面的请求中，最后发现它是以ajax加载的数据，数据格式为json，如图：

python协程gevent案例爬取斗鱼图片过程解析

圈住的部分是我们需要的数据，然后复制它的网址为https://www.douyu.com/gapi/rknc/directory/yzRec/1，出于学习目的只爬取第一页（减少服务器压力）。然后把网址放到浏览器中测试是否可以访问。如图：

python协程gevent案例爬取斗鱼图片过程解析

结果正常。

分析json数据，提取图片链接

最后分析发现json中的data里面的rl是每个房间的信息，大概有200条左右，拿出其中的一条查询里面的图片链接。

{
        "rid": 1282190,
        "rn": "大家要开心啊~",
        "uid": 77538371,
        "nn": "鲸鱼欧尼",
        "cid1": 8,
        "cid2": 201,
        "cid3": 581,
        "iv": 1,
        "av": "avatar_v3/201908/d62c503c603945098f2c22d0d95c3b2e",
        "ol": 610574,
        "url": "/1282190",
        "c2url": "/directory/game/yz",
        "c2name": "颜值",
        "icdata": {
          "217": {
            "url": "https://sta-op.douyucdn.cn/dy-listicon/king-web.png-v3.png",
            "w": 0,
            "h": 0
          }
        },
        "dot": 2103,
        "subrt": 0,
        "topid": 0,
        "bid": 0,
        "gldid": 0,
        "rs1": "https://rpic.douyucdn.cn/live-cover/appCovers/2019/08/01/1282190_20190801002745_big.jpg/dy1",
        "rs16": "https://rpic.douyucdn.cn/live-cover/appCovers/2019/08/01/1282190_20190801002745_small.jpg/dy1",
        "utag": [
          {
            "name": "呆萌鲸鱼",
            "id": 111405
          },
          {
            "name": "美美美",
            "id": 41
          },
          {
            "name": "萌萌哒",
            "id": 520
          },
          {
            "name": "刀神老婆",
            "id": 132367
          }
        ],
        "rpos": 0,
        "rgrpt": 1,
        "rkic": "",
        "rt": 2103,
        "ot": 0,
        "clis": 1,
        "chanid": 0,
        "icv1": [
          [
            {
              "id": 217,
              "url": "https://sta-op.douyucdn.cn/dy-listicon/web-king-1-10-v3.png",
              "score": 994,
              "w": 0,
              "h": 0
            }
          ],
          [
            
          ],
          [
            
          ],
          [
            
          ]
        ],
        "ioa": 0,
        "od": ""
      }

测试发现rs16是房间的图片，如果把链接最后的/dy1去掉的话，图片就成大图了，心里美滋滋。

代码实现

import gevent
import json
from urllib import request
from gevent import monkey
# 使用gevent打补丁，耗时操作自动替换成gevent提供的模块
monkey.patch_all()
# 图片存放的目录
ROOT = "./images/"
# 设置请求头，防止被反爬虫的第一步
header = {
  "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/75.0.3770.142 Safari/537.36 "
}


def download(img_src):
  # 把每个链接最后的/dy1去掉
  img_src: str = img_src.replace("/dy1", "")
  # 提取图片名
  file_name: str = img_src.split("/")[-1]
  response = request.urlopen(request.Request(img_src, headers=header))
  # 保存到本地
  with open(ROOT + file_name, "wb") as f:
    f.write(response.read())
  print(file_name, "下载完成！")
if __name__ == '__main__':

  req = request.Request("https://www.douyu.com/gapi/rknc/directory/yzRec/1", headers=header)
  # 把json数据转换成python中的字典
  json_obj = json.loads(request.urlopen(req).read().decode("utf-8"))
  tasks = []
  for src in json_obj["data"]["rl"]:
    tasks.append(gevent.spawn(download, src["rs16"]))
  # 开始下载图片
  gevent.joinall(tasks)

结果

由于使用的是协程，比线程效率更高，不到1秒就把第一页的图片全部爬取下来了。效果如图：

python协程gevent案例爬取斗鱼图片过程解析

此案例仅用于学习gevent的使用。

以上就是本文的全部内容，希望对大家的学习有所帮助，也希望大家多多支持三水点靠木。

python协程gevent案例爬取斗鱼图片过程解析

- Author -

三国小梦

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Python 相关文章推荐

Python实现把xml或xsl转换为html格式

Apr 08 Python

python代码实现ID3决策树算法

Dec 20 Python

Python针对给定字符串求解所有子序列是否为回文序列的方法

Apr 21 Python

python3实现字符串的全排列的方法(无重复字符)

Jul 07 Python

用Python读取几十万行文本数据

Dec 24 Python

将Python字符串生成PDF的实例代码详解

May 17 Python

深入浅析Python 中的sklearn模型选择

Oct 12 Python

Python高级编程之继承问题详解(super与mro)

Nov 19 Python

解决keras backend 越跑越慢问题

Jun 18 Python

Visual Studio Code搭建django项目的方法步骤

Sep 17 Python

python实现无边框进度条的实例代码

Dec 30 Python

解决python存数据库速度太慢的问题

Apr 23 Python

Python中Unittest框架的具体使用

Aug 27 #Python

详解python3中用HTMLTestRunner.py报ImportError: No module named 'StringIO'如何解决

Aug 27 #Python

Python3分析处理声音数据的例子

Aug 27 #Python

python中struct模块之字节型数据的处理方法

Aug 27 #Python

Python的bit_length函数来二进制的位数方法

Aug 27 #Python

使用python将excel数据导入数据库过程详解

Aug 27 #Python

python读取指定字节长度的文本方法

Aug 27 #Python

You might like

利用PHP_XLSXWriter代替PHPExcel的方法示例

2017/07/16 PHP

php使用curl模拟浏览器表单上传文件或者图片的方法

2018/11/10 PHP

Thinkphp 框架配置操作之配置加载与读取配置实例分析

2020/05/15 PHP

Avengerls vs KG BO3 第二场2.18

2021/03/10 DOTA

ExtJS Ext.MessageBox.alert()弹出对话框详解

2010/04/02 Javascript

Javascript 面向对象（三）接口代码

2012/05/23 Javascript

让你的博客飘雪花超出屏幕依然看得见

2013/01/04 Javascript

javascript通过class来获取元素实现代码

2013/02/20 Javascript

裁剪字符串trim()自定义改进版

2013/04/10 Javascript

测试IE浏览器对JavaScript的AngularJS的兼容性

2015/06/19 Javascript

Javascript removeChild()删除节点及删除子节点的方法

2015/12/27 Javascript

浅析jQuery事件之on()方法绑定多个选择器,多个事件

2016/04/27 Javascript

JS简单实现浮动窗口效果示例

2016/09/07 Javascript

BootStrap表单控件之复选框checkbox和单选择按钮radio

2017/05/23 Javascript

Vue2.0实现将页面中表格数据导出excel的实例

2017/08/09 Javascript

微信小程序基于本地缓存实现点赞功能的方法

2017/12/18 Javascript

Bootstrap 模态框多次显示后台提交多次BUG的解决方法

2017/12/26 Javascript

详解JavaScript中的函数、对象

2019/04/01 Javascript

js实现贪吃蛇小游戏

2019/10/29 Javascript

vue项目中使用多选框的实例代码

2020/07/22 Javascript

[02:14]完美“圣”典2016风云人物：xiao8专访

2016/12/01 DOTA

[01:34]完美“圣”典宣传片震撼发布，12.17与你不见不散

2016/12/16 DOTA

Python计时相关操作详解【time,datetime】

2017/05/26 Python

pandas数值计算与排序方法

2018/04/12 Python

Python 判断奇数偶数的方法

2018/12/20 Python

Python3使用Matplotlib 绘制精美的数学函数图形

2019/04/11 Python

Django 表单模型选择框如何使用分组

2019/05/16 Python

python可视化爬虫界面之天气查询

2019/07/03 Python

CSS3点击按钮实现背景渐变动画效果

2016/10/19 HTML / CSS

结婚喜宴家长答谢词

2014/01/15 职场文书

青年文明号事迹材料

2014/01/18 职场文书

拾金不昧感谢信

2015/01/21 职场文书

2015年九一八事变纪念日演讲稿

2015/03/19 职场文书

违反纪律检讨书范文

2015/05/07 职场文书

少先队中队工作总结

2015/08/14 职场文书

SpringBoot SpringEL表达式的使用

2021/07/25 Java/Android

python协程gevent案例 爬取斗鱼图片过程解析

python协程gevent案例爬取斗鱼图片过程解析