服务器 NodeJs

nodejs爬虫初试superagent和cheerio

Posted in NodeJs onMarch 05, 2018

前言

早就听过爬虫，这几天开始学习nodejs，写了个爬虫https://github.com/leichangchun/node-crawlers/tree/master/superagent_cheerio_demo，爬取博客园首页的文章标题、用户名、阅读数、推荐数和用户头像，现做个小总结。

使用到这几个点：

1、node的核心模块-- 文件系统

2、用于http请求的第三方模块 -- superagent

3、用于解析DOM的第三方模块 -- cheerio

几个模块详细的讲解及API请到各个链接查阅，demo中只有简单的用法。

准备工作

使用npm管理依赖，依赖信息会存放在package.json中

//安装用到的第三方模块
cnpm install --save superagent cheerio

引入所需要用到的功能模块

//引入第三方模块，superagent用于http请求，cheerio用于解析DOM
const request = require('superagent');
const cheerio = require('cheerio');
const fs = require('fs');

请求 + 解析页面

想要爬到博客园首页的内容，首先要请求首页地址，拿到返回的html，这里使用superagent进行http请求，基本的使用方法如下：

request.get(url)
      .end(error,res){
      //do something     
}

向指定的url发起get请求，请求错误时，会有error返回（没有错误时，error为null或undefined），res为返回的数据。

拿到html内容后，要拿到我们想要的数据，这个时候就需要用cheerio解析DOM了，cheerio要先load目标html，然后再进行解析，API和jquery的API非常类似，熟悉jquery上手非常快。直接看代码实例

//目标链接 博客园首页
let targetUrl = 'https://www.cnblogs.com/';
//用来暂时保存解析到的内容和图片地址数据
let content = '';
let imgs = [];
//发起请求
request.get(targetUrl)
    .end( (error,res) => {
      if(error){ //请求出错，打印错误，返回
        console.log(error)
        return;
      }
      // cheerio需要先load html
      let $ = cheerio.load(res.text);
      //抓取需要的数据,each为cheerio提供的方法用来遍历
      $('#post_list .post_item').each( (index,element) => {
        //分析所需要的数据的DOM结构
        //通过选择器定位到目标元素，再获取到数据
        let temp = {
          '标题' : $(element).find('h3 a').text(),
          '作者' : $(element).find('.post_item_foot > a').text(),
          '阅读数' : +$(element).find('.article_view a').text().slice(3,-2),
          '推荐数' : +$(element).find('.diggnum').text()
        }
        //拼接数据
        content += JSON.stringify(temp) + '\n';
        //同样的方式获取图片地址
        if($(element).find('img.pfs').length > 0){
          imgs.push($(element).find('img.pfs').attr('src'));
        }
      });
      //存放数据
      mkdir('./content',saveContent);
      mkdir('./imgs',downloadImg);
    })

存储数据

上面解析DOM之后，已经拼接了所需要的信息内容，也拿到了图片的URL，现在就进行存储，把内容存放到指定目录的txt文件中，而且下载图片到指定目录

先创建目录，使用nodejs核心的文件系统

//创建目录
function mkdir(_path,callback){
  if(fs.existsSync(_path)){
    console.log(`${_path}目录已存在`)
  }else{
    fs.mkdir(_path,(error)=>{
      if(error){
        return console.log(`创建${_path}目录失败`);
      }
      console.log(`创建${_path}目录成功`)
    })
  }
  callback(); //没有生成指定目录不会执行
}

有了指定目录之后，可以写入数据了，txt文件的内容已经有了，直接写入就可以了使用writeFile()

//将文字内容存入txt文件中
function saveContent() {
  fs.writeFile('./content/content.txt',content.toString());
}

取到了图片的链接，所以需要再使用superagent下载图片，存在本地。superagent可以直接返回一个响应流，再配合nodejs的管道，直接把图片内容写到本地

//下载爬到的图片
function downloadImg() {
  imgs.forEach((imgUrl,index) => {
    //获取图片名 
    let imgName = imgUrl.split('/').pop();

    //下载图片存放到指定目录
    let stream = fs.createWriteStream(`./imgs/${imgName}`);
    let req = request.get('https:' + imgUrl); //响应流
    req.pipe(stream);
    console.log(`开始下载图片 https:${imgUrl} --> ./imgs/${imgName}`);     
  } )
}

效果

执行下demo，看下效果，数据已经正常爬下来了

nodejs爬虫初试superagent和cheerio

非常简单的一个demo，可能也没有那么严谨，不过总是走出了node的第一小步。

总结

以上所述是小编给大家介绍的nodejs爬虫初试superagent和cheerio，希望对大家有所帮助，如果大家有任何疑问请给我留言，小编会及时回复大家的。在此也非常感谢大家对三水点靠木网站的支持！

nodejs爬虫初试superagent和cheerio

- Author -

Shapeying

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

NodeJs 相关文章推荐

抛弃Nginx使用nodejs做反向代理服务器

Jul 17 NodeJs

nodejs实现遍历文件夹并统计文件大小

May 28 NodeJs

nodejs实现bigpipe异步加载页面方案

Jan 26 NodeJs

NodeJs的优势和适合开发的程序

Aug 14 NodeJs

NodeJS和BootStrap分页效果的实现代码

Nov 07 NodeJs

nodejs制作爬虫实现批量下载图片

May 19 NodeJs

nodejs发送http请求时遇到404长时间未响应的解决方法

Dec 10 NodeJs

nodejs爬虫初试superagent和cheerio

Mar 05 NodeJs

对mac下nodejs 更新到最新版本的最新方法(推荐)

May 17 NodeJs

NodeJS 实现多语言的示例代码

Sep 11 NodeJs

nodejs 使用http进行post或get请求的实例(携带cookie)

Jan 03 NodeJs

nodejs二进制与Buffer的介绍与使用

Jul 11 NodeJs

Nodejs模块载入运行原理

Feb 23 #NodeJs

Nodejs下使用gm圆形裁剪并合成图片的示例

Feb 22 #NodeJs

nodejs微信扫码支付功能实现

Feb 17 #NodeJs

nodejs+express搭建多人聊天室步骤

Feb 12 #NodeJs

nodeJs实现基于连接池连接mysql的方法示例

Feb 10 #NodeJs

NodeJS简单实现WebSocket功能示例

Feb 10 #NodeJs

nodejs使用redis作为缓存介质实现的封装缓存类示例

Feb 07 #NodeJs

You might like

玩家交还《星际争霸》原始码光盘暴雪报以厚礼

2017/05/05 星际争霸

造就帕卡马拉的帕卡斯是怎么被发现的

2021/03/03 咖啡文化

PHP curl 并发最佳实践代码分享

2012/09/05 PHP

浅析php中jsonp的跨域实例

2013/06/21 PHP

php 判断服务器操作系统的类型

2014/02/17 PHP

ThinkPHP Mobile使用方法简明教程

2014/06/18 PHP

一个简单的php路由类

2016/05/29 PHP

CakePHP框架Model函数定义方法示例

2017/08/04 PHP

PHP长网址与短网址的实现方法

2017/10/13 PHP

Yii Framework框架使用PHPExcel组件的方法示例

2019/07/24 PHP

document.all还是document.getElementsByName?

2006/07/21 Javascript

JavaScript中的冒泡排序法

2016/08/03 Javascript

Vuejs 页面的区域化与组件封装的实现

2017/09/11 Javascript

js中url对象化管理分析

2017/12/29 Javascript

浅谈vue的props，data，computed变化对组件更新的影响

2018/01/16 Javascript

详解Express笔记之动态渲染HTML(新手入坑)

2018/12/13 Javascript

nodeJs的安装与npm全局环境变量的配置详解

2020/01/06 NodeJs

JS实现轮播图效果

2020/01/11 Javascript

微信小程序使用 vant Dialog组件的正确方式

2020/02/21 Javascript

在vue中created、mounted等方法使用小结

2020/07/21 Javascript

详解 javascript对象创建模式

2020/10/30 Javascript

[46:59]完美世界DOTA2联赛PWL S2 GXR vs Ink 第二场 11.19

2020/11/20 DOTA

Flask框架的学习指南之制作简单blog系统

2016/11/20 Python

python实现unicode转中文及转换默认编码的方法

2017/04/29 Python

Python基于matplotlib绘制栈式直方图的方法示例

2017/08/09 Python

python下载微信公众号相关文章

2019/02/26 Python

浅谈Django中view对数据库的调用方法

2019/07/18 Python

Django命名URL和反向解析URL实现解析

2019/08/09 Python

PyCharm搭建Spark开发环境的实现步骤

2019/09/05 Python

python 生成任意形状的凸包图代码

2020/04/16 Python

应用电子技术专业个人求职信

2013/09/21 职场文书

鼓励运动员的广播稿

2014/02/08 职场文书

中学生社会实践活动总结

2014/07/03 职场文书

uni-app 微信小程序授权登录的实现步骤

2022/02/18 Javascript

Nginx中使用Lua脚本与图片的缩略图处理的实现

2022/03/18 Servers

使用scrapy实现增量式爬取方式

2022/06/21 Python