Node.js+jade抓取博客所有文章生成静态html文件的实例


Posted in Javascript onSeptember 19, 2017

这篇文章,我们就把上文中采集到的所有文章列表的信息整理一下,开始采集文章并且生成静态html文件了.先看下我的采集效果,我的博客目前77篇文章,1分钟不到就全部采集生成完毕了,这里我截了部分的图片,文件名用文章的id生成的,生成的文章,我写了一个简单的静态模板,所有的文章都是根据这个模板生成的.

项目结构:

Node.js+jade抓取博客所有文章生成静态html文件的实例

Node.js+jade抓取博客所有文章生成静态html文件的实例

Node.js+jade抓取博客所有文章生成静态html文件的实例

好了,接下来,我们就来讲解下,这篇文章主要实现的功能:

1,抓取文章,主要抓取文章的标题,内容,超链接,文章id(用于生成静态html文件)

2,根据jade模板生成html文件

一、抓取文章如何实现?

非常简单,跟上文抓取文章列表的实现差不多

function crawlerArc( url ){
  var html = '';
  var str = '';
  var arcDetail = {};
  http.get(url, function (res) {
    res.on('data', function (chunk) {
      html += chunk;
    });
    res.on('end', function () {
      arcDetail = filterArticle( html );
      str = jade.renderFile('./views/layout.jade', arcDetail );
      fs.writeFile( './html/' + arcDetail['id'] + '.html', str, function( err ){
        if( err ) {
          console.log( err );
        }
        console.log( 'success:' + url );
        if ( aUrl.length ) crawlerArc( aUrl.shift() );
      } );
    });
  });
}

参数url就是文章的地址,把文章的内容抓取完毕之后,调用filterArticle( html ) 过滤出需要的文章信息(id, 标题,超链接,内容),然后用jade的renderFile这个api,实现模板内容的替换,

模板内容替换完之后,肯定就需要生成html文件了, 所以用writeFile写入文件,写入文件时候,用id作为html文件名称。这就是生成一篇静态html文件的实现,

接下来就是循环生成静态html文件了, 就是下面这行:

if ( aUrl.length ) crawlerArc( aUrl.shift() );

aUrl保存的是我的博客所有文章的url, 每次采集完一篇文章之后,就把当前文章的url删除,让下一篇文章的url出来,继续采集

完整的实现代码server.js:

var fs = require( 'fs' );
var http = require( 'http' );
var cheerio = require( 'cheerio' );
var jade = require( 'jade' );

var aList = [];
var aUrl = [];

function filterArticle(html) {
  var $ = cheerio.load( html );
  var arcDetail = {};
  var title = $( "#cb_post_title_url" ).text();
  var href = $( "#cb_post_title_url" ).attr( "href" );
  var re = /\/(\d+)\.html/;
  var id = href.match( re )[1];
  var body = $( "#cnblogs_post_body" ).html();
  return {
    id : id,
    title : title,
    href : href,
    body : body
  };
}

function crawlerArc( url ){
  var html = '';
  var str = '';
  var arcDetail = {};
  http.get(url, function (res) {
    res.on('data', function (chunk) {
      html += chunk;
    });
    res.on('end', function () {
      arcDetail = filterArticle( html );
      str = jade.renderFile('./views/layout.jade', arcDetail );
      fs.writeFile( './html/' + arcDetail['id'] + '.html', str, function( err ){
        if( err ) {
          console.log( err );
        }
        console.log( 'success:' + url );
        if ( aUrl.length ) crawlerArc( aUrl.shift() );
      } );
    });
  });
}

function filterHtml(html) {
  var $ = cheerio.load(html);
  var arcList = [];
  var aPost = $("#content").find(".post-list-item");
  aPost.each(function () {
    var ele = $(this);
    var title = ele.find("h2 a").text();
    var url = ele.find("h2 a").attr("href");
    ele.find(".c_b_p_desc a").remove();
    var entry = ele.find(".c_b_p_desc").text();
    ele.find("small a").remove();
    var listTime = ele.find("small").text();
    var re = /\d{4}-\d{2}-\d{2}\s*\d{2}[:]\d{2}/;
    listTime = listTime.match(re)[0];

    arcList.push({
      title: title,
      url: url,
      entry: entry,
      listTime: listTime
    });
  });
  return arcList;
}

function nextPage( html ){
  var $ = cheerio.load(html);
  var nextUrl = $("#pager a:last-child").attr('href');
  if ( !nextUrl ) return getArcUrl( aList );
  var curPage = $("#pager .current").text();
  if( !curPage ) curPage = 1;
  var nextPage = nextUrl.substring( nextUrl.indexOf( '=' ) + 1 );
  if ( curPage < nextPage ) crawler( nextUrl );
}

function crawler(url) {
  http.get(url, function (res) {
    var html = '';
    res.on('data', function (chunk) {
      html += chunk;
    });
    res.on('end', function () {
      aList.push( filterHtml(html) );
      nextPage( html );
    });
  });
}

function getArcUrl( arcList ){
  for( var key in arcList ){
    for( var k in arcList[key] ){
      aUrl.push( arcList[key][k]['url'] );
    }
  }
  crawlerArc( aUrl.shift() );
}

var url = 'http://www.cnblogs.com/ghostwu/';
crawler( url );

layout.jade文件:

doctype html
html
  head
    meta(charset='utf-8')
    title jade+node.js express
    link(rel="stylesheet", href='./css/bower_components/bootstrap/dist/css/bootstrap.min.css')
  body
    block header
      div.container
        div.well.well-lg
          h3 ghostwu的博客
          p js高手之路
    block container
      div.container
        h3
          a(href="#{href}" rel="external nofollow" ) !{title}
        p !{body}
    block footer
      div.container
        footer 版权所有 - by ghostwu

后续的打算:

1,采用mongodb入库

2,支持断点采集

3,采集图片

4,采集小说

等等....

以上这篇Node.js+jade抓取博客所有文章生成静态html文件的实例就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持三水点靠木。

Javascript 相关文章推荐
在IE中调用javascript打开Excel的代码(downmoon原作)
Apr 02 Javascript
使用js操作cookie的一点小收获分享
Sep 03 Javascript
JavaScript的MVVM库Vue.js入门学习笔记
May 03 Javascript
详解JS-- 浮点数运算处理
Nov 28 Javascript
JS及JQuery对Html内容编码,Html转义
Feb 17 Javascript
JavaScript中值类型和引用类型的区别
Feb 23 Javascript
Vue如何引入远程JS文件
Apr 20 Javascript
vue 实现通过手机发送短信验证码注册功能
Apr 19 Javascript
vue中的自定义分页插件组件的示例
Aug 18 Javascript
浅谈Vue.js组件(二)
Apr 09 Javascript
浅谈Vue2.4.0 $attrs与inheritAttrs的具体使用
Mar 08 Javascript
微信小程序点击滚动到指定位置的实现
May 22 Javascript
Node.js中Bootstrap-table的两种分页的实现方法
Sep 18 #Javascript
Node.js 使用递归实现遍历文件夹中所有文件
Sep 18 #Javascript
Node.JS 循环递归复制文件夹目录及其子文件夹下的所有文件
Sep 18 #Javascript
为什么我们要做三份 Webpack 配置文件
Sep 18 #Javascript
分析javascript中9 个常见错误阻碍你进步
Sep 18 #Javascript
十个免费的web前端开发工具详细整理
Sep 18 #Javascript
Redux 和 Mobx的选择问题:让你不再困惑!
Sep 18 #Javascript
You might like
php获取网页内容方法总结
2008/12/04 PHP
PHP统计二维数组元素个数的方法
2013/11/12 PHP
php中__destruct与register_shutdown_function执行的先后顺序问题
2014/10/17 PHP
php提取微信账单的有效信息
2018/10/01 PHP
用一段js程序来实现动画功能
2007/03/06 Javascript
Jquery作者John Resig自己封装的javascript 常用函数
2009/11/09 Javascript
基于jQuery的投票系统显示结果插件
2011/08/12 Javascript
javascript 全选与全取消功能的实现代码
2012/12/23 Javascript
jquery插件珍藏(图片局部放大/信息提示框)
2013/01/08 Javascript
JS 按钮点击触发(兼容IE、火狐)
2013/08/07 Javascript
js日期联动示例
2014/05/02 Javascript
Node.js事件循环(Event Loop)和线程池详解
2015/01/28 Javascript
基于Jquery实现万圣节快乐特效
2015/11/01 Javascript
基于javascript实现图片滑动效果
2016/05/07 Javascript
给easyui datebox扩展一个清空的实例
2016/11/09 Javascript
AngularJS使用ng-repeat和ng-if实现数据的删选显示效果示例【适用于表单数据的显示】
2016/12/13 Javascript
JavaScript代码实现txt文件的上传预览功能
2018/03/27 Javascript
jQuery实现动态加载select下拉列表项功能示例
2018/05/31 jQuery
JavaScript实现简单的隐藏式侧边栏功能示例
2018/08/31 Javascript
layui radio单选限制下一个radio单选的实例
2019/09/03 Javascript
JavaScript获取某一天所在的星期
2019/09/05 Javascript
Python自动连接ssh的方法
2015/03/07 Python
利用Python中unittest实现简单的单元测试实例详解
2017/01/09 Python
插入排序_Python与PHP的实现版(推荐)
2017/05/11 Python
Python绘图Matplotlib之坐标轴及刻度总结
2019/06/28 Python
mac系统下Redis安装和使用步骤详解
2019/07/09 Python
django日志默认打印request请求信息的方法示例
2020/05/17 Python
Python浮点型(float)运算结果不正确的解决方案
2020/09/22 Python
全球性的在线婚纱礼服工厂:27dress.com
2019/03/21 全球购物
《鱼游到了纸上》教学反思
2014/02/20 职场文书
2014年中学生检讨书大全
2014/10/09 职场文书
光棍节联谊晚会活动策划书
2014/10/10 职场文书
清明节寄语2015
2015/03/23 职场文书
党委工作总结2015
2015/04/27 职场文书
2019初中学生入团申请书
2019/06/27 职场文书
Python机器学习之决策树和随机森林
2021/07/15 Javascript