Python爬虫爬取博客实现可视化过程解析


Posted in Python onJune 29, 2020

源码:

from pyecharts import Bar
import re
import requests
num=0
b=[]
for i in range(1,11):
  link='https://www.cnblogs.com/echoDetected/default.html?page='+str(i)
  headers={'user-agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/72.0.3626.109 Safari/537.36'}
  r=requests.get(link,headers=headers)
  html=r.text
  post=re.findall('<span class="post-view-count">(.*?)</span>',html)
for i in post:
    i = i.replace("阅读(", "")
    i = i.replace(")","")
    b.append(i)
    num=num+1
columns=[]
for i in range(1,num+1):
#设置行名
  columns.append('博客'+str(i))
#设置数据
#设置柱状图的主标题与副标题
bar = Bar("柱状图", "每个博客阅读数量")
#添加柱状图的数据及配置项,先行后列
bar.add("阅读量", columns, b, mark_line=["average"], mark_point=["max", "min"])
#生成本地文件(默认为.html文件)
bar.render()

爬虫不是重点,只是拿来爬阅读数量,pyecharts是重点

这次爬的是我自己的博客,一共10页,每页10片文章,正好写了100篇博客

pyecharts安装:

pip install wheelpip install pyecharts==0.1.9.4

直接pip install pyecharts会下载最新版无法调用

注意点:pyecharts调用,貌似无法实现多个py文件一起调用(意思是编写时不能在多个文件里出现import语句)

步骤解释:

1.爬虫爬取阅读数

2.去除非法字符装入新的数组

3.设置横轴数据,生成柱状图

4.在当前目录下生成render.html,打开查看柱状图

结果:

Python爬虫爬取博客实现可视化过程解析

柱状图是动态的,不是静态的

Python爬虫爬取博客实现可视化过程解析

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持三水点靠木。

Python 相关文章推荐
Python 解析XML文件
Apr 15 Python
Python3实现的腾讯微博自动发帖小工具
Nov 11 Python
python中mechanize库的简单使用示例
Jan 10 Python
python控制台英汉汉英电子词典
Apr 23 Python
python使用matplotlib绘制柱状图教程
Feb 08 Python
Python正则捕获操作示例
Aug 19 Python
python实现校园网自动登录的示例讲解
Apr 22 Python
Python代码打开本地.mp4格式文件的方法
Jan 03 Python
python try except返回异常的信息字符串代码实例
Aug 15 Python
Pytorch 之修改Tensor部分值方式
Dec 27 Python
使用Django清空数据库并重新生成
Apr 03 Python
Python调用JavaScript代码的方法
Oct 27 Python
使用keras框架cnn+ctc_loss识别不定长字符图片操作
Jun 29 #Python
浅谈keras中的后端backend及其相关函数(K.prod,K.cast)
Jun 29 #Python
如何使用python记录室友的抖音在线时间
Jun 29 #Python
Python sublime安装及配置过程详解
Jun 29 #Python
keras K.function获取某层的输出操作
Jun 29 #Python
Python pytesseract验证码识别库用法解析
Jun 29 #Python
用Python开发app后端有优势吗
Jun 29 #Python
You might like
PHP 递归效率分析
2009/11/24 PHP
mysql From_unixtime及UNIX_TIMESTAMP及DATE_FORMAT日期函数
2010/03/21 PHP
解析coreseek for sphinx的使用
2013/06/21 PHP
详解yii2实现分库分表的方案与思路
2017/02/03 PHP
php多进程模拟并发事务产生的问题小结
2018/12/07 PHP
thinkphp5框架实现的自定义扩展类操作示例
2019/05/16 PHP
fromCharCode和charCodeAt 方法
2006/12/27 Javascript
广泛收集的jQuery拖放插件集合
2012/04/09 Javascript
jQuery对象和Javascript对象之间转换的实例代码
2013/03/20 Javascript
用js实现in_array的方法
2013/11/05 Javascript
jQuery中end()方法用法实例
2015/01/08 Javascript
Javascript中的数组常用方法解析
2016/06/17 Javascript
浅谈jQuery中的eq()与DOM中element.[]的区别
2016/10/28 Javascript
vue router2.0二级路由的简单使用
2017/07/05 Javascript
Three.js实现绘制字体模型示例代码
2017/09/26 Javascript
vue组件tabbar使用方法详解
2018/11/06 Javascript
深入分析element ScrollBar滚动组件源码
2019/01/22 Javascript
Python打印“菱形”星号代码方法
2018/02/05 Python
解决Pycharm中import时无法识别自己写的程序方法
2018/05/18 Python
详解Python用户登录接口的方法
2019/04/17 Python
Ubuntu下Anaconda和Pycharm配置方法详解
2019/06/14 Python
利用Python的sympy包求解一元三次方程示例
2019/11/22 Python
使用Python合成图片的实现代码(图片添加个性化文本,图片上叠加其他图片)
2020/04/30 Python
python使用scapy模块实现ping扫描的过程详解
2021/01/21 Python
利用Node实现HTML5离线存储的方法
2020/10/16 HTML / CSS
省三好学生申请材料
2014/01/22 职场文书
商场活动策划方案
2014/01/24 职场文书
商场促销活动方案
2014/02/08 职场文书
大学生2014全国两会学习心得体会
2014/03/10 职场文书
宣传标语大全
2014/07/01 职场文书
书法兴趣小组活动总结
2014/07/07 职场文书
2014年安全员工作总结
2014/11/13 职场文书
三好学生竞选稿范文
2019/08/21 职场文书
MySQL库表名大小写的选择
2021/06/05 MySQL
JavaScript如何优化逻辑判断代码详解
2021/06/08 Javascript
React Fragment介绍与使用详解
2021/11/11 Javascript