编程 Python

如何使用python爬取csdn博客访问量

Posted in Python onFebruary 14, 2016

最近学习了python和爬虫，想写一个程序练练手，所以我就想到了大家都比较关心的自己的博客访问量，使用python来获取自己博客的访问量，这也是后边我将要进行的项目的一部分，后边我会对博客的访问量进行分析，以折线图和饼图等可视化的方式展示自己博客被访问的情况，使自己能更加清楚自己的哪些博客更受关注，博客专家请勿喷，因为我不是专家，我听他们说专家本身就有这个功能。

一、网址分析

进入自己的博客页面，网址为：http://blog.csdn.net/xingjiarong 网址还是非常清晰的就是csdn的网址+个人csdn登录账号，我们来看一下下一页的网址。

如何使用python爬取csdn博客访问量

看到第二页的地址为：http://blog.csdn.net/xingjiarong/article/list/2
后边的数字表示现在正处于第几页，再用其他的页面验证一下，确实是这样的，那么第一页为什么不是http://blog.csdn.net/xingjiarong/article/list/1呢，那么我们在浏览器中输入http://blog.csdn.net/xingjiarong/article/list/1试试，哎，果然是第一页啊，其实第一页是被重定向了，http://blog.csdn.net/xingjiarong被重定向到http://blog.csdn.net/xingjiarong/article/list/1，所以两个网址都能访问第一页，那么现在规律就非常明显了：
http://blog.csdn.net/xingjiarong/article/list/ + 页号

二、如何获取标题

右键查看网页的源代码，我们看到可以找到这样一段代码：

如何使用python爬取csdn博客访问量

我们可以看到标题都是在标签

<span class="link_title"><a href="/xingjiarong/article/details/50651235">

所以我们可以使用下面的正则表达式来匹配标题：

<span class="link_title"><a href=".*?">(.*?)</a></span>

三、如何获取访问量

拿到了标题之后，就要获得对应的访问量了，经过对源码的分析，我看到访问量的结构都是这样的：

<span class="link_view" title="阅读次数"> <a href="/xingjiarong/article/details/50651235" title="阅读次数">阅读</a>(1140)</span>

括号中的数字即为访问量，我们可以用下面的正则表达式来匹配：

<span class="link_view".*?><a href=".*?" title="阅读次数">阅读</a>\((.*?)\)</span>

四、如何判断是否为尾页

接下来我们要判断当前页是否为最后一页，否则我们就不能判断什么时候结束了，我找到了源码中‘尾页'的标签，发现是下面的结构：

<a href="/xingjiarong/article/list/2">下一页</a> <a href="/xingjiarong/article/list/7">尾页</a>

所以我们可以用下面的正则表达式来匹配，如果匹配成功就说明当前页不是最后一页，否则当前页就是最后一页。

<a href=".*?">尾页</a>

五、编程实现

下面是完整的代码实现：

#!usr/bin/python
# -*- coding: utf-8 -*-
'''
Created on 2016年2月13日
@author: xingjiarong
使用python爬取csdn个人博客的访问量，主要用来练手
'''
import urllib2
import re
#当前的博客列表页号
page_num = 1
#不是最后列表的一页
notLast = 1
account = str(raw_input('输入csdn的登录账号:'))
while notLast:
#首页地址
baseUrl = 'http://blog.csdn.net/'+account
#连接页号，组成爬取的页面网址
myUrl = baseUrl+'/article/list/'+str(page_num)
#伪装成浏览器访问，直接访问的话csdn会拒绝
user_agent = 'Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)'
headers = {'User-Agent':user_agent}
#构造请求
req = urllib2.Request(myUrl,headers=headers)
#访问页面
myResponse = urllib2.urlopen(req)
myPage = myResponse.read()
#在页面中查找是否存在‘尾页'这一个标签来判断是否为最后一页
notLast = re.findall('<a href=".*?">尾页</a>',myPage,re.S)
print '-----------------------------第%d页---------------------------------' % (page_num,)
#利用正则表达式来获取博客的标题
title = re.findall('<span class="link_title"><a href=".*?">(.*?)</a></span>',myPage,re.S)
titleList=[]
for items in title:
titleList.append(str(items).lstrip().rstrip()) 
#利用正则表达式获取博客的访问量
view = re.findall('<span class="link_view".*?><a href=".*?" title="阅读次数">阅读</a>\((.*?)\)</span>',myPage,re.S)
viewList=[]
for items in view:
viewList.append(str(items).lstrip().rstrip())
#将结果输出 
for n in range(len(titleList)):
print '访问量:%s 标题:%s' % (viewList[n].zfill(4),titleList[n])
#页号加1
page_num = page_num + 1

下面是部分结果：

输入csdn的登录账号:xingjiarong
-----------------------------第1页---------------------------------
访问量:1821 标题:python编程常用模板总结
访问量:1470 标题:设计模式之UML（一）类图以及类间关系（泛化 、实现、依赖、关联、聚合、组合）
访问量:0714 标题:ubuntu14.04 安装并破解MyEclipse2014
访问量:1040 标题:ubuntu14.04 配置tomcat8
访问量:1355 标题:java调用python方法总结
访问量:0053 标题:Java多线程之Callable和Future
访问量:1265 标题:跟我学汇编（三）寄存器和物理地址的形成
访问量:1083 标题:跟我学汇编（二）王爽汇编环境搭建
访问量:0894 标题:跟我学汇编（一）基础知识
访问量:2334 标题:java多线程（一）Race Condition现象及产生的原因
访问量:0700 标题:Matlab矩阵基础
访问量:0653 标题:Matlab变量、分支语句和循环语句
访问量:0440 标题:Matlab字符串处理
访问量:0514 标题:Matlab运算符与运算
访问量:0533 标题:Matlab的数据类型
-----------------------------第2页---------------------------------
访问量:0518 标题:OpenStack设计与实现（五）RESTful API和WSGI
访问量:0540 标题:解决Android SDK Manager下载太慢问题
访问量:0672 标题:OpenStack设计与实现（四）消息总线（AMQP）
访问量:0570 标题:分布式文件存储FastDFS（五）FastDFS常用命令总结
访问量:0672 标题:分布式文件存储FastDFS（四）配置fastdfs-apache-module
访问量:0979 标题:分布式文件存储FastDFS（一）初识FastDFS
访问量:0738 标题:分布式文件存储FastDFS（三）FastDFS配置
访问量:0682 标题:分布式文件存储FastDFS（二）FastDFS安装
访问量:0511 标题:OpenStack设计与实现（三）KVM和QEMU浅析
访问量:0593 标题:OpenStack设计与实现（二）Libvirt简介与实现原理
访问量:0562 标题:OpenStack设计与实现（一）虚拟化
访问量:0685 标题:食堂买饭的启示
访问量:0230 标题:UML之时序图详解
访问量:0890 标题:设计模式之桥梁模式和策略模式的区别
访问量:1258 标题:设计模式（十二）责任链模式

总结：

使用python编写爬虫，我个人总结了以下的步骤：

1、分析要抓取的网址特征，以确定如何生成相关网页的网址，如果只爬取一个网页，则这一步可以省略。

2、查看网页的源码，分析自己想要爬取的内容所在的标签的特征。

3、使用正则表达式从源码中将自己想要的部分抠出来。

4、编程实现。

以上内容是针对如何使用python爬取csdn博客访问量的相关知识，希望对大家有所帮助。

如何使用python爬取csdn博客访问量

- Author -

xingjiarong

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Python 相关文章推荐

python 多线程应用介绍

Dec 19 Python

python sys模块sys.path使用方法示例

Dec 04 Python

python操作xml文件详细介绍

Jun 09 Python

用Python操作字符串之rindex()方法的使用

May 19 Python

python绘制简单折线图代码示例

Dec 19 Python

解决pandas无法在pycharm中使用plot()方法显示图像的问题

May 24 Python

Django压缩静态文件的实现方法详析

Aug 26 Python

Python I/O与进程的详细讲解

Mar 08 Python

Python匿名函数/排序函数/过滤函数/映射函数/递归/二分法

Jun 05 Python

PyQt编程之如何在屏幕中央显示窗体的实例

Jun 18 Python

pyCharm 设置调试输出窗口中文显示方式(字符码转换)

Jun 09 Python

python如何为list实现find方法

May 30 Python

python动态网页批量爬取

Feb 14 #Python

Python ftp上传文件

Feb 13 #Python

Python cx_freeze打包工具处理问题思路及解决办法

Feb 13 #Python

Python批量创建迅雷任务及创建多个文件

Feb 13 #Python

Python 中 Meta Classes详解

Feb 13 #Python

教大家使用Python SqlAlchemy

Feb 12 #Python

理解Python垃圾回收机制

Feb 12 #Python

You might like

destoon文章模块调用企业会员资料的方法

2014/08/22 PHP

简介PHP的Yii框架中缓存的一些高级用法

2016/03/29 PHP

PHP与Java对比学习日期时间函数

2016/07/03 PHP

php使用gearman进行任务分发操作实例详解

2020/02/26 PHP

PHP之header函数详解

2021/03/02 PHP

Javascript日期对象的dateAdd与dateDiff方法

2008/11/18 Javascript

js中关于String对象的replace使用详解

2011/05/24 Javascript

原生javaScript做得动态表格(注释写的很清楚)

2013/12/29 Javascript

jQuery中find()方法用法实例

2015/01/07 Javascript

快速学习JavaScript的6个思维技巧

2015/10/13 Javascript

通过Tabs方法基于easyUI+bootstrap制作工作站

2016/03/28 Javascript

探讨AngularJs中ui.route的简单应用

2016/11/16 Javascript

BootStrap表单控件之复选框checkbox和单选择按钮radio

2017/05/23 Javascript

react在安卓中输入框被手机键盘遮挡问题的解决方法

2018/09/03 Javascript

React Router V4使用指南(精讲)

2018/09/17 Javascript

Vue.js 中的 v-cloak 指令及使用详解

2018/11/19 Javascript

30分钟快速实现小程序语音识别功能

2018/11/27 Javascript

一次Webpack配置文件的分离实战记录

2018/11/30 Javascript

从组件封装看Vue的作用域插槽的实现

2019/02/12 Javascript

vue插件mescroll.js实现移动端上拉加载和下拉刷新

2019/03/07 Javascript

微信小程序扭蛋抽奖机css3动画实现详解

2019/07/19 Javascript

Vue 动态路由的实现及 Springsecurity 按钮级别的权限控制

2019/09/05 Javascript

如何实现iframe父子传参通信

2020/02/05 Javascript

vue监听键盘事件的相关总结

2021/01/29 Vue.js

介绍Python的Urllib库的一些高级用法

2015/04/30 Python

Python使用正则表达式实现文本替换的方法

2017/04/18 Python

python3 循环读取excel文件并写入json操作

2020/07/14 Python

Python实现疫情地图可视化

2021/02/05 Python

CSS3田字格列表的样式编写方法

2018/11/22 HTML / CSS

惠普加拿大在线商店：HP加拿大

2017/09/15 全球购物

菲律宾最大的网上花店和礼品店：PhilFlower.com

2018/02/09 全球购物

法国包包和行李箱销售网站：Bagage24.fr

2020/03/24 全球购物

办公室人员先进事迹

2014/01/27 职场文书

《邮票齿孔的故事》教学反思

2014/02/22 职场文书

材料化学专业求职信

2014/07/15 职场文书

《扇形统计图》教学反思

2016/02/17 职场文书