编程 Python

python实现爬虫统计学校BBS男女比例（一）

Posted in Python onDecember 31, 2015

一、项目需求

前言：BBS上每个id对应一个用户，他们注册时候会填写性别（男、女、保密三选一）。

经过检查，BBS注册用户的id对应1-300000，大概是30万的用户

笔者想用Python统计BBS上有多少注册用户，以及这些用户的性别分布

顺带可以统计最近活动用户是多少，其中男、女、保密各占多少

活动用户的限定为“上次活动时间”为 2015年

二、最终结果

性别信息保存在文本里，一行表示一个用户的信息，各列分别表示
【行数，id（涂掉了），性别，最后活跃时间】

python实现爬虫统计学校BBS男女比例（一）

三、实现思路

用户性别信息在哪个页面?

得到下面个人主页

python实现爬虫统计学校BBS男女比例（一）

把后面的uid=256730数字改成其他数字，就可以得到其他人的主页。

另外，如果上面的链接无法得到性别，可以再通过这个链接，也是修改uid可以访问其他人主页。

http://rs.xidian.edu.cn/home.php?mod=space&uid=256730&do=profile

python实现爬虫统计学校BBS男女比例（一）

四、数据如何存储?

用数据库还是其他方案？

为了阅读方便，我们考虑用文本文件存储。

30万的用户存储在一个文本里会导致文本过大。如果程序被意外终止，30 万的用户数据需要重新爬取。

我们我们考虑一个文本里存放1000条记录，理论上可以用30个文本来存放30万条数据。

文本名称为correct1-1001.txt correct47001-48001.txt，注意：1-1001是[1,1001)，包含1，不包含1001

1、使用正则匹配找出性别

查看网页源代码

<!-- 找出性别这一栏-->
<li><em>性别</em>女</li>

还可以找到活动时间-->
<li><em>上次发表时间</em>2015-11-4 20:04</li>

<!-- 有些id不存在相应的用户，会有这样的提示-->
<p>抱歉，您指定的用户空间不存在</p>

python实现爬虫统计学校BBS男女比例（一）

我们可以利用re模块来进行正则匹配

sexRe = re.compile(u'em>\u6027\u522b</em>(.*?)</li')
timeRe = re.compile(u'em>\u4e0a\u6b21\u6d3b\u52a8\u65f6\u95f4</em>(.*?)</li')
notexistRe = re.compile(u'(p>)\u62b1\u6b49\uff0c\u60a8\u6307\u5b9a\u7684\u7528\u6237\u7a7a\u95f4\u4e0d\u5b58\u5728<')

因为中文的原因，需要Unicode 转换中文工具，可以用站长工具 Unicode 转换 ASCII，ASCII 转换 Unicode，比如下面这个链接： http://tool.chinaz.com/Tools/Unicode.aspx

性别的Unicode 是 \u6027\u522b
上次活动时间 \u4e0a\u6b21\u6d3b\u52a8\u65f6\u95f4
抱歉，您指定的用户空间不存在
\u62b1\u6b49\uff0c\u60a8\u6307\u5b9a\u7684\u7528\u6237\u7a7a\u95f4\u4e0d\u5b58\u5728

这儿是简单获取性别的源代码，通过urllib2对链接myurl发送一个get请求，将得到的html保存下来。注意编码问题unicode(html, 'utf-8')，然后对html正则匹配seWord。

如果该用户有性别信息，返回对应的性别；否则，返回None

#对myurl页面进行seWord匹配查找
#seWord是用unicode表示
def getInfo(myurl, seWord):
  headers = {
    'User-Agent': 'Mozilla/5.0 (Windows; U; Windows NT 6.1; en-US; rv:1.9.1.6) Gecko/20091201 Firefox/3.5.6'
  }
  req = urllib2.Request(
    url=myurl,
    headers=headers
  )
  time.sleep(0.3)
  response = urllib2.urlopen(req)
  html = response.read()
  html = unicode(html, 'utf-8') #需要进行编码，否则找不到信息
  timeMatch = seWord.search(html) #因为seWord是用unicode表示
  if timeMatch:
    s = timeMatch.groups()
    return s[0]
  else:
    return None

五、错误处理

1、断网情况（热修复方案）

总共爬虫需要几天时间，用的校园网，中间可能有断网的可能。
如果发现断网，我们可以重新连上互联网，这中间有些用户的性别没有获取到。
程序运行时间较长，断一次网就重新从id=1开始跑是不科学的。而且你也不能保证这次就网一直是好的。
为了不让程序重头开始跑，所以我们是记录下断网中漏掉的用户id。
等一次程序跑完了（这需要几天的时间），我们再跑记录下来的id重新跑一次。

2、无法获取性别

这种有两种情况:
一是真的没有性别（用户没有填写）
二是服务器抽了，咱们请求网页失败了。
这种咱们也是和上面类似，记录下失败的id，后面再重新跑。

知识点小结

对于这种错误，SyntaxError: Non-ASCII character '\xe5' in file

需要在文件开头加上# -*- coding: UTF-8 -*-

因为 python 的默认编码文件是用的 ANSCII 码

<meta http-equiv="Content-Type" content="text/html; charset=utf-8" />
BBS网页源代码使用utf-8进行编码的。

本项目设计到中文字符，自然会遇到编码问题。

import sys
print sys.getdefaultencoding()

输出 ascii
从上面的代码可以看出 sys.defaultencoding 是 ANSCII，ANSCII是无法对中文字符进行编码的。UTF-8是Unicode的实现方式之一，可以对中文字符进行编码。遇到中文字符，我们需要加上这行代码

reload(sys)
# sys.setdefaultencoding('utf-8')

更改 sys.defaultencoding 为'utf-8'

后期整理的时候发现了自己一个小问题，因为正则表达式当时用unicode来表示的，所以需要把html进行unicode转换进行查找。
后来发现可以直接用汉字对原来的html进行查找。

# -*- coding: UTF-8 -*-
  html = response.read()
  sexRe = re.compile('em>性别</em>(.*?)</li')

  timeMatch = sexRe.search(html)
  if timeMatch:
    s = timeMatch.groups()
    print "字符串 "+s[0]


  html = unicode(html, 'utf-8')
  sexRe = re.compile(u'em>\u6027\u522b</em>(.*?)</li')
  timeMatch = sexRe.search(html)
  if timeMatch:
    s = timeMatch.groups()
    print "unicode " +s[0]

输出

字符串 女
unicode 女

  html = response.read()
  print len(html)
  html = unicode(html, 'utf-8') #
  print len(html)

输出

html = response.read()
  print len(html)
  html = unicode(html, 'utf-8') #
  print len(html)

输出

35423
33658

以上就是python实现爬虫统计学校BBS男女比例的前期准备和方案分析，希望对大家的学习有所帮助。

python实现爬虫统计学校BBS男女比例（一）

- Author -

学习编程知识

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Python 相关文章推荐

python根据路径导入模块的方法

Sep 30 Python

Python面向对象编程基础解析（二）

Oct 26 Python

python命令行解析之parse_known_args(）函数和parse_args()使用区别介绍

Jan 24 Python

Python DataFrame设置/更改列表字段/元素类型的方法

Jun 09 Python

Python Scapy随心所欲研究TCP协议栈

Nov 20 Python

Python3爬虫学习之将爬取的信息保存到本地的方法详解

Dec 12 Python

python中的split()函数和os.path.split()函数使用详解

Dec 21 Python

Django中modelform组件实例用法总结

Feb 10 Python

Python如何爬取b站热门视频并导入Excel

Aug 10 Python

Ubuntu20下的Django安装的方法步骤

Jan 24 Python

Python开发.exe小工具的详细步骤

Jan 27 Python

python turtle绘图命令及案例

Nov 23 Python

Python 功能和特点(新手必学)

Dec 30 #Python

python实现文本文件合并

Dec 29 #Python

Python验证码识别处理实例

Dec 28 #Python

在Windows系统上搭建Nginx+Python+MySQL环境的教程

Dec 25 #Python

Windows系统下使用flup搭建Nginx和Python环境的方法

Dec 25 #Python

在Linux系统上通过uWSGI配置Nginx+Python环境的教程

Dec 25 #Python

Linux系统上Nginx+Python的web.py与Django框架环境

Dec 25 #Python

You might like

php实现的ping端口函数实例

2014/11/12 PHP

基于GD2图形库的PHP生成图片缩略图类代码分享

2015/02/08 PHP

PHP/HTML混写的四种方式总结

2017/02/27 PHP

总结的一些PHP开发中的tips(必看篇)

2017/03/24 PHP

List the UTC Time on a Computer

2007/06/11 Javascript

jQuery EasyUI API 中文文档 DateTimeBox日期时间框

2011/10/16 Javascript

js计算精度问题小结

2013/04/22 Javascript

控制文字内容的显示与隐藏示例

2014/06/11 Javascript

jQuery实现冻结表格行和列

2015/04/29 Javascript

jQuery 1.9.1源码分析系列（十五）动画处理之缓动动画核心Tween

2015/12/03 Javascript

基于javascript实现checkbox复选框实例代码

2016/01/28 Javascript

JavaScript实现简单Tip提示框效果

2016/04/20 Javascript

jQuery动态移除和添加背景图片的方法详解

2017/03/07 Javascript

基于Bootstrap框架菜鸟入门教程(推荐)

2017/09/17 Javascript

layui扩展上传组件模拟进度条的方法

2019/09/23 Javascript

JS实现小星星特效

2019/12/24 Javascript

[02:04]2014DOTA2国际邀请赛 DK一个时代的落幕

2014/07/21 DOTA

[01:35]辉夜杯战队访谈宣传片—LGD

2015/12/25 DOTA

python使用正则表达式分析网页中的图片并进行替换的方法

2015/03/26 Python

用Python进行简单图像识别（验证码）

2018/01/19 Python

python矩阵/字典实现最短路径算法

2019/01/17 Python

pyqt5 实现在别的窗口弹出进度条

2019/06/18 Python

python机器学习库xgboost的使用

2020/01/20 Python

python实现录屏功能(亲测好用)

2020/03/02 Python

在tensorflow以及keras安装目录查询操作(windows下)

2020/06/19 Python

CSS3条纹背景制作的实战攻略

2016/05/31 HTML / CSS

CSS3 mask 遮罩的具体使用方法

2017/11/03 HTML / CSS

Java和Javasciprt的区别

2012/09/02 面试题

财务人员个人求职信范文

2013/12/04 职场文书

周年庆促销方案

2014/03/15 职场文书

3.15国际消费者权益日主题活动活动总结

2014/03/16 职场文书

某某同志考察材料

2014/05/28 职场文书

2016高考寄语集锦

2015/12/04 职场文书

2016年精神文明建设先进个人事迹材料

2016/02/29 职场文书

python实现语音常用度量方法的代码详解

2021/05/25 Python

mybatis 获取更新记录的id

2022/05/20 Java/Android