编程 Python

Python爬虫抓取论坛关键字过程解析

Posted in Python onOctober 19, 2020

前言：

之前学习了用python爬虫的基本知识，现在计划用爬虫去做一些实际的数据统计功能。由于前段时间演员的诞生带火了几个年轻的实力派演员，想用爬虫程序搜索某论坛中对于某些演员的讨论热度，并按照日期统计每天的讨论量。

这个项目总共分为两步：

1.获取所有帖子的链接：

将最近一个月内的帖子链接保存到数组中

2.从回帖中搜索演员名字：

从数组中打开链接，翻出该链接的所有回帖，在回帖中查找演员的名字

获取所有帖子的链接：

搜索的范围依然是以虎扑影视区为界限。虎扑影视区一天约5000个回帖，一月下来超过15万回帖，作为样本来说也不算小，有一定的参考价值。

完成这一步骤，主要分为以下几步：

1.获取当前日期

2.获取30天前的日期

3.记录从第一页往后翻的所有发帖链接

1.获取当前日期

这里我们用到了datetime模块。使用datetime.datetime.now()，可以获取当前的日期信息以及时间信息。在这个项目中，只需要用到日期信息就好。

2.获取30天前的日期

用datetime模块的优点在于，它还有一个很好用的函数叫做timedelta，可以自行计算时间差。当给定参数days=30时，就会生成30天的时间差，再用当前日期减去delta，可以得到30天前的日期，将该日期保存为startday，即开始进行统计的日期。不然计算时间差需要自行考虑跨年闰年等因素，要通过一个较为复杂的函数才可以完成。

today = datetime.datetime.now()
delta = datetime.timedelta(days=30)
i = "%s" %(today - delta)
startday = i.split(' ')[0]
today = "%s" %today
today = today.split(' ')[0]

在获得开始日期与结束日期后，由于依然需要记录每一天每个人的讨论数，根据这两个日期生成两个字典，分别为actor1_dict与actor2_dict。字典以日期为key，以当日讨论数目作为value，便于每次新增查找记录时更新对应的value值。

strptime, strftime = datetime.datetime.strptime, datetime.datetime.strftime
days = (strptime(today, "%Y-%m-%d") - strptime(startday, "%Y-%m-%d")).days
for i in range(days+1):
temp = strftime(strptime(startday, "%Y-%m-%d") + datetime.timedelta(i), "%Y-%m-%d")
actor1_dict[temp] = 0
actor2_dict[temp] = 0

3.记录从第一页往后翻的所有发帖链接

Python爬虫抓取论坛关键字过程解析

如图1所示，采用发帖顺序排列，可以得到所有的发帖时间（精确到分钟）。右键并点击查看网页源代码，可以发现当前帖子的链接页面，用正则表达式的方式抓取链接。

首先依然是获取30天前的日期，再抓取第i页的源代码，用正则表达式去匹配，获取网页链接和发帖时间。如图2所示：

Python爬虫抓取论坛关键字过程解析

比较发帖时间，如果小于30天前的日期，则获取发帖链接结束，返回当前拿到的链接数组，代码如下

def all_movie_post(ori_url):
  i = datetime.datetime.now()
  delta = datetime.timedelta(days=30)
  i = "%s" %(i - delta)
  day = i.split(' ')[0] # 获得30天前的日子
  print day
 
  user_agent = 'Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)'
  headers = { 'User-Agent' : user_agent }
 
  post_list = []
  for i in range(1,100):
    request = urllib2.Request(ori_url + '-{}'.format(i),headers = headers)
    response = urllib2.urlopen(request)
    content = response.read().decode('utf-8')
    pattern = re.compile('<a href="(.*?)" rel="external nofollow" class="truetit" >.*?<a style="color:#808080;cursor: initial; ">(.*?)</a>', re.S)
    items = re.findall(pattern,content)
    for item in items:
      if item[1] == '2011-09-16':
        continue
      if item[1] > day: #如果是30天内的帖子，保存
        post_list.append('https://bbs.hupu.com' + item[0])
      else: #如果已经超过30天了，就直接返回
        return post_list
  return post_list

函数的传参是链接首页，在函数中修改页码，并继续搜索。

从回帖中搜索演员名字：

接下来的步骤也是通过一个函数来解决。函数的传参包括上一步中得到的链接数组，已经想要查询的演员名字（这个功能可以进一步扩展，将演员名字也用列表的形式传输，同时上一步生成的字典也可以多一些）。

由于虎扑论坛会将一些得到认可的回帖摆在前端，即重复出现。如图3所示：

Python爬虫抓取论坛关键字过程解析

为了避免重复统计，将这些重复先去除，代码如下：

if i == 0:
        index = content.find('更多亮了的回帖')
        if index >= 0:
          content = content[index:]
        else:
          index = content.find('我要推荐')
          content = content[index:]

去除的规则其实并不重要，因为每个论坛都有自己的格式，只要能搞清楚源代码中是怎么写的，剩下的操作就可以自己根据规则进行。

每个回帖格式大致如图4，

Python爬虫抓取论坛关键字过程解析

用对应的正则表达式再去匹配，找到每个帖子每一个回帖的内容，在内容中搜索演员名字，即一开始的actor_1与actor_2，如果搜到，则在对应回帖日期下+1。

最终将两位演员名字出现频率返回，按日期记录的字典由于是全局变量，不需要返回。

web_str = '<span class="stime">(.*?) .*?</span>.*?<tbody>[\s]*<tr>[\s]*<td>(.*?)<br />' #找到回帖内容的正则
      pattern = re.compile(web_str, re.S)
      items = re.findall(pattern,content)
      for item in items:
        #if '<b>引用' in item: #如果引用别人的回帖，则去除引用部分
          #try:
            #item = item.split('</blockquote>')[1]
          #except:
            #print item
            #print item.decode('utf-8')
        if actor_1 in item[1]:
          actor1_dict[item[0]] += 1
          actor_1_freq += 1
        if actor_2 in item[1]:
          actor2_dict[item[0]] += 1
          actor_2_freq += 1

至此，我们就利用爬虫知识，成功完成对论坛关键字的频率搜索了。

这只是一个例子，关键字可以任意，这也不只是一个针对演员的诞生而写的程序。将演员名字换成其他词，就可以做到类似“您的年度关键字”这样的结果，根据频率大小来显示文字大小。

以上就是本文的全部内容，希望对大家的学习有所帮助，也希望大家多多支持三水点靠木。

Python爬虫抓取论坛关键字过程解析

- Author -

panfengzjz

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Python 相关文章推荐

Python删除指定目录下过期文件的2个脚本分享

Apr 10 Python

Python实现自动为照片添加日期并分类的方法

Sep 30 Python

python中将字典形式的数据循环插入Excel

Jan 16 Python

Python切片工具pillow用法示例

Mar 30 Python

Python使用jsonpath-rw模块处理Json对象操作示例

Jul 31 Python

Python字符串的全排列算法实例详解

Jan 07 Python

PyTorch中的padding(边缘填充)操作方式

Jan 03 Python

利用pytorch实现对CIFAR-10数据集的分类

Jan 14 Python

python GUI库图形界面开发之PyQt5浏览器控件QWebEngineView详细使用方法

Feb 26 Python

python GUI库图形界面开发之PyQt5图片显示控件QPixmap详细使用方法与实例

Feb 27 Python

Python自动化之UnitTest框架实战记录

Sep 08 Python

Python操作CSV格式文件的方法大全

Jul 15 Python

python MD5加密的示例

Oct 19 #Python

python Yaml、Json、Dict之间的转化

Oct 19 #Python

Python pip 常用命令汇总

Oct 19 #Python

Python环境使用OpenCV检测人脸实现教程

Oct 19 #Python

python Tornado框架的使用示例

Oct 19 #Python

python mock测试的示例

Oct 19 #Python

python 提高开发效率的5个小技巧

Oct 19 #Python

You might like

关于ob_get_contents(),ob_end_clean(),ob_start(),的具体用法详解

2013/06/24 PHP

ThinkPHP之A方法实例讲解

2014/06/20 PHP

PHP解析RSS的方法

2015/03/05 PHP

PHP pear安装配置教程

2016/05/14 PHP

PHP中常用的魔术方法

2017/04/28 PHP

php格式文件打开的四种方法

2018/02/24 PHP

JS刷新框架外页面七种实现代码

2013/02/18 Javascript

Javascript学习笔记之对象篇（三） : hasOwnProperty

2014/06/24 Javascript

5个最顶级jQuery图表类库插件【jquery插件库】

2016/05/05 Javascript

原生JS实现移动端web轮播图详解（结合Tween算法造轮子）

2017/09/10 Javascript

vue之将echart封装为组件

2018/06/02 Javascript

VUE v-for循环中每个item节点动态绑定不同函数的实例

2018/09/26 Javascript

JavaScript常见继承模式实例小结

2019/01/11 Javascript

如何将百度地图包装成Vue的组件的方法步骤

2019/02/12 Javascript

vue实现多个echarts根据屏幕大小变化而变化实例

2020/07/19 Javascript

JavaScript 常见的继承方式汇总

2020/09/17 Javascript

vue 如何使用递归组件

2020/10/23 Javascript

Python生成pdf文件的方法

2014/08/04 Python

python通过get,post方式发送http请求和接收http响应的方法

2015/05/26 Python

python实现字符串连接的三种方法及其效率、适用场景详解

2017/01/13 Python

tensorflow入门之训练简单的神经网络方法

2018/02/26 Python

python实现NB-IoT模块远程控制

2018/06/20 Python

对numpy Array [: ,] 的取值方法详解

2018/07/02 Python

Python实现PyPDF2处理PDF文件的方法示例

2019/09/25 Python

Python 切分数组实例解析

2019/11/07 Python

python实现超级马里奥

2020/03/18 Python

python生成word合同的实例方法

2021/01/12 Python

Tarte Cosmetics官网：美国最受欢迎的化妆品公司之一

2017/08/24 全球购物

美国知名的旅游网站：OneTravel

2018/10/09 全球购物

实习教师自我鉴定

2013/12/12 职场文书

求职自荐信怎么写

2014/03/06 职场文书

探亲假请假条

2014/04/11 职场文书

企业文化宣传标语

2014/06/09 职场文书

2014年财务科工作总结

2014/11/11 职场文书

2016年党风廉政建设承诺书

2016/03/25 职场文书

webpack的移动端适配方案小结

2021/07/25 Javascript