编程 Python

Python 正则表达式爬虫使用案例解析

Posted in Python onSeptember 23, 2019

现在拥有了正则表达式这把神兵利器，我们就可以进行对爬取到的全部网页源代码进行筛选了。

下面我们一起尝试一下爬取内涵段子网站：

http://www.neihan8.com/article/list_5_1.html

打开之后，不难看出里面一个一个非常有内涵的段子，当你进行翻页的时候，注意url地址的变化：

第一页url: http: //www.neihan8.com/article/list_5_1 .html
第二页url: http: //www.neihan8.com/article/list_5_2 .html
第三页url: http: //www.neihan8.com/article/list_5_3 .html
第四页url: http: //www.neihan8.com/article/list_5_4 .html

这样我们的url规律找到了，要想爬取所有的段子，只需要修改一个参数即可。

我们就开始一步一步将所有的段子爬取下来吧。

第一步：获取数据

1. 按照我们之前的用法，我们需要一个加载页面的方法。

这里我们统一定义一个类，将url请求作为一个成员方法处理。

我们创建了一个文件，叫duanzi_spider.py

然后定义一个Spider类，并且添加一个加载页面的成员方法。

import urllib2
class Spider:
  """
    内涵段子爬虫类
  """
  def loadPage(self, page):
    """
      @brief 定义一个url请求网页的方法
      @param page需要请求的第几页
      @returns 返回的页面url
    """
    url = "http://www.neihan8.com/article/list_5_" + str(page)+ ".html"
    #user-Agent头
    user_agent = "Mozilla/5.0 (compatible; MSIE 9.0; Windows NT6.1; Trident/5.0"
    headers = {"User-Agent":user_agent}
    req = urllib2.Request(url, headers = headers)
    response = urllib2.urlopen(req)
    print html

以上的loadPage的实现思想想必大家都应该熟悉了，需要注意定义python类的成员方法需要额外添加一个参数self.

2.写main函数测试一个loadPage方法

if __name__ == "__main__":
  """
    =====================
      内涵段子小爬虫
    =====================
  """
  print("请按下回车开始")
  raw_input()
  
  #定义一个Spider对象
  mySpider = Spider()
  mySpider.loadPage(1)

程序正常执行的话，我们会在皮姆上打印了内涵段子第一页的全部html代码。但是我们发现，html中的中文部分显示的可能是乱码。

那么我们需要简单的将得到的网页源代码处理一下：

def loadPage(self, page):
  """
    @bridf 定义一个url请求网页的方法
    @param page 需要请求的第几页
    @returns 返回的页面html
  """
  url = "http://www.neihan8.com/article/list_5_"+str(page)+".html"
  #user-agent头
  user-agent = "Mozilla/5.0 (compatible; MSIE 9.0; Windows NT6.1; Trident/5.0"
  headers = {"User-Agent":user-agent}
  req = urllib2.Request(url, headers = headers)
  response = urllib2.urlopen(req)
  html = response.read()
  gbk_html = html.decode("gbk").encode("utf-8")
  return gbk_html

注意：对于每个网站对中文的编码各自不同，所以html.decode("gbk")的写法并不是通用的，根据网站的编码而异。

第二步：筛选数据

接下来我们已经得到了整个页面的数据。但是，很多内容我们并不关心，所以下一步我们需要筛选数据。如何筛选，就用到了上一节讲述的正则表达式

首先

import re

然后，我们得到的gbk_html中进行筛选匹配。

我们需要一个匹配规则

我们可以打开内涵段子的网页，鼠标点击右键"查看源代码"你会惊奇的发现，我们需要的每个段子的内容都是在一个<div>标签中，而且每个div标签都有一个属性class="f18 mb20"

根据正则表达式，我们可以推算出一个公式是：

<div.*?class="f18 mb20">(.*?)</div>

这个表达式实际上就是匹配到所有div中class="f18 mb20"里面的内容(具体可以看前面介绍)

然后这个正则应用到代码中，我们会得到以下代码：

def loadPage(self, page):
  """
    @brief 定义一个url请求网页的办法
    @param page 需要请求的第几页
    @returns 返回的页面html
  """
  url = "http://www.neihan8.com/article/list_5_" +str(page) + ".html"
  #User-Agent头
  user-agent = "Mozilla/5.0 (compatible; MSIE 9.0; Windows NT6.1; Trident/5.0" 

  headers = {"User-Agent":user-agent}
  req = urllib2.Request(url, headers=headers)
  response = urllib2.urlopen(req)

  html = response.read()

  gbk_html = html.decode("gbk").encode("utf-8")

  #找到所有的段子内容<div class="f18 mb20"></div>
  #re.S 如果没有re.S,则是只匹配一行有没有符合规则的字符串，如果没有则匹配下一行重新匹配
  #如果加上re.S,则是将所有的字符串按一个整体进行匹配
  pattern = re.compile(r'<div.*?class="f18 mb20">(.*?)</div>', re.S)
  item_list = pattern.findall(gbk_html)
  return item_list
def printOnePage(self, item_list, page):
  """
    @brief 处理得到的段子列表
    @param item_list 得到的段子列表
    @param page处理第几页
  """
  print("*********第%d页，爬取完毕...******"%page)
  for item in item_list:
    print("===============")
    print ite

这里需要注意一个是re.S是正则表达式中匹配的一个参数。

如果没有re.S则是只匹配一行有没有符合规则的字符串，如果没有则下一行重新匹配。
如果加上re.S则是将所有的字符串按一个整体进行匹配，findall将匹配到的所有结果封装到一个list中。
如果我们写了一个遍历item_list的一个方法printOnePage()。ok程序写到这，我们再一次执行一下。

python duanzi_spider.py

我们第一页的全部段子，不包含其他信息全部的打印了出来.

你会发现段子中有很多<p>,</p>很是不舒服，实际上这个是html的一种段落的标签。
在浏览器上看不出来，但是如果按照文本打印会有<p>出现，那么我们只需要把我们的内容去掉即可。
我们可以如下简单修改一下printOnePage()

def printOnePage(self, item_list, page):
  """
    @brief 处理得到的段子列表
    @param item_list 得到的段子列表
    @param page 处理第几页
  """
  print("******第%d页,爬取完毕*****"%page) 
  for item in item_list:
    print("============")
    item = item.replace("<p>", "").replace("</p>", "").replace("<br />", "")
    print item

第三步：保存数据

我们可以将所有的段子存放在文件中。比如，我们可以将得到的每个item不是打印出来，而是放在一个叫duanzi.txt的文件中也可以。

def writeToFile(self, text):
  """
    @brief 将数据追加写进文件中
    @param text 文件内容
  """
  myFile = open("./duanzi.txt", "a") #a追加形式打开文件 
  myFile.write(text)
  myFile.write("-------------------------")
  myFile.close()

然后我们将所有的print的语句改写成writeToFile(), 当前页面的所有段子就存在了本地的duanzi.txt文件中。

def printOnePage(self, item_list, page):
  """
    @brief 处理得到的段子列表
    @param item_list 得到的段子列表
    @param page 处理第几页
  """
  print("***第%d页，爬取完毕****"%page)
  for item in item_list:
    item = item.replace("<p>", "").replace("</p>", "").replace("<br />". "")

    self.writeToFile(item)

第四步：显示数据

接下来我们就通过参数的传递对page进行叠加来遍历内涵段子吧的全部段子内容。

只需要在外层加上一些逻辑处理即可。

def doWork(self):
  """
    让爬虫开始工作
  """
  while self.enable:
    try:
      item_list = self.loadPage(self.page)
    except urllib2.URLError, e:
      print e.reason
      continue

  #将得到的段子item_list处理
  self.printOnePage(item_list, self.page)
  self.page += 1
  print "按回车继续...."
  print "输入quit退出"

  command = raw_input()
  if(command == "quit"):
    self.enable = False
    break

以上就是本文的全部内容，希望对大家的学习有所帮助，也希望大家多多支持三水点靠木。

Python 正则表达式爬虫使用案例解析

- Author -

那时的小镇

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Python 相关文章推荐

python3使用tkinter实现ui界面简单实例

Jan 10 Python

python中list循环语句用法实例

Nov 10 Python

python概率计算器实例分析

Mar 25 Python

使用Python实现博客上进行自动翻页

Aug 23 Python

利用python 更新ssh 远程代码操作远程服务器的实现代码

Feb 08 Python

Python iter()函数用法实例分析

Mar 17 Python

基于Pandas读取csv文件Error的总结

Jun 15 Python

在Python中实现替换字符串中的子串的示例

Oct 31 Python

python语言元素知识点详解

May 15 Python

pytorch获取模型某一层参数名及参数值方式

Dec 30 Python

什么是python的列表推导式

May 26 Python

Python 实现二叉查找树的示例代码

Dec 21 Python

python处理document文档保留原样式

Sep 23 #Python

python 进程间数据共享multiProcess.Manger实现解析

Sep 23 #Python

python程序线程队列queue使用方法解析

Sep 23 #Python

python程序创建多线程过程详解

Sep 23 #Python

详解python播放音频的三种方法

Sep 23 #Python

Python进程间通信 multiProcessing Queue队列实现详解

Sep 23 #Python

python程序中的线程操作 concurrent模块使用详解

Sep 23 #Python

You might like

PHP5 操作MySQL数据库基础代码

2009/09/29 PHP

Php中文件下载功能实现超详细流程分析

2012/06/13 PHP

php中使用getimagesize获取图片、flash等文件的尺寸信息实例

2014/04/29 PHP

Laravel 5框架学习之表单验证

2015/04/08 PHP

一个基于jQuery的树型插件(OrangeTree)使用介绍

2012/05/03 Javascript

js截取中英文字符串、标点符号无乱码示例解读

2014/04/17 Javascript

PHPMyAdmin导入时提示文件大小超出PHP限制的解决方法

2015/03/30 Javascript

体验jQuery和AngularJS的不同点及AngularJS的迷人之处

2016/02/02 Javascript

Bootstrap源码解读表单（2）

2016/12/22 Javascript

javascript 中模板方法单例的实现方法

2017/10/17 Javascript

vue input输入框关键字筛选检索列表数据展示

2020/10/26 Javascript

vue导航栏部分的动态渲染实例

2019/11/01 Javascript

Vue Object.defineProperty及ProxyVue实现双向数据绑定

2020/09/02 Javascript

vue开发chrome插件，实现获取界面数据和保存到数据库功能

2020/12/01 Vue.js

Django框架下在URLconf中指定视图缓存的方法

2015/07/23 Python

python opencv实现任意角度的透视变换实例代码

2018/01/12 Python

python 获取键盘输入,同时有超时的功能示例

2018/11/13 Python

python实现指定字符串补全空格、前面填充0的方法

2018/11/16 Python

华为2019校招笔试题之处理字符串(python版)

2019/06/25 Python

简单了解django orm中介模型

2019/07/30 Python

python 提取文件指定列的方法示例

2019/08/07 Python

python openCV获取人脸部分并存储功能

2019/08/28 Python

pytorch常见的Tensor类型详解

2020/01/15 Python

Python爬虫爬取杭州24时温度并展示操作示例

2020/03/27 Python

基于matplotlib中ion()和ioff()的使用详解

2020/06/16 Python

美赞臣新加坡官方旗舰店：Enfagrow新加坡

2019/05/15 全球购物

几个SQL的面试题

2014/03/08 面试题

英语专业学生个人求职信范文

2014/01/06 职场文书

通信研究生自荐信

2014/02/01 职场文书

超市促销活动方案

2014/03/05 职场文书

文明寝室申报材料

2014/05/12 职场文书

管理失职检讨书

2015/05/05 职场文书

银行中层干部培训心得体会

2016/01/11 职场文书

2019年度开业庆典祝福语大全！

2019/07/05 职场文书

python3+PyQt5+Qt Designer实现界面可视化

2021/06/10 Python

Win11怎么修改电源模式？Win11修改电源模式的方法

2022/04/05 数码科技