编程 Python

python制作小说爬虫实录

Posted in Python onAugust 14, 2017

纪念我的第一个爬虫程序，一共写了三个白天，其中有两个上午没有看，中途遇到了各种奇怪的问题，伴随着他们的解决，对于一些基本的操作也弄清楚了。果然，对于这些东西的最号的学习方式，就是在使用中学习，通过解决问题的方式来搞定这些知识。按需索取，才能更有针对性。

大体记录下整个过程。

--------------------------------------------------------------------------------

准备构思

出于对于python的热爱，想要尝试一些练手的项目，但是不论是看书，还是直接尝试别人的项目，到最后都会沦为不停地复制粘贴...最实际的就是自己来上手亲自写代码。思路都是一样的，但是具体的实现还得靠自己。

以前的复制粘贴给我的帮助也就是告诉了我大致的流程。

确定目标网址

目标网址是关键。我梦想中的爬虫是那种偏向于更智能的，直接给他一个想要获取的关键词，一步步的流程直接自己完成，可以自己给定范围，也可以直接爬取整个互联网或者更实际的就是整个百度上的内容，但是，目前就我而言，见到的爬虫，都是给定目标网址，通过目标页面上的内容进一步执行规定的操作，所以现在来看，我们在写爬虫之前，需要确定一个基准页面，这个是需要我们事先制定的。在考虑我们需要程序完成怎样的功能，获取页面文本还是相关链接内容还是其他的目的。

我这个程序想要获取的是《剑来》小说，把各个章节的内容爬去下载存储到文件里。

编程只是实现目的的工具。

所以重点是分析我们的需求。

获取小说目录页面是基本。这里有各个章节的链接，标题等等内容。这是我们需要的。

有了各个章节的链接，就需要进入其中获得各个章节的内容。

所以，我们需要获得页面内容，需要从中获得目标内容。

所以使用 urllib.request，re 库。

前者用来获得网页内容，后者获得目标信息。

headers

直接使用urllib.request的urlopen()，read()方法是会报以下错误：

raise HTTPError(req.get_full_url(), code, msg, hdrs, fp)
HTTPError: HTTP Error 403: Forbidden

出现urllib2.HTTPError: HTTP Error 403: Forbidden错误是由于网站禁止爬虫，可以在请求加上头信息，伪装成浏览器。

headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 6.3; Win64; x64; rv:55.0) Gecko/20100101 Firefox/55.0'}
request = url_req.Request(url, headers=headers)
response = url_req.urlopen(request, data=None, timeout=3)
html = response.read().decode('GBK')

注意：这里存在两个容易出问题的地方。
•编码：编码问题是使用爬虫中有时候会很头痛的问题，由于网页源代码编码格式不明确，所以这里尝试了许久。

使用chardet库的detect()方法可以检测字节字符串的编码。所以直接检测这里的html(先不要解码)。输出的是GB2312，但是在后面页面的爬取中，会出现提示有的字符的编码异常，所以这里采取了比其范围更广的中文字符集GBK，解决了这个问题。
•设置超时范围：由于频繁的获取网页内容，目标网站有时候会出现没有响应的问题。

（这个问题可以见我在CSDN上的提问：关于python爬虫程序中途停止的问题）

于是我采取了捕获 urlopen()的socket.timeout异常，并在出现异常的时候再循环访问，直到获得目标页面。

获得目标内容

这里使用的是正则表达式。re模块。这里的使用并不复杂。

首先需要一个模式字符串。以re.I指定忽略大小写，编译后的对象拥有本身匹配的方法，这里使用的是findall()，返回一个所有结果组成的列表。可以及时返回输出其内容，进而选择合适的部分进行处理。

python 正则表达式

通过查看相关的符号，这里使用(.+?)来实现匹配非贪婪模式(尽量少的)下任意无限字符，对之使用()，进而匹配括号内的模式。

文件写入

使用with open() as file:，进而可以处理文件。并且可以自动执行打开和关闭文件，更为便捷安全。
with open(findall_title[0] + '.txt', 'w+', encoding='utf-8') as open_file:

•这里也要注意编码的问题，指定utf-8。会避免一些问题。
•这里使用w+模式，追加写文件。

完整代码

# -*- coding: utf-8 -*-
"""
Created on Fri Aug 11 16:31:42 2017
@author: lart
"""

import urllib.request as url_req
import re, socket, time


def r_o_html(url):
  print('r_o_html begin')

  headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 6.3; Win64; x64; rv:55.0) Gecko/20100101 Firefox/55.0'}

  request = url_req.Request(url, headers=headers)

  NET_STATUS = False
  while not NET_STATUS:
    try:
      response = url_req.urlopen(request, data=None, timeout=3)
      html = response.read().decode('GBK')
      print('NET_STATUS is good')
      print('r_o_html end')
      return html
    except socket.timeout:
      print('NET_STATUS is not good')
      NET_STATUS = False

def re_findall(re_string, operation, html):

  print('re_findall begin')
  pattern = re.compile(re_string, re.I)

  if operation == 'findall':
    result = pattern.findall(html)
  else:
    print('this operation is invalid')
    exit(-1)

  print('re_findall end')
  return result


if __name__ == '__main__':
  url_base = 'http://www.7kankan.la/book/1/'

  html = r_o_html(url_base)

  findall_title = re_findall(r'<title>(.+?)</title>', 'findall', html)

  findall_chapter = re_findall(r'<dd class="col-md-3"><a href=[\',"](.+?)[\',"] title=[\',"](.+?)[\',"]>', 'findall', html)

  with open(findall_title[0] + '.txt', 'w+', encoding='utf-8') as open_file:
    print('article文件打开', findall_chapter)
    for i in range(len(findall_chapter)):
      print('第' + str(i) + '章')

      open_file.write('\n\n\t' + findall_chapter[i][1] + '\n --------------------------------------------------------------------- \n')

      url_chapter = url_base + findall_chapter[i][0]

      html_chapter = r_o_html(url_chapter)

      findall_article = re_findall(r'    (.+?)<br />', 'findall', html_chapter)

      findall_article_next = findall_chapter[i][0].replace('.html', '_2.html')

      url_nextchapter = url_base + findall_article_next

      html_nextchapter = r_o_html(url_nextchapter)

      if html_nextchapter:
        findall_article.extend(re_findall(r'    (.+?)<br />', 'findall', html_nextchapter))

        for text in findall_article:
          open_file.write(text + '\n')

      time.sleep(1)

  print('文件写入完毕')

python制作小说爬虫实录

- Author -

果子圆圆

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Python 相关文章推荐

Python Web开发模板引擎优缺点总结

May 06 Python

使用C语言扩展Python程序的简单入门指引

Apr 14 Python

详解Python编程中对Monkey Patch猴子补丁开发方式的运用

May 27 Python

简单了解OpenCV是个什么东西

Nov 10 Python

python 每天如何定时启动爬虫任务(实现方法分享)

May 21 Python

对pandas中to_dict的用法详解

Jun 05 Python

Python实现求两个数组交集的方法示例

Feb 23 Python

Python实现CNN的多通道输入实例

Jan 17 Python

Python列表如何更新值

May 27 Python

解决python cv2.imread 读取中文路径的图片返回为None的问题

Jun 02 Python

Python学习工具jupyter notebook安装及用法解析

Oct 23 Python

Python之字符串的遍历的4种方式

Dec 08 Python

python安装Scrapy图文教程

Aug 14 #Python

基于python时间处理方法(详解)

Aug 14 #Python

关于Django外键赋值问题详解

Aug 13 #Python

python爬虫实战之最简单的网页爬虫教程

Aug 13 #Python

详解python中executemany和序列的使用方法

Aug 12 #Python

mysql 之通过配置文件链接数据库

Aug 12 #Python

python+selenium开发环境搭建图文教程

Aug 11 #Python

You might like

用PHP实现验证码功能

2006/10/09 PHP

php FPDF类库应用实现代码

2009/03/20 PHP

php数组操作之键名比较与差集、交集赋值的方法

2014/11/10 PHP

PHP字符串比较函数strcmp()和strcasecmp()使用总结

2014/11/19 PHP

Windows Server 2008 R2和2012中PHP连接MySQL过慢的解决方法

2016/07/02 PHP

Javascript类库的顶层对象名用户体验分析

2010/10/24 Javascript

Extjs 3.3切换tab隐藏相应工具栏出现空白解决

2013/04/02 Javascript

GRID拖拽行的实例代码

2013/07/18 Javascript

js window.onload 加载多个函数和追加函数详解

2014/01/08 Javascript

点击显示指定元素隐藏其他同辈元素的方法

2014/02/19 Javascript

Angular外部使用js调用Angular控制器中的函数方法或变量用法示例

2016/08/05 Javascript

jQuery实现的自动加载页面功能示例

2016/09/04 Javascript

JS仿QQ好友列表展开、收缩功能(第二篇)

2017/07/07 Javascript

Bootstrap 树控件使用经验分享(图文解说)

2017/11/06 Javascript

微信小程序如何访问公众号文章

2019/07/08 Javascript

小程序的上传文件接口的注意要点解析

2019/09/17 Javascript

微信小程序绑定手机号获取验证码功能

2019/10/22 Javascript

使用JS监听键盘按下事件（keydown event）

2019/11/07 Javascript

jQuery实现颜色打字机的完整代码

2020/03/19 jQuery

使用typescript快速开发一个cli的实现示例

2020/12/09 Javascript

[01:09:40]Newbee vs Pain 2018国际邀请赛小组赛BO2 第一场 8.16

2018/08/17 DOTA

详解Python实现多进程异步事件驱动引擎

2017/08/25 Python

python中requests爬去网页内容出现乱码问题解决方法介绍

2017/10/25 Python

Python中turtle作图示例

2017/11/15 Python

Python推导式简单示例【列表推导式、字典推导式与集合推导式】

2018/12/04 Python

python批量解压zip文件的方法

2019/08/20 Python

python3 使用Opencv打开USB摄像头,配置1080P分辨率的操作

2019/12/11 Python

使用Python下载抖音各大V视频的思路详解

2021/02/06 Python

布里斯班女装时尚品牌：Adrift

2017/12/28 全球购物

世界上最大的乐谱选择：Sheet Music Plus

2020/01/18 全球购物

中专三年学习的个人自我评价

2013/12/12 职场文书

应聘教师自荐信

2015/03/26 职场文书

2015年学校综合治理工作总结

2015/07/20 职场文书

《弟子规》读后感：知廉耻、明是非、懂荣辱、辨善恶

2019/12/03 职场文书

mysql查询结果实现多列拼接查询

2022/04/03 MySQL

Nginx速查手册及常见问题

2022/04/07 Servers