编程 Python

python爬虫实现教程转换成 PDF 电子书

Posted in Python onFebruary 19, 2017

写爬虫似乎没有比用 Python 更合适了，Python 社区提供的爬虫工具多得让你眼花缭乱，各种拿来就可以直接用的 library 分分钟就可以写出一个爬虫出来，今天就琢磨着写一个爬虫，将廖雪峰的 Python 教程爬下来做成 PDF 电子书方便大家离线阅读。

开始写爬虫前，我们先来分析一下该网站1的页面结构，网页的左侧是教程的目录大纲，每个 URL 对应到右边的一篇文章，右侧上方是文章的标题，中间是文章的正文部分，正文内容是我们关心的重点，我们要爬的数据就是所有网页的正文部分，下方是用户的评论区，评论区对我们没什么用，所以可以忽略它。

工具准备

弄清楚了网站的基本结构后就可以开始准备爬虫所依赖的工具包了。requests、beautifulsoup 是爬虫两大神器，reuqests 用于网络请求，beautifusoup 用于操作 html 数据。有了这两把梭子，干起活来利索，scrapy 这样的爬虫框架我们就不用了，小程序派上它有点杀鸡用牛刀的意思。此外，既然是把 html 文件转为 pdf，那么也要有相应的库支持， wkhtmltopdf 就是一个非常好的工具，它可以用适用于多平台的 html 到 pdf 的转换，pdfkit 是 wkhtmltopdf 的Python封装包。首先安装好下面的依赖包，

接着安装 wkhtmltopdf

pip install requests
pip install beautifulsoup
pip install pdfkit

安装 wkhtmltopdf

Windows平台直接在 wkhtmltopdf 官网2下载稳定版的进行安装，安装完成之后把该程序的执行路径加入到系统环境 $PATH 变量中，否则 pdfkit 找不到 wkhtmltopdf 就出现错误 “No wkhtmltopdf executable found”。Ubuntu 和 CentOS 可以直接用命令行进行安装

$ sudo apt-get install wkhtmltopdf # ubuntu
$ sudo yum intsall wkhtmltopdf   # centos

爬虫实现

一切准备就绪后就可以上代码了，不过写代码之前还是先整理一下思绪。程序的目的是要把所有 URL 对应的 html 正文部分保存到本地，然后利用 pdfkit 把这些文件转换成一个 pdf 文件。我们把任务拆分一下，首先是把某一个 URL 对应的 html 正文保存到本地，然后找到所有的 URL 执行相同的操作。

用 Chrome 浏览器找到页面正文部分的标签，按 F12 找到正文对应的 div 标签： <div >，该 div 是网页的正文内容。用 requests 把整个页面加载到本地后，就可以使用 beautifulsoup 操作 HTML 的 dom 元素来提取正文内容了。

python爬虫实现教程转换成 PDF 电子书
具体的实现代码如下：用 soup.find_all 函数找到正文标签，然后把正文部分的内容保存到 a.html 文件中。

def parse_url_to_html(url):
  response = requests.get(url)
  soup = BeautifulSoup(response.content, "html5lib")
  body = soup.find_all(class_="x-wiki-content")[0]
  html = str(body)
  with open("a.html", 'wb') as f:
    f.write(html)

第二步就是把页面左侧所有 URL 解析出来。采用同样的方式，找到左侧菜单标签 <ul >

python爬虫实现教程转换成 PDF 电子书

具体代码实现逻辑：因为页面上有两个uk-nav uk-nav-side的 class 属性，而真正的目录列表是第二个。所有的 url 获取了，url 转 html 的函数在第一步也写好了。

def get_url_list():
  """
  获取所有URL目录列表
  """
  response = requests.get("http://www.liaoxuefeng.com/wiki/0014316089557264a6b348958f449949df42a6d3a2e542c000")
  soup = BeautifulSoup(response.content, "html5lib")
  menu_tag = soup.find_all(class_="uk-nav uk-nav-side")[1]
  urls = []
  for li in menu_tag.find_all("li"):
    url = "http://www.liaoxuefeng.com" + li.a.get('href')
    urls.append(url)
  return urls

最后一步就是把 html 转换成pdf文件了。转换成 pdf 文件非常简单，因为 pdfkit 把所有的逻辑都封装好了，你只需要调用函数 pdfkit.from_file

def save_pdf(htmls):
  """
  把所有html文件转换成pdf文件
  """
  options = {
    'page-size': 'Letter',
    'encoding': "UTF-8",
    'custom-header': [
      ('Accept-Encoding', 'gzip')
    ]
  }
  pdfkit.from_file(htmls, file_name, options=options)

执行 save_pdf 函数，电子书 pdf 文件就生成了，效果图：

python爬虫实现教程转换成 PDF 电子书

总结

总共代码量加起来不到50行，不过，且慢，其实上面给出的代码省略了一些细节，比如，如何获取文章的标题，正文内容的 img 标签使用的是相对路径，如果要想在 pdf 中正常显示图片就需要将相对路径改为绝对路径，还有保存下来的 html 临时文件都要删除，这些细节末叶都放在github上。

完整代码可以上github下载，代码在 Windows 平台亲测有效，欢迎 fork 下载自己改进。github 地址3，GitHub访问不了的同学可以用码云4，《廖雪峰的 Python 教程》电子书 PDF 文件可以通过关注本公众号『一个程序员的微站』回复 “pdf” 免费下载阅读。

python爬虫实现教程转换成 PDF 电子书

- Author -

hebedich

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Python 相关文章推荐

Python实现端口复用实例代码

Jul 03 Python

Python实现给qq邮箱发送邮件的方法

May 28 Python

详解Python各大聊天系统的屏蔽脏话功能原理

Dec 01 Python

Python实现查看系统启动项功能示例

May 10 Python

python实现石头剪刀布小游戏

Jan 20 Python

Python利用神经网络解决非线性回归问题实例详解

Jul 19 Python

python求前n个阶乘的和实例

Apr 02 Python

Python实现捕获异常发生的文件和具体行数

Apr 25 Python

用python写爬虫简单吗

Jul 28 Python

[原创]赚疯了!转手立赚800+?大佬的python「抢茅台脚本」使用教程

Jan 12 Python

Django程序的优化技巧

Apr 29 Python

windows安装python超详细图文教程

May 21 Python

Python 模块EasyGui详细介绍

Feb 19 #Python

Python中字符串格式化str.format的详细介绍

Feb 17 #Python

Python爬虫：通过关键字爬取百度图片

Feb 17 #Python

Python 遍历列表里面序号和值的方法（三种）

Feb 17 #Python

浅谈python中的实例方法、类方法和静态方法

Feb 17 #Python

Python之日期与时间处理模块（date和datetime）

Feb 16 #Python

python字符串中的单双引

Feb 16 #Python

You might like

模仿OSO的论坛（二）

2006/10/09 PHP

PHP 强制性文件下载功能的函数代码(任意文件格式)

2010/05/26 PHP

php5.3中连接sqlserver2000的两种方法(com与ODBC)

2012/12/29 PHP

PHP两种快速排序算法实例

2015/02/15 PHP

PHP-FPM的配置与优化讲解

2019/03/15 PHP

非常有用的40款jQuery 插件推荐（系列二）

2011/12/25 Javascript

js改变embed标签src值的方法

2015/04/10 Javascript

js生成验证码并直接在前端判断

2015/05/15 Javascript

.NET微信公众号开发之创建自定义菜单

2015/07/16 Javascript

原生JS实现匀速图片轮播动画

2016/10/18 Javascript

fullCalendar中文API官方文档

2017/02/07 Javascript

jQuery移除或禁用html元素点击事件常用方法小结

2017/02/10 Javascript

easyUI下拉列表点击事件使用方法

2017/05/18 Javascript

JS实现的简单折叠展开动画效果示例

2018/04/28 Javascript

Vue cli3 库模式搭建组件库并发布到 npm的流程

2018/10/12 Javascript

vue.js实现的全选与全不选功能示例【基于elementui】

2018/12/03 Javascript

async/await让异步操作同步执行的方法详解

2019/11/01 Javascript

JavaScript实现猜数字游戏

2020/05/20 Javascript

js实现幻灯片轮播图

2020/08/14 Javascript

Python备份Mysql脚本

2008/08/11 Python

Python3中在Anaconda环境下安装basemap包

2018/10/21 Python

Python小游戏之300行代码实现俄罗斯方块

2019/01/04 Python

Python中最好用的命令行参数解析工具(argparse)

2019/08/23 Python

解决Python计算矩阵乘向量,矩阵乘实数的一些小错误

2019/08/26 Python

python使用if语句实现一个猜拳游戏详解

2019/08/27 Python

Stuarts London美国/加拿大：世界领先的独立男装零售商之一

2019/03/18 全球购物

科室工作的个人自我评价

2013/10/30 职场文书

物流专业毕业生推荐信范文

2013/11/18 职场文书

室内设计专业毕业生求职信

2014/05/02 职场文书

2016年寒假社会实践活动总结

2015/03/27 职场文书

导游词之金鞭溪风景区

2019/09/12 职场文书

导游词之江苏溱潼古镇

2019/11/27 职场文书

销区经理年终述职报告模板

2019/11/28 职场文书

Golang流模式之grpc的四种数据流

2022/04/13 Golang

使用python将HTML转换为PDF pdfkit包(wkhtmltopdf) 的使用方法

2022/04/21 Python

浅谈Redis的事件驱动模型

2022/05/30 Redis