编程 Python

我用Python抓取了7000 多本电子书案例详解

Posted in Python onMarch 25, 2019

安装

安装很简单，只要执行：

pip install requests-html

就可以了。

分析页面结构

通过浏览器审查元素可以发现这个电子书网站是用 WordPress 搭建的，首页列表元素很简单，很规整

我用Python抓取了7000 多本电子书案例详解

所以我们可以查找 .entry-title > a 获取所有图书详情页的链接，接着我们进入详情页，来寻找下载链接，由下图

我用Python抓取了7000 多本电子书案例详解

可以发现 .download-links > a 里的链接就是该书的下载链接，回到列表页可以发现该站一共 700 多页，由此我们便可以循环列表获取所有的下载链接。

Requests-html 快速指南

发送一个 GET 请求：

from requests_html import HTMLSession
session = HTMLSession()
 
r = session.get('https://python.org/')

Requests-html 的方便之处就是它解析 html 方式就像使用 jQuery 一样简单，比如：

# 获取页面的所有链接可以这样写：
r.html.links
# 会返回 {'//docs.python.org/3/tutorial/', '/about/apps/'}
 
# 获取页面的所有的绝对链接：
r.html.absolute_links
# 会返回 {'https://github.com/python/pythondotorg/issues', 'https://docs.python.org/3/tutorial/'}
 
# 通过 CSS 选择器选择元素：
about = r.find('.about', first=True)
# 参数 first 表示只获取找到的第一元素
about.text # 获取 .about 下的所有文本
about.attrs # 获取 .about 下所有属性像 id, src, href 等等
about.html # 获取 .about 的 HTML
about.find('a') # 获取 .about 下的所有 a 标签

构建代码

from requests_html import HTMLSession
import requests
import time
import json
import random
import sys
 
'''
想要学习Python？Python学习交流群：984632579满足你的需求，资料都已经上传群文件，可以自行下载！
'''
 
session = HTMLSession()
list_url = 'http://www.allitebooks.com/page/'
 
USER_AGENTS = [
  "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_7_3) AppleWebKit/535.20 (KHTML, like Gecko) Chrome/19.0.1036.7 Safari/535.20",
  "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.1 (KHTML, like Gecko) Chrome/21.0.1180.71 Safari/537.1 LBBROWSER",
  "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/535.11 (KHTML, like Gecko) Chrome/17.0.963.84 Safari/535.11 LBBROWSER",
  "Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 6.1; WOW64; Trident/5.0; SLCC2; .NET CLR 2.0.50727; .NET CLR 3.5.30729; .NET CLR 3.0.30729; Media Center PC 6.0; .NET4.0C; .NET4.0E)",
  "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; QQDownload 732; .NET4.0C; .NET4.0E)",
  "Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1; Trident/4.0; SV1; QQDownload 732; .NET4.0C; .NET4.0E; 360SE)",
  "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; QQDownload 732; .NET4.0C; .NET4.0E)",
  "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.1 (KHTML, like Gecko) Chrome/21.0.1180.89 Safari/537.1",
  "Mozilla/5.0 (iPad; U; CPU OS 4_2_1 like Mac OS X; zh-cn) AppleWebKit/533.17.9 (KHTML, like Gecko) Version/5.0.2 Mobile/8C148 Safari/6533.18.5",
  "Mozilla/5.0 (Windows NT 6.1; Win64; x64; rv:2.0b13pre) Gecko/20110307 Firefox/4.0b13pre",
  "Mozilla/5.0 (X11; Ubuntu; Linux x86_64; rv:16.0) Gecko/20100101 Firefox/16.0",
  "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.11 (KHTML, like Gecko) Chrome/23.0.1271.64 Safari/537.11",
  "Mozilla/5.0 (X11; U; Linux x86_64; zh-CN; rv:1.9.2.10) Gecko/20100922 Ubuntu/10.10 (maverick) Firefox/3.6.10"
]
 
# 获取当前列表页所有图书链接
def get_list(url):
  response = session.get(url)
  all_link = response.html.find('.entry-title a') # 获取页面所有图书详情链接
  for link in all_link:
    getBookUrl(link.attrs['href'])
 
# 获取图书下载链接
def getBookUrl(url):
  response = session.get(url)
  l = response.html.find('.download-links a', first=True)
  if l is not None: # 运行后发现有的个别页面没有下载链接，这里加个判断
    link = l.attrs['href'];
    download(link)
 
#下载图书
def download(url):
  # 随机浏览器 User-Agent
  headers={ "User-Agent":random.choice(USER_AGENTS) }
  # 获取文件名
  filename = url.split('/')[-1]
  # 如果 url 里包含 .pdf
  if ".pdf" in url:
    file = 'book/'+filename # 文件路径写死了，运行时当前目录必须有名 book 的文件夹
    with open(file, 'wb') as f:
      print("正在下载 %s" % filename)
      response = requests.get(url, stream=True, headers=headers)
      
      # 获取文件大小
      total_length = response.headers.get('content-length')
      # 如果文件大小不存在，则直接写入返回的文本
      if total_length is None: 
        f.write(response.content)
      else:
        # 下载进度条
        dl = 0
        total_length = int(total_length) # 文件大小
        for data in response.iter_content(chunk_size=4096): # 每次响应获取 4096 字节
          dl += len(data)
          f.write(data)
          done = int(50 * dl / total_length)
          sys.stdout.write("\r[%s%s]" % ('=' * done, ' ' * (50-done)) ) # 打印进度条  
          sys.stdout.flush()
 
      print(filename + '下载完成！')
 
if __name__ == '__main__':
  #从这运行，应为知道列表总数，所以偷个懒直接开始循环
  for x in range(1,756):
    print('当前页面: '+ str(x))
    get_list(list_url+str(x))

运行效果：

我用Python抓取了7000 多本电子书案例详解

以上所述是小编给大家介绍的我用Python抓取了7000 多本电子书案例详解整合，希望对大家有所帮助，如果大家有任何疑问请给我留言，小编会及时回复大家的。在此也非常感谢大家对三水点靠木网站的支持！

我用Python抓取了7000 多本电子书案例详解

- Author -

嗨学编程

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Python 相关文章推荐

wxPython事件驱动实例详解

Sep 28 Python

Linux下为不同版本python安装第三方库

Aug 31 Python

python snownlp情感分析简易demo(分享)

Jun 04 Python

Python爬虫通过替换http request header来欺骗浏览器实现登录功能

Jan 07 Python

python2.x实现人民币转大写人民币

Jun 20 Python

python读取txt文件,去掉空格计算每行长度的方法

Dec 20 Python

基于python实现蓝牙通信代码实例

Nov 19 Python

Tensorflow训练模型越来越慢的2种解决方案

Feb 07 Python

Python3使用xlrd、xlwt处理Excel方法数据

Feb 28 Python

tensorflow 2.1.0 安装与实战教程(CASIA FACE v5)

Jun 30 Python

python爬虫请求头设置代码

Jul 28 Python

python如何实现图片压缩

Sep 11 Python

详解python：time模块用法

Mar 25 #Python

Python minidom模块用法示例【DOM写入和解析XML】

Mar 25 #Python

Python实例方法、类方法、静态方法的区别与作用详解

Mar 25 #Python

详解Python装饰器

Mar 25 #Python

详解用python自制微信机器人，定时发送天气预报

Mar 25 #Python

Python3.5实现的三级菜单功能示例

Mar 25 #Python

使用Django简单编写一个XSS平台的方法步骤

Mar 25 #Python

You might like

多文件上载系统完整版

2006/10/09 PHP

一个php作的文本留言本的例子(四)

2006/10/09 PHP

写php分页时出现的Fatal error的解决方法

2011/04/18 PHP

利用PHP生成静态HTML文档的原理

2012/10/29 PHP

PHP读取PDF内容配合Xpdf的使用

2012/11/24 PHP

PHP使用DES进行加密与解密的方法详解

2013/06/06 PHP

php获取mysql字段名称和其它信息的例子

2014/04/14 PHP

CI框架学习笔记（二） -入口文件index.php

2014/10/27 PHP

laravel 修改.htaccess文件重定向public的解决方法

2019/10/12 PHP

JavaScript 应用类库代码

2008/06/02 Javascript

详解JS 比较两个Json对象的值是否相等的实例

2013/11/20 Javascript

JavaScript中对象property的读取和写入方法介绍

2014/12/30 Javascript

JavaScript事件学习小结（三）js事件对象

2016/06/09 Javascript

关于Jquery中的事件绑定总结

2016/10/26 Javascript

node.js文件上传重命名以及移动位置的示例代码

2018/01/19 Javascript

vue的全局提示框组件实例代码

2018/02/26 Javascript

vue中的mvvm模式讲解

2019/01/31 Javascript

js JSON.stringify()基础详解

2019/06/19 Javascript

Python中的自定义函数学习笔记

2014/09/23 Python

利用python爬取斗鱼app中照片方法实例

2017/12/03 Python

下载官网python并安装的步骤详解

2019/10/12 Python

html5+css3之CSS中的布局与Header的实现

2014/11/21 HTML / CSS

移动端Web页面的CSS3 flex布局快速上手指南

2016/05/31 HTML / CSS

HTML5 Canvas阴影使用方法实例演示

2013/08/02 HTML / CSS

html5+svg学习指南之SVG基础知识

2014/12/17 HTML / CSS

美国波西米亚风格服装品牌：Show Me Your Mumu

2018/01/05 全球购物

2014年小学元旦活动方案

2014/02/12 职场文书

股权转让协议书范本

2014/04/12 职场文书

幼儿园中班区域活动总结

2014/07/09 职场文书

人才市场接收函

2015/01/30 职场文书

2016会计专业自荐信范文

2016/01/28 职场文书

Vue全家桶入门基础教程

2021/05/14 Vue.js

详解Golang如何优雅的终止一个服务

2022/03/21 Golang

海弦WR-800F

2022/04/05 无线电

springboot为异步任务规划自定义线程池的实现

2022/06/14 Java/Android

table设置超出部分隐藏，鼠标移上去显示全部内容的方法

2022/12/24 HTML / CSS