编程 Python

Python爬虫入门教程02之笔趣阁小说爬取

Posted in Python onJanuary 24, 2021

前言

本文的文字及图片来源于网络,仅供学习、交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理。

前文

01、python爬虫入门教程01：豆瓣Top电影爬取

基本开发环境

Python 3.6
Pycharm

一、明确需求

爬取小说内容保存到本地

小说名字
小说章节名字
小说内容

# 第一章小说url地址
url = 'http://www.biquges.com/52_52642/25585323.html'

url = 'http://www.biquges.com/52_52642/25585323.html'
headers = {
 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/81.0.4044.138 Safari/537.36'
}
response = requests.get(url=url, headers=headers)
print(response.text)

Python爬虫入门教程02之笔趣阁小说爬取

请求网页返回的数据中出现了乱码，这就需要我们转码了。

加一行代码自动转码。

response.encoding = response.apparent_encoding

Python爬虫入门教程02之笔趣阁小说爬取

三、解析数据

Python爬虫入门教程02之笔趣阁小说爬取

根据css选择器可以直接提取小说标题以及小说内容。

def get_one_novel(html_url):
 # 调用请求网页数据函数
 response = get_response(html_url)
 # 转行成selector解析对象
 selector = parsel.Selector(response.text)
 # 获取小说标题
 title = selector.css('.bookname h1::text').get()
 # 获取小说内容 返回的是list
 content_list = selector.css('#content::text').getall()
 # ''.join(列表) 把列表转换成字符串
 content_str = ''.join(content_list)
 print(title, content_str)

if __name__ == '__main__':
 url = 'http://www.biquges.com/52_52642/25585323.html'
 get_one_novel(url)

Python爬虫入门教程02之笔趣阁小说爬取

四、保存数据（数据持久化）

使用常用的保存方式： with open

def save(title, content):
 """
 保存小说
 :param title: 小说章节标题
 :param content: 小说内容
 :return: 
 """
 # 路径
 filename = f'{title}\\'
 # os 内置模块，自动创建文件夹
 if os.makedirs(filename):
 os.mkdir()
 # 一定要记得加后缀 .txt mode 保存方式 a 是追加保存 encoding 保存编码
 with open(filename + title + '.txt', mode='a', encoding='utf-8') as f:
 # 写入标题
 f.write(title)
 # 换行
 f.write('\n')
 # 写入小说内容
 f.write(content)

Python爬虫入门教程02之笔趣阁小说爬取

保存一章小说，就这样写完了，如果想要保存整本小说呢？

整本小说爬虫

既然爬取单章小说知道怎么爬取了，那么只需要获取小说所有单章小说的url地址，就可以爬取全部小说内容了。

Python爬虫入门教程02之笔趣阁小说爬取

所有的单章的url地址都在 dd 标签当中，但是这个url地址是不完整的，所以爬取下来的时候，要拼接url地址。

def get_all_url(html_url):
 # 调用请求网页数据函数
 response = get_response(html_url)
 # 转行成selector解析对象
 selector = parsel.Selector(response.text)
 # 所有的url地址都在 a 标签里面的 href 属性中 
 dds = selector.css('#list dd a::attr(href)').getall()
 for dd in dds:
 novel_url = 'http://www.biquges.com' + dd
 print(novel_url)


if __name__ == '__main__':
 url = 'http://www.biquges.com/52_52642/index.html'
 get_all_url(url)

Python爬虫入门教程02之笔趣阁小说爬取

这样就获取了所有的小说章节url地址了。

爬取全本完整代码

import requests
import parsel
from tqdm import tqdm


def get_response(html_url):
 headers = {
 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/81.0.4044.138 Safari/537.36'
 }
 response = requests.get(url=html_url, headers=headers)
 response.encoding = response.apparent_encoding
 return response


def save(novel_name, title, content):
 """
 保存小说
 :param title: 小说章节标题
 :param content: 小说内容
 :return:
 """
 filename = f'{novel_name}' + '.txt'
 # 一定要记得加后缀 .txt mode 保存方式 a 是追加保存 encoding 保存编码
 with open(filename, mode='a', encoding='utf-8') as f:
 # 写入标题
 f.write(title)
 # 换行
 f.write('\n')
 # 写入小说内容
 f.write(content)


def get_one_novel(name, novel_url):
 # 调用请求网页数据函数
 response = get_response(novel_url)
 # 转行成selector解析对象
 selector = parsel.Selector(response.text)
 # 获取小说标题
 title = selector.css('.bookname h1::text').get()
 # 获取小说内容 返回的是list
 content_list = selector.css('#content::text').getall()
 # ''.join(列表) 把列表转换成字符串
 content_str = ''.join(content_list)
 save(name, title, content_str)


def get_all_url(html_url):
 # 调用请求网页数据函数
 response = get_response(html_url)
 # 转行成selector解析对象
 selector = parsel.Selector(response.text)
 # 所有的url地址都在 a 标签里面的 href 属性中
 dds = selector.css('#list dd a::attr(href)').getall()
 # 小说名字
 novel_name = selector.css('#info h1::text').get()
 for dd in tqdm(dds):
 novel_url = 'http://www.biquges.com' + dd
 get_one_novel(novel_name, novel_url)

if __name__ == '__main__':
 novel_id = input('输入书名ID：')
 url = f'http://www.biquges.com/{novel_id}/index.html'
 get_all_url(url)

Python爬虫入门教程02之笔趣阁小说爬取

到此这篇关于Python爬虫入门教程02之笔趣阁小说爬取的文章就介绍到这了,更多相关Python爬虫笔趣阁小说爬取内容请搜索三水点靠木以前的文章或继续浏览下面的相关文章希望大家以后多多支持三水点靠木！

Python爬虫入门教程02之笔趣阁小说爬取

- Author -

有趣的Python

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Python 相关文章推荐

windows下安装python paramiko模块的代码

Feb 10 Python

在Python中使用PIL模块对图片进行高斯模糊处理的教程

May 05 Python

python处理图片之PIL模块简单使用方法

May 11 Python

python中的字典使用分享

Jul 31 Python

Python输入二维数组方法

Apr 13 Python

python画图系列之个性化显示x轴区段文字的实例

Dec 13 Python

Pytorch保存模型用于测试和用于继续训练的区别详解

Jan 10 Python

基于pytorch padding=SAME的解决方式

Feb 18 Python

python字符串判断密码强弱

Mar 18 Python

Python第三方包PrettyTable安装及用法解析

Jul 08 Python

python语言time库和datetime库基本使用详解

Dec 25 Python

Python3+Flask安装使用教程详解

Feb 16 Python

Python爬虫入门教程01之爬取豆瓣Top电影

Jan 24 #Python

详解python的变量缓存机制

Jan 24 #Python

Python字符串对齐、删除字符串不需要的内容以及格式化打印字符

Jan 23 #Python

利用Python函数实现一个万历表完整示例

Jan 23 #Python

python将YUV420P文件转PNG图片格式的两种方法

Jan 22 #Python

如何使用Python进行PDF图片识别OCR

Jan 22 #Python

详解pandas映射与数据转换

Jan 22 #Python

You might like

配置PHP使之能同时支持GIF和JPEG

2006/10/09 PHP

php获取新浪微博数据API实例

2013/11/12 PHP

PHP采集静态页面并把页面css,img,js保存的方法

2014/12/23 PHP

IE6与IE7中，innerHTML获取param的区别

2009/03/15 Javascript

Javascript学习笔记8 用JSON做原型

2010/01/11 Javascript

javascript中的对象创建实例附注释

2011/02/08 Javascript

Jquery使用Firefox FireBug插件调试Ajax步骤讲解

2013/12/02 Javascript

jQuery EasyUI Pagination实现分页的常用方法

2016/05/21 Javascript

全面解析Bootstrap中nav、collapse的使用方法

2016/05/22 Javascript

很酷的星级评分系统原生JS实现

2016/08/25 Javascript

jQuery与JavaScript节点创建方法的对比

2016/11/18 Javascript

JS实现图片垂直居中显示小结

2016/12/13 Javascript

JS实现汉字与Unicode码相互转换的方法详解

2017/04/28 Javascript

微信小程序图片宽100%显示并且不变形

2017/06/21 Javascript

css和js实现弹出登录居中界面完整代码

2017/11/26 Javascript

web3.js增加eth.getRawTransactionByHash(txhash)方法步骤

2018/03/15 Javascript

微信小程序学习笔记之本地数据缓存功能详解

2019/03/29 Javascript

vue+mock.js实现前后端分离

2019/07/24 Javascript

layui按条件隐藏表格列的实例

2019/09/19 Javascript

js 计数排序的实现示例(升级版)

2020/01/12 Javascript

在vue中使用Echarts利用watch做动态数据渲染操作

2020/07/20 Javascript

JavaScript React如何修改默认端口号方法详解

2020/07/28 Javascript

EXTJS7实现点击拖拉选择文本

2020/12/17 Javascript

python逐行读取文件内容的三种方法

2014/01/20 Python

Python实现的石头剪子布代码分享

2014/08/22 Python

Python二维码生成库qrcode安装和使用示例

2014/12/16 Python

Python探索之pLSA实现代码

2017/10/25 Python

基于Pycharm加载多个项目过程图解

2020/01/19 Python

python selenium xpath定位操作

2020/09/01 Python

英国知名化妆品网站：Revolution Beauty（原TAM Beauty）

2018/02/28 全球购物

NOTINO英国：在线购买美容和香水

2020/02/25 全球购物

vue 中 get / delete 传递数组参数方法

2021/03/23 Vue.js

初婚初育证明范本

2014/11/24 职场文书

初中生思想道德自我评价

2015/03/09 职场文书

2015年感恩母亲节活动方案

2015/05/04 职场文书

《传颂之物虚伪的假面》BD发售宣传CM公开

2022/04/04 日漫