python爬虫爬取笔趣网小说网站过程图解


Posted in Python onNovember 18, 2019

首先:文章用到的解析库介绍

BeautifulSoup:

Beautiful Soup提供一些简单的、python式的函数用来处理导航、搜索、修改分析树等功能。

它是一个工具箱,通过解析文档为用户提供需要抓取的数据,因为简单,所以不需要多少代码就可以写出一个完整的应用程序。

Beautiful Soup自动将输入文档转换为Unicode编码,输出文档转换为utf-8编码。

你不需要考虑编码方式,除非文档没有指定一个编码方式,这时,Beautiful Soup就不能自动识别编码方式了。然后,你仅仅需要说明一下原始编码方式就可以了。

Beautiful Soup已成为和lxml、html6lib一样出色的python解释器,为用户灵活地提供不同的解析策略或强劲的速度。

爬取小说原因背景:

以前很喜欢看起点网上面的小说,但是很多都要钱,穷学生没多少钱,就发现了笔趣网。

笔趣看是一个小说网站,这里有很多起点中文网的免费小说,而且这个网站只能在线浏览,不支持小说打包下载。

所以本次爬取呢,就是从该网站爬取并保存一个名为《一念永恒》的小说。

另外本次爬取只是做例子演示,请支持正版资源!!!!!!!!!!!

那么简单的爬取开始:

①打开url链接,按F12或者右键- 检查 进入开发者工具

python爬虫爬取笔趣网小说网站过程图解

② 在开发者工具中,捕获我们要找到的请求条目信息

选择主文章的一部分内容,选择复制粘贴那一部分,

然后再打开开发者工具栏:

“network—选择放大镜图标sreach—然后再搜索栏粘贴我们要搜索的内容”

python爬虫爬取笔趣网小说网站过程图解

然后会在下方得到条目信息,点击,页面会跳转到加载正文的请求响应条目中。

我们可以看到:

正文部分是处于 id 为 content 和 class 为 showtxt 的 div 中。

③ 构造url请求

上面的信息是不够的,因为现在的网站都有了反爬能力,我们所需要是模拟一条正常从浏览器中发出的url请求链接。

这里我们会用到: User-Agent(浏览器标识)

还是开发者工具,点击Headers,就可以看到Request-Response条目明细。

python爬虫爬取笔趣网小说网站过程图解

④ 发出请求:

有了字段的详细内容,我们就可以编写出请求网页的代码

python爬虫爬取笔趣网小说网站过程图解

⑤ 获得相应内容,然后运行,得到内容如下:

python爬虫爬取笔趣网小说网站过程图解

解析响应数据

下面,我们使用BeautifulSoup进行解析 运行….代码结果如图:

python爬虫爬取笔趣网小说网站过程图解

到这里,小说就爬取完成了。

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持三水点靠木。

Python 相关文章推荐
python网络爬虫采集联想词示例
Feb 11 Python
python实现搜索指定目录下文件及文件内搜索指定关键词的方法
Jun 28 Python
python使用matplotlib绘制折线图教程
Feb 08 Python
python获取外网IP并发邮件的实现方法
Oct 01 Python
利用python解决mysql视图导入导出依赖的问题
Dec 17 Python
python实现扫描日志关键字的示例
Apr 28 Python
Python实现的文本对比报告生成工具示例
May 22 Python
使用pyecharts生成Echarts网页的实例
Aug 12 Python
Python网络编程之使用TCP方式传输文件操作示例
Nov 01 Python
Python 跨.py文件调用自定义函数说明
Jun 01 Python
Flask搭建一个API服务器的步骤
May 28 Python
python实现对doc、txt、xls等文档的读写操作
Apr 02 Python
基于python操作ES实例详解
Nov 16 #Python
Python爬取豆瓣视频信息代码实例
Nov 16 #Python
Pandas数据离散化原理及实例解析
Nov 16 #Python
python实现XML解析的方法解析
Nov 16 #Python
Python实现自定义读写分离代码实例
Nov 16 #Python
Python大数据之网络爬虫的post请求、get请求区别实例分析
Nov 16 #Python
基于python实现雪花算法过程详解
Nov 16 #Python
You might like
php 随机生成10位字符代码
2009/03/26 PHP
PHP array_key_exists检查键名或索引是否存在于数组中的实现方法
2016/06/13 PHP
图像替换新技术 状态域方法
2010/01/28 Javascript
JavaScript Event学习第二章 Event浏览器兼容性
2010/02/07 Javascript
常用Extjs工具:Extjs.util.Format使用方法
2012/03/22 Javascript
二叉树的非递归后序遍历算法实例详解
2014/02/07 Javascript
js操作IE浏览器弹出浏览文件夹可以返回目录路径
2014/07/14 Javascript
很棒的Bootstrap选项卡切换效果
2016/07/01 Javascript
jQuery 的 ready()的纯js替代方法
2016/11/20 Javascript
js+div+css下拉导航菜单完整代码分享
2016/12/28 Javascript
jquery mobile实现可折叠的导航按钮
2017/03/11 Javascript
JavaScript判断日期时间差的实例代码
2018/03/01 Javascript
小程序点赞收藏功能的实现代码示例
2018/09/07 Javascript
js常用正则表达式集锦
2019/05/17 Javascript
vue使用代理解决请求跨域问题详解
2019/07/24 Javascript
Vue实现Layui的集成方法步骤
2020/04/10 Javascript
JS严格模式原理与用法实例分析
2020/04/27 Javascript
原生js实现无缝轮播图效果
2021/01/28 Javascript
在python中利用最小二乘拟合二次抛物线函数的方法
2018/12/29 Python
python mysql 字段与关键字冲突的解决方式
2020/03/02 Python
Django项目uwsgi+Nginx保姆级部署教程实现
2020/04/19 Python
用你熟悉的语言写一个连接ORACLE数据库的程序,能够完成修改和查询工作
2012/06/11 面试题
建筑学推荐信
2013/11/03 职场文书
小学生读书感言
2014/02/12 职场文书
会计电算化应届生自荐信
2014/02/25 职场文书
优秀少先队员主要事迹材料
2014/05/28 职场文书
基层党员对照检查材料
2014/08/25 职场文书
工商局个人工作总结
2015/03/03 职场文书
消防宣传标语大全
2015/08/03 职场文书
2016年公务员六五普法心得体会
2016/01/21 职场文书
学前班教学反思
2016/02/24 职场文书
八年级作文之我的母亲
2019/12/10 职场文书
详解PHP Swoole与TCP三次握手
2021/05/27 PHP
python通过opencv调用摄像头操作实例分析
2021/06/07 Python
Nginx源码编译安装过程记录
2021/11/17 Servers
从结婚开始的恋爱故事。小说《我的美好婚事》TV动画化决定
2022/04/07 日漫