python爬虫爬取笔趣网小说网站过程图解


Posted in Python onNovember 18, 2019

首先:文章用到的解析库介绍

BeautifulSoup:

Beautiful Soup提供一些简单的、python式的函数用来处理导航、搜索、修改分析树等功能。

它是一个工具箱,通过解析文档为用户提供需要抓取的数据,因为简单,所以不需要多少代码就可以写出一个完整的应用程序。

Beautiful Soup自动将输入文档转换为Unicode编码,输出文档转换为utf-8编码。

你不需要考虑编码方式,除非文档没有指定一个编码方式,这时,Beautiful Soup就不能自动识别编码方式了。然后,你仅仅需要说明一下原始编码方式就可以了。

Beautiful Soup已成为和lxml、html6lib一样出色的python解释器,为用户灵活地提供不同的解析策略或强劲的速度。

爬取小说原因背景:

以前很喜欢看起点网上面的小说,但是很多都要钱,穷学生没多少钱,就发现了笔趣网。

笔趣看是一个小说网站,这里有很多起点中文网的免费小说,而且这个网站只能在线浏览,不支持小说打包下载。

所以本次爬取呢,就是从该网站爬取并保存一个名为《一念永恒》的小说。

另外本次爬取只是做例子演示,请支持正版资源!!!!!!!!!!!

那么简单的爬取开始:

①打开url链接,按F12或者右键- 检查 进入开发者工具

python爬虫爬取笔趣网小说网站过程图解

② 在开发者工具中,捕获我们要找到的请求条目信息

选择主文章的一部分内容,选择复制粘贴那一部分,

然后再打开开发者工具栏:

“network—选择放大镜图标sreach—然后再搜索栏粘贴我们要搜索的内容”

python爬虫爬取笔趣网小说网站过程图解

然后会在下方得到条目信息,点击,页面会跳转到加载正文的请求响应条目中。

我们可以看到:

正文部分是处于 id 为 content 和 class 为 showtxt 的 div 中。

③ 构造url请求

上面的信息是不够的,因为现在的网站都有了反爬能力,我们所需要是模拟一条正常从浏览器中发出的url请求链接。

这里我们会用到: User-Agent(浏览器标识)

还是开发者工具,点击Headers,就可以看到Request-Response条目明细。

python爬虫爬取笔趣网小说网站过程图解

④ 发出请求:

有了字段的详细内容,我们就可以编写出请求网页的代码

python爬虫爬取笔趣网小说网站过程图解

⑤ 获得相应内容,然后运行,得到内容如下:

python爬虫爬取笔趣网小说网站过程图解

解析响应数据

下面,我们使用BeautifulSoup进行解析 运行….代码结果如图:

python爬虫爬取笔趣网小说网站过程图解

到这里,小说就爬取完成了。

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持三水点靠木。

Python 相关文章推荐
Python获取Windows或Linux主机名称通用函数分享
Nov 22 Python
Python中exit、return、sys.exit()等使用实例和区别
May 28 Python
使用Python对Csv文件操作实例代码
May 12 Python
Python测试人员需要掌握的知识
Feb 08 Python
Python使用grequests(gevent+requests)并发发送请求过程解析
Sep 25 Python
pandas实现将日期转换成timestamp
Dec 07 Python
在django中使用post方法时,需要增加csrftoken的例子
Mar 13 Python
Python通过文本和图片生成词云图
May 21 Python
python 实现"神经衰弱"翻牌游戏
Nov 09 Python
Python并发爬虫常用实现方法解析
Nov 19 Python
Python爬取科目四考试题库的方法实现
Mar 30 Python
Python开发五子棋小游戏
Apr 28 Python
基于python操作ES实例详解
Nov 16 #Python
Python爬取豆瓣视频信息代码实例
Nov 16 #Python
Pandas数据离散化原理及实例解析
Nov 16 #Python
python实现XML解析的方法解析
Nov 16 #Python
Python实现自定义读写分离代码实例
Nov 16 #Python
Python大数据之网络爬虫的post请求、get请求区别实例分析
Nov 16 #Python
基于python实现雪花算法过程详解
Nov 16 #Python
You might like
ThinkPHP模板引擎之导入资源文件方法详解
2014/06/18 PHP
php获取客户端IP及URL的方法示例
2017/02/03 PHP
JQuery 学习笔记 选择器之一
2009/07/23 Javascript
jQuery实现监控页面所有ajax请求的方法
2015/12/10 Javascript
JS组件系列之Bootstrap table表格组件神器【二、父子表和行列调序】
2016/05/10 Javascript
JQuery对ASP.NET MVC数据进行更新删除
2016/07/13 Javascript
Angularjs实现带查找筛选功能的select下拉框示例代码
2016/10/04 Javascript
基于jQuery实现表格的排序
2016/12/02 Javascript
vue.js全局API之nextTick全面解析
2017/07/07 Javascript
node中间层实现文件上传功能
2018/06/11 Javascript
LayUI表格批量删除方法
2018/08/15 Javascript
Vue中 v-if/v-show/插值表达式导致闪现的原因及解决办法
2018/10/12 Javascript
优化Vue项目编译文件大小的方法步骤
2019/05/27 Javascript
Echarts实现单条折线可拖拽效果
2019/12/19 Javascript
Javascript confirm多种使用方法解析
2020/09/25 Javascript
[40:03]DOTA2上海特级锦标赛主赛事日 - 1 败者组第一轮#1EHOME VS Archon
2016/03/02 DOTA
SublimeText 2编译python出错的解决方法(The system cannot find the file specified)
2013/11/27 Python
Python自定义函数的创建、调用和函数的参数详解
2014/03/11 Python
Python遍历目录中的所有文件的方法
2016/07/08 Python
Django网络框架之创建虚拟开发环境操作示例
2019/06/06 Python
Python 给定的经纬度标注在地图上的实现方法
2019/07/05 Python
Python实现图像的垂直投影示例
2020/01/17 Python
python中wx模块的具体使用方法
2020/05/15 Python
python raise的基本使用
2020/09/10 Python
Python内置函数及功能简介汇总
2020/10/13 Python
浏览器实现移动端高性能css3动画(开启gpu加速)
2013/12/23 HTML / CSS
HTML5 Canvas基本线条绘制的实例教程
2016/03/17 HTML / CSS
馥蕾诗美国官网:Fresh美国
2019/10/09 全球购物
揭牌仪式主持词
2014/03/19 职场文书
公共艺术专业自荐信
2014/09/01 职场文书
学生穿着不得体检讨书
2014/10/12 职场文书
2014年共青团工作总结
2014/12/10 职场文书
3.15消费者权益日活动总结
2015/02/09 职场文书
2015年秋季新学期寄语
2015/03/25 职场文书
python flappy bird小游戏分步实现流程
2022/02/15 Python