Python爬虫实战之爬取携程评论


Posted in Python onJune 02, 2021

一、分析数据源

这里的数据源是指html网页?还是Aajx异步。对于爬虫初学者来说,可能不知道怎么判断,这里辰哥也手把手过一遍。

提示:以下操作均不需要登录(当然登录也可以)

咱们先在浏览器里面搜索携程,然后在携程里面任意搜索一个景点:长隆野生动物世界,这里就以长隆野生动物世界为例,讲解如何去爬取携程评论数据。

 Python爬虫实战之爬取携程评论

页面下方则是评论数据

 Python爬虫实战之爬取携程评论

Python爬虫实战之爬取携程评论 Python爬虫实战之爬取携程评论

从上面两张图可以看出,点击评论下一页,浏览器的链接没有变化,说明数据是Ajax异步请求。因此我们就找到了数据是异步加载过来的,这时候需要去network里面是查看数据包

二、分析数据包

在network中找到下面这个数据包

 Python爬虫实战之爬取携程评论

查看Preview里面的内容(请求返回内容)

Python爬虫实战之爬取携程评论

可以看到数据已经请求到了,下面看一下数据是否是正确的(和网页内容一致)。

 Python爬虫实战之爬取携程评论

ok,没问题之后,下面开始编写Python程序去请求数据。

1.请求地址

Python爬虫实战之爬取携程评论

可以获取到请求链接和请求方式。

Python爬虫实战之爬取携程评论

这里请求不用添加请求头header也是可以的。其中postUrl是请求链接,data_1是请求参数。

2.请求参数

在network里可以看到请求参数

Python爬虫实战之爬取携程评论

在程序中的构建如下:

Python爬虫实战之爬取携程评论

其中需要关注的是arg中的pageIndex(页数),pageSize(每页条数)。

Python爬虫实战之爬取携程评论

最终结果如下:

Python爬虫实战之爬取携程评论

该景点的评论就可以成功爬取下来了。

三、采集全部评论

上面只是采集了第一页的评论数据,通过改变arg中的pageIndex(页数),就可以遍历爬取全部的评论。

Python爬虫实战之爬取携程评论

比如这个景点一共是300页。现在把循环给加上

最终的完整代码如下:

Python爬虫实战之爬取携程评论

到此这篇关于Python爬虫实战之爬取携程评论的文章就介绍到这了,更多相关Python爬取携程评论内容请搜索三水点靠木以前的文章或继续浏览下面的相关文章希望大家以后多多支持三水点靠木!

Python 相关文章推荐
python求pi的方法
Oct 08 Python
Python文件操作,open读写文件,追加文本内容实例
Dec 14 Python
Python使用sorted排序的方法小结
Jul 28 Python
python itchat实现微信好友头像拼接图的示例代码
Aug 14 Python
Python 解决中文写入Excel时抛异常的问题
May 03 Python
python3模块smtplib实现发送邮件功能
May 22 Python
浅析python的Lambda表达式
Feb 27 Python
python反编译学习之字节码详解
May 19 Python
Python进程间通信Queue消息队列用法分析
May 22 Python
python pandas获取csv指定行 列的操作方法
Jul 12 Python
Python3爬虫中Ajax的用法
Jul 10 Python
python绘图subplots函数使用模板的示例代码
Apr 30 Python
Pytorch DataLoader shuffle验证方式
python 爬取吉首大学网站成绩单
python 批量压缩图片的脚本
Jun 02 #Python
python操作xlsx格式文件并读取
关于Numpy之repeat、tile的用法总结
Jun 02 #Python
Matlab如何实现矩阵复制扩充
Jun 02 #Python
给numpy.array增加维度的超简单方法
Jun 02 #Python
You might like
php中使用session_set_save_handler()函数把session保存到MySQL数据库实例
2014/11/06 PHP
apache php mysql开发环境安装教程
2016/07/28 PHP
PHP设计模式之模板方法模式定义与用法详解
2018/04/02 PHP
jquery上传插件fineuploader上传文件使用方法(jquery图片上传插件)
2013/12/05 Javascript
jquery做的一个简单的屏幕锁定提示框
2014/03/26 Javascript
js 创建对象 经典模式全面了解
2016/08/16 Javascript
JS简单实现禁止访问某个页面的方法
2016/09/13 Javascript
JS实现动画兼容性的transition和transform实例分析
2016/12/13 Javascript
JavaScript实现无刷新上传预览图片功能
2017/08/02 Javascript
Vue指令v-for遍历输出JavaScript数组及json对象的常见方式小结
2019/02/11 Javascript
Vue安装浏览器开发工具的步骤详解
2019/05/12 Javascript
webpack项目使用eslint建立代码规范实现
2019/05/16 Javascript
JavaScript 如何计算文本的行数的实现
2020/09/14 Javascript
python字符串编码识别模块chardet简单应用
2015/06/15 Python
Python二分查找详解
2015/09/13 Python
Python更新数据库脚本两种方法及对比介绍
2017/07/27 Python
pandas将DataFrame的列变成行索引的方法
2018/04/10 Python
TensorFlow实现卷积神经网络
2018/05/24 Python
python使用turtle库与random库绘制雪花
2018/06/22 Python
学习python可以干什么
2019/02/26 Python
PyQt5固定窗口大小的方法
2019/06/18 Python
Python实现制度转换(货币,温度,长度)
2019/07/14 Python
基于Django的乐观锁与悲观锁解决订单并发问题详解
2019/07/31 Python
pytorch 模型可视化的例子
2019/08/17 Python
Python Http请求json解析库用法解析
2020/11/28 Python
html5定位获取当前位置并在百度地图上显示
2014/08/22 HTML / CSS
英国最大的手表网站:The Watch Hut
2017/03/31 全球购物
idealfit英国:世界领先的女性健身用品和运动衣物品牌
2017/11/25 全球购物
ECCO爱步官方旗舰店:丹麦鞋履品牌
2018/01/02 全球购物
客户代表自我评价范例
2013/09/24 职场文书
应聘护理专业毕业自荐书范文
2014/02/12 职场文书
创意广告词
2014/03/17 职场文书
电大毕业生自我鉴定
2014/04/10 职场文书
建筑工程质量通病防治方案
2014/06/08 职场文书
争先创优活动总结
2014/08/27 职场文书
自我查摆剖析材料
2014/10/11 职场文书