python 爬取马蜂窝景点翻页文字评论的实现


Posted in Python onJanuary 20, 2020

使用Chrome、python3.7、requests库和VSCode进行爬取马蜂窝黄鹤楼的文字评论(http://www.mafengwo.cn/poi/5426285.html)。

首先,我们复制一段评论,查看网页源代码,按Ctrl+F查找,发现没有找到评论,说明评论内容不在http://www.mafengwo.cn/poi/5426285.html页面。

python 爬取马蜂窝景点翻页文字评论的实现

回到页面,划到评论列表,右键检查,选择Network,然后点击后一页翻页,观察Network里的变化,我们要爬的文件就在下面的某个文件里(主要找XHR和JS两个模块)。选择Preview可以更好的让我们寻找我们想要的文件,然后选择Headers找到我们要爬的url。

python 爬取马蜂窝景点翻页文字评论的实现

python 爬取马蜂窝景点翻页文字评论的实现

经过分析我们找到要爬取的url是http://pagelet.mafengwo.cn/poi/pagelet/poiCommentListApi?callback=jQuery18102698237405245767_1579401525334¶ms=%7B%22poi_id%22%3A%225426285%22%2C%22page%22%3A2%2C%22just_comment%22%3A1%7D&_ts=1579402072160&sn=20e98d65a0&=1579402072161
然而点进去是这样的

python 爬取马蜂窝景点翻页文字评论的实现

这个时候对比一下这两个页面的Request Headers,发现原页面多了个Refer参数

原页面

python 爬取马蜂窝景点翻页文字评论的实现

python 爬取马蜂窝景点翻页文字评论的实现

然后看一下请求get请求需要的参数Query String Parameters,其中poi_id是景点id,page是评论页面(翻页只用改变page的值就行)。

python 爬取马蜂窝景点翻页文字评论的实现

import re
import time
import requests
#评论内容所在的url,?后面是get请求需要的参数内容
comment_url='http://pagelet.mafengwo.cn/poi/pagelet/poiCommentListApi?'

requests_headers={
  'Referer': 'http://www.mafengwo.cn/poi/5426285.html',
  'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/79.0.3945.88 Safari/537.36'
}#请求头

for num in range(1,6):
  requests_data={
    'params': '{"poi_id":"5426285","page":"%d","just_comment":1}' % (num)  #经过测试只需要用params参数就能爬取内容
    }
  response =requests.get(url=comment_url,headers=requests_headers,params=requests_data)
  if 200==response.status_code:
    page = response.content.decode('unicode-escape', 'ignore').encode('utf-8', 'ignore').decode('utf-8')#爬取页面并且解码
    page = page.replace('\\/', '/')#将\/转换成/
    #日期列表
    date_pattern = r'<a class="btn-comment _j_comment" title="添加评论">评论</a>.*?\n.*?<span class="time">(.*?)</span>'
    date_list = re.compile(date_pattern).findall(page)
    #星级列表
    star_pattern = r'<span class="s-star s-star(\d)"></span>'
    star_list = re.compile(star_pattern).findall(page)
    #评论列表
    comment_pattern = r'<p class="rev-txt">([\s\S]*?)</p>'
    comment_list = re.compile(comment_pattern).findall(page)
    for num in range(0, len(date_list)):
      #日期
      date = date_list[num]
      #星级评分
      star = star_list[num]
      #评论内容,处理一些标签和符号
      comment = comment_list[num]
      comment = str(comment).replace(' ', '')
      comment = comment.replace('<br>', '')
      comment = comment.replace('<br />', '')
      print(date+"\t"+star+"\t"+comment)
  else:
    print("爬取失败")

结果

python 爬取马蜂窝景点翻页文字评论的实现

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持三水点靠木。

Python 相关文章推荐
python中__slots__用法实例
Jun 04 Python
Python语法快速入门指南
Oct 12 Python
详解Python中最难理解的点-装饰器
Apr 03 Python
关于反爬虫的一些简单总结
Dec 13 Python
Python异常对代码运行性能的影响实例解析
Feb 08 Python
python实现俄罗斯方块游戏
Mar 25 Python
Python OpenCV处理图像之图像直方图和反向投影
Jul 10 Python
selenium+python自动化测试之鼠标和键盘事件
Jan 23 Python
python调用支付宝支付接口流程
Aug 15 Python
python+rsync精确同步指定格式文件
Aug 29 Python
python GUI库图形界面开发之PyQt5开发环境配置与基础使用
Feb 25 Python
Python安装使用Scrapy框架
Apr 12 Python
tensorflow-gpu安装的常见问题及解决方案
Jan 20 #Python
win10安装tensorflow-gpu1.8.0详细完整步骤
Jan 20 #Python
tensorflow -gpu安装方法(不用自己装cuda,cdnn)
Jan 20 #Python
基于Python获取照片的GPS位置信息
Jan 20 #Python
如何基于pythonnet调用halcon脚本
Jan 20 #Python
使用TensorFlow对图像进行随机旋转的实现示例
Jan 20 #Python
TensorFLow 不同大小图片的TFrecords存取实例
Jan 20 #Python
You might like
PHP 字符串分割和比较
2009/10/06 PHP
ezSQL PHP数据库操作类库
2010/05/16 PHP
php中引用符号(&amp;)的使用详解
2013/11/13 PHP
PHP连接数据库实现注册页面的增删改查操作
2016/03/27 PHP
PHP实现的网站目录扫描索引工具
2016/09/08 PHP
nodejs文件操作模块FS(File System)常用函数简明总结
2014/06/05 NodeJs
jQuery使用CSS()方法给指定元素同时设置多个样式
2015/03/26 Javascript
javascript实现平滑无缝滚动
2020/08/09 Javascript
浅析BootStrap Treeview的简单使用
2016/10/12 Javascript
Vue.js实现文章评论和回复评论功能
2020/05/30 Javascript
Node.js笔记之process模块解读
2018/05/31 Javascript
使用JavaScript实现node.js中的path.join方法
2018/08/12 Javascript
Vue.js 中的 v-model 指令及绑定表单元素的方法
2018/12/03 Javascript
vue 接口请求地址前缀本地开发和线上开发设置方式
2020/08/13 Javascript
用Python制作在地图上模拟瘟疫扩散的Gif图
2015/03/31 Python
Python后台开发Django的教程详解(启动)
2019/04/08 Python
基于腾讯云服务器部署微信小程序后台服务(Python+Django)
2019/05/08 Python
python文件选择对话框的操作方法
2019/06/27 Python
python实现XML解析的方法解析
2019/11/16 Python
Idea安装python显示无SDK问题解决方案
2020/08/12 Python
利用Pycharm + Django搭建一个简单Python Web项目的步骤
2020/10/22 Python
python将YUV420P文件转PNG图片格式的两种方法
2021/01/22 Python
J2EE包括哪些技术
2016/11/25 面试题
建筑实习自我鉴定
2013/10/18 职场文书
艺术设计专业个人求职信范文
2013/12/11 职场文书
《曹刿论战》教学反思
2014/03/02 职场文书
房屋租赁协议书
2014/04/10 职场文书
家长通知书教师评语
2014/04/17 职场文书
社区服务标语
2014/07/01 职场文书
2014年妇女工作总结
2014/12/06 职场文书
少先大队干部竞选稿
2015/11/20 职场文书
创业开店,这样方式更合理
2019/08/26 职场文书
Nginx反爬虫策略,防止UA抓取网站
2021/03/31 Servers
MySQL修改默认引擎和字符集详情
2021/09/25 MySQL
win10搭建配置ftp服务器的方法
2022/08/05 Servers
Python编写车票订购系统 Python实现快递收费系统
2022/08/14 Python