Python使用Chrome插件实现爬虫过程图解


Posted in Python onJune 09, 2020

做电商时,消费者对商品的评论是很重要的,但是不会写代码怎么办?这里有个Chrome插件可以做到简单的数据爬取,一句代码都不用写。下面给大家展示部分抓取后的数据:

Python使用Chrome插件实现爬虫过程图解

可以看到,抓取的地址,评论人,评论内容,时间,产品颜色都已经抓取下来了。那么,爬取这些数据需要哪些工具呢?就两个:

1. Chrome浏览器;

2. 插件:Web Scraper

插件下载地址:https://chromecj.com/productivity/2018-05/942.html

最后,如果你想自己动手抓取一下,这里是这次抓取的详细过程:

1. 首先,复制如下的代码,对,你不需要写代码,但是为了便于上手,复制代码还是需要的,后续可以自己定制和选择,不需要写代码。

{
  "_id": "jdreview",
  "startUrl": [
    "https://item.jd.com/100000680365.html#comment"
  ],
  "selectors": [
    {
      "id": "user",
      "type": "SelectorText",
      "selector": "div.user-info",
      "parentSelectors": [
        "main"
      ],
      "multiple": false,
      "regex": "",
      "delay": 0
    },
    {
      "id": "comments",
      "type": "SelectorText",
      "selector": "div.comment-column > p.comment-con",
      "parentSelectors": [
        "main"
      ],
      "multiple": false,
      "regex": "",
      "delay": 0
    },
    {
      "id": "time",
      "type": "SelectorText",
      "selector": "div.comment-message:nth-of-type(5) span:nth-of-type(4), div.order-info span:nth-of-type(4)",
      "parentSelectors": [
        "main"
      ],
      "multiple": false,
      "regex": "",
      "delay": "0"
    },
    {
      "id": "color",
      "type": "SelectorText",
      "selector": "div.order-info span:nth-of-type(1)",
      "parentSelectors": [
        "main"
      ],
      "multiple": false,
      "regex": "",
      "delay": 0
    },
    {
      "id": "main",
      "type": "SelectorElementClick",
      "selector": "div.comment-item",
      "parentSelectors": [
        "_root"
      ],
      "multiple": true,
      "delay": "10000",
      "clickElementSelector": "div.com-table-footer a.ui-pager-next",
      "clickType": "clickMore",
      "discardInitialElements": false,
      "clickElementUniquenessType": "uniqueHTMLText"
    }
  ]
}

2. 然后打开chrome浏览器,在任意页面同时按下Ctrl+Shift+i,在弹出的窗口中找到Web Scraper,如下:

Python使用Chrome插件实现爬虫过程图解

3. 如下

Python使用Chrome插件实现爬虫过程图解

4. 如图,粘贴上述的代码:

Python使用Chrome插件实现爬虫过程图解

5. 如图,如果需要定制网址,注意替代一下,网址后面的#comment是直达评论的链接,不能去掉:

Python使用Chrome插件实现爬虫过程图解

6. 如图:

Python使用Chrome插件实现爬虫过程图解

7. 如图:

Python使用Chrome插件实现爬虫过程图解

8. 如图,点击Scrape后,会自动运行打开需要抓取得页面,不要关闭窗口,静静等待完成,完成后右下方会提示完成,一般1000条以内的评论不会有问题:

Python使用Chrome插件实现爬虫过程图解

9. 最后,点击下载到电脑,数据保存好。

Python使用Chrome插件实现爬虫过程图解

使用这个工具的好处是:

1. 不需要编程;

2. 京东的评论基本可以通用此脚本,修改对应的url即可;

3. 如果需要爬取的评论不到1000条,这个工具会非常称手,所有的数据完全自动下载;

使用的注意点:

1. 抓取过一次的数据会有记录,立刻再次抓取将不会保存,建议关闭浏览器重新打开后再试;

2. 抓取数量:1000条以内没有问题,可能是京东按照IP直接阻止了更多的爬取;

如果你的英语水平不错,可以尝试阅读官方文档,进一步学习和定制自己的爬虫。

官方教程:https://www.webscraper.io/documentation

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持三水点靠木。

Python 相关文章推荐
跟老齐学Python之用Python计算
Sep 12 Python
python抽象基类用法实例分析
Jun 04 Python
详解Python中的正则表达式
Jul 08 Python
Pycharm以root权限运行脚本的方法
Jan 19 Python
Python代码太长换行的实现
Jul 05 Python
python 日期排序的实例代码
Jul 11 Python
Python3中urlencode和urldecode的用法详解
Jul 23 Python
Django 权限认证(根据不同的用户,设置不同的显示和访问权限)
Jul 24 Python
django之静态文件 django 2.0 在网页中显示图片的例子
Jul 28 Python
基于tensorflow for循环 while循环案例
Jun 30 Python
python操作redis数据库的三种方法
Sep 10 Python
python 实现音频叠加的示例
Oct 29 Python
Python导入数值型Excel数据并生成矩阵操作
Jun 09 #Python
Python带参数的装饰器运行原理解析
Jun 09 #Python
Python sorted对list和dict排序
Jun 09 #Python
python初步实现word2vec操作
Jun 09 #Python
Python生成随机验证码代码实例解析
Jun 09 #Python
在python下实现word2vec词向量训练与加载实例
Jun 09 #Python
Python实现寻找回文数字过程解析
Jun 09 #Python
You might like
php过滤html中的其他网站链接的方法(域名白名单功能)
2014/04/24 PHP
php中Redis的应用--消息传递
2017/03/28 PHP
Aliyun Linux 编译安装 php7.3 tengine2.3.2 mysql8.0 redis5的过程详解
2020/10/20 PHP
js url传值中文乱码之解决之道
2009/11/20 Javascript
jQuery下的动画处理总结
2013/10/10 Javascript
动态读取JSON解析键值对的方法
2014/06/03 Javascript
BootStrap的Datepicker控件使用心得分享
2016/05/25 Javascript
基于jQuery的AJAX和JSON实现纯html数据模板
2016/08/09 Javascript
快速移动鼠标触发问题及解决方法(ECharts外部调用保存为图片操作及工作流接线mouseenter和mouseleave)
2016/08/29 Javascript
Angular表单验证实例详解
2016/10/20 Javascript
如何快速上手Vuex
2017/02/14 Javascript
jQuery操作DOM_动力节点Java学院整理
2017/07/04 jQuery
Extjs 中的 Treepanel 实现菜单级联选中效果及实例代码
2017/08/22 Javascript
Nuxt项目支持eslint+pritter+typescript的实现
2019/05/20 Javascript
LayUi数据表格自定义赋值方式
2019/10/26 Javascript
如何利用node转发请求详解
2020/09/17 Javascript
微信小程序抽奖组件的使用步骤
2021/01/11 Javascript
跟老齐学Python之集合的关系
2014/09/24 Python
python逆向入门教程
2018/01/15 Python
详解Python爬取并下载《电影天堂》3千多部电影
2019/04/26 Python
centos7中安装python3.6.4的教程
2019/12/11 Python
Python netmiko模块的使用
2020/02/14 Python
PyTorch中torch.tensor与torch.Tensor的区别详解
2020/05/18 Python
工程师必须了解的LRU缓存淘汰算法以及python实现过程
2020/10/15 Python
Ashford台湾:以折扣价提供奢华的男女用表款
2019/12/04 全球购物
什么是反射
2012/03/17 面试题
自荐信的两点禁忌
2013/10/30 职场文书
机械设计专业大学生职业生涯规划书范文
2014/09/13 职场文书
拆迁委托协议书
2014/09/15 职场文书
2015年度绩效考核工作总结
2015/05/27 职场文书
生死抉择观后感
2015/06/09 职场文书
伊索寓言读书笔记
2015/06/30 职场文书
2019各种保证书范文
2019/06/24 职场文书
Nginx tp3.2.3 404问题解决方案
2021/03/31 Servers
如何在Python中妥善使用进度条详解
2022/04/05 Python
《群青的幻想曲》京力秋树角色PV公开
2022/04/08 日漫