浅谈Python爬虫基本套路


Posted in Python onMarch 25, 2019

什么是爬虫?

网络爬虫也叫网络蜘蛛,如果把互联网比喻成一个蜘蛛网,那么蜘蛛就是在网上爬来爬去的蜘蛛,爬虫程序通过请求url地址,根据响应的内容进行解析采集数据,
比如:如果响应内容是html,分析dom结构,进行dom解析、或者正则匹配,如果响应内容是xml/json数据,就可以转数据对象,然后对数据进行解析。

有什么作用?

通过有效的爬虫手段批量采集数据,可以降低人工成本,提高有效数据量,给予运营/销售的数据支撑,加快产品发展。

业界的情况

目前互联网产品竞争激烈,业界大部分都会使用爬虫技术对竞品产品的数据进行挖掘、采集、大数据分析,这是必备手段,并且很多公司都设立了爬虫工程师的岗位

合法性

爬虫是利用程序进行批量爬取网页上的公开信息,也就是前端显示的数据信息。因为信息是完全公开的,所以是合法的。其实就像浏览器一样,浏览器解析响应内容并渲染为页面,而爬虫解析响应内容采集想要的数据进行存储。

反爬虫

爬虫很难完全的制止,道高一尺魔高一丈,这是一场没有硝烟的战争,码农VS码农 
反爬虫一些手段:

  1. 合法检测:请求校验(useragent,referer,接口加签名,等)
  2. 小黑屋:IP/用户限制请求频率,或者直接拦截
  3. 投毒:反爬虫高境界可以不用拦截,拦截是一时的,投毒返回虚假数据,可以误导竞品决策
  4. ... ...

 爬虫的基本套路

浅谈Python爬虫基本套路

python爬虫

python写爬虫的优势

  1. python语法易学,容易上手
  2. 社区活跃,实现方案多可参考
  3. 各种功能包丰富
  4. 少量代码即可完成强大功能

涉及模块包

请求

  1. urllib
  2. urllib2
  3. cookielib

多线程

  1. threading

正则

  1. re

json解析

  1. json

html dom解析

  1. pyquery
  2. beautiful soup

操作浏览器

  1. selenium

以上所述是小编给大家介绍的Python爬虫基本套路详解整合,希望对大家有所帮助,如果大家有任何疑问请给我留言,小编会及时回复大家的。在此也非常感谢大家对三水点靠木网站的支持!

Python 相关文章推荐
Python中的两个内置模块介绍
Apr 05 Python
python实现马耳可夫链算法实例分析
May 20 Python
Python的Django REST框架中的序列化及请求和返回
Apr 11 Python
Python正则表达式实现截取成对括号的方法
Jan 06 Python
python常用知识梳理(必看篇)
Mar 23 Python
浅谈Python2.6和Python3.0中八进制数字表示的区别
Apr 28 Python
Python 实现数据库更新脚本的生成方法
Jul 09 Python
Tensorflow 合并通道及加载子模型的方法
Jul 26 Python
windows下Pycharm安装opencv的多种方法
Mar 05 Python
Python实现AES加密,解密的两种方法
Oct 03 Python
详解Python中下划线的5种含义
Jul 15 Python
python APScheduler执行定时任务介绍
Apr 19 Python
我用Python抓取了7000 多本电子书案例详解
Mar 25 #Python
详解python:time模块用法
Mar 25 #Python
Python minidom模块用法示例【DOM写入和解析XML】
Mar 25 #Python
Python实例方法、类方法、静态方法的区别与作用详解
Mar 25 #Python
详解Python装饰器
Mar 25 #Python
详解用python自制微信机器人,定时发送天气预报
Mar 25 #Python
Python3.5实现的三级菜单功能示例
Mar 25 #Python
You might like
ecshop 批量上传(加入自定义属性)
2012/03/20 PHP
php计算当前程序执行时间示例
2014/04/24 PHP
改写ThinkPHP的U方法使其路由下分页正常
2014/07/02 PHP
初识PHP
2014/09/28 PHP
使用PHPMailer实现邮件发送代码分享
2014/10/23 PHP
PHP获取访问页面HTTP状态码的实现代码
2016/11/03 PHP
ZendFramework框架实现连接两个或多个数据库的方法
2016/12/08 PHP
Yii2框架操作数据库的方法分析【以mysql为例】
2019/05/27 PHP
基于jquery的图片懒加载js
2010/06/30 Javascript
JS Pro-深入面向对象的程序设计之继承的详解
2013/05/07 Javascript
jQuery中checkbox反复调用attr('checked', true/false)只有第一次生效的解决方法
2016/11/16 Javascript
vue2.0中click点击当前li实现动态切换class
2017/06/21 Javascript
JS面试题大坑之隐式类型转换实例代码
2018/10/14 Javascript
10行代码实现微信小程序滑动tab切换
2018/12/28 Javascript
简述vue-cli中chainWebpack的使用方法
2019/07/30 Javascript
React中获取数据的3种方法及优缺点
2020/02/18 Javascript
vue添加锚点,实现滚动页面时锚点添加相应的class操作
2020/08/10 Javascript
vue实现放大镜效果
2020/09/17 Javascript
vue 动态创建组件的两种方法
2020/12/31 Vue.js
[02:43]中国五虎出征TI3视频
2013/08/02 DOTA
使用Python操作MySQL的一些基本方法
2015/08/16 Python
Python实现一个转存纯真IP数据库的脚本分享
2017/05/21 Python
使用Django和Python创建Json response的方法
2018/03/26 Python
Python初学者需要注意的事项小结(python2与python3)
2018/09/26 Python
python交互模式下输入换行/输入多行命令的方法
2019/07/02 Python
在python中求分布函数相关的包实例
2020/04/15 Python
Python自动创建Excel并获取内容
2020/09/16 Python
英国儿童家具专卖店:GLTC
2016/09/24 全球购物
美国照明、家居装饰和家具购物网站:Bellacor
2017/09/20 全球购物
Kathmandu新西兰官网:新西兰户外运动品牌
2019/07/27 全球购物
给女儿的表扬信
2014/01/18 职场文书
关于爱国的演讲稿
2014/05/07 职场文书
大学新闻系应届生求职信
2014/06/02 职场文书
施工安全汇报材料
2014/08/17 职场文书
现实表现证明材料
2015/06/19 职场文书
SQL Server删除表中的重复数据
2022/05/25 SQL Server