浅谈Python爬虫基本套路


Posted in Python onMarch 25, 2019

什么是爬虫?

网络爬虫也叫网络蜘蛛,如果把互联网比喻成一个蜘蛛网,那么蜘蛛就是在网上爬来爬去的蜘蛛,爬虫程序通过请求url地址,根据响应的内容进行解析采集数据,
比如:如果响应内容是html,分析dom结构,进行dom解析、或者正则匹配,如果响应内容是xml/json数据,就可以转数据对象,然后对数据进行解析。

有什么作用?

通过有效的爬虫手段批量采集数据,可以降低人工成本,提高有效数据量,给予运营/销售的数据支撑,加快产品发展。

业界的情况

目前互联网产品竞争激烈,业界大部分都会使用爬虫技术对竞品产品的数据进行挖掘、采集、大数据分析,这是必备手段,并且很多公司都设立了爬虫工程师的岗位

合法性

爬虫是利用程序进行批量爬取网页上的公开信息,也就是前端显示的数据信息。因为信息是完全公开的,所以是合法的。其实就像浏览器一样,浏览器解析响应内容并渲染为页面,而爬虫解析响应内容采集想要的数据进行存储。

反爬虫

爬虫很难完全的制止,道高一尺魔高一丈,这是一场没有硝烟的战争,码农VS码农 
反爬虫一些手段:

  1. 合法检测:请求校验(useragent,referer,接口加签名,等)
  2. 小黑屋:IP/用户限制请求频率,或者直接拦截
  3. 投毒:反爬虫高境界可以不用拦截,拦截是一时的,投毒返回虚假数据,可以误导竞品决策
  4. ... ...

 爬虫的基本套路

浅谈Python爬虫基本套路

python爬虫

python写爬虫的优势

  1. python语法易学,容易上手
  2. 社区活跃,实现方案多可参考
  3. 各种功能包丰富
  4. 少量代码即可完成强大功能

涉及模块包

请求

  1. urllib
  2. urllib2
  3. cookielib

多线程

  1. threading

正则

  1. re

json解析

  1. json

html dom解析

  1. pyquery
  2. beautiful soup

操作浏览器

  1. selenium

以上所述是小编给大家介绍的Python爬虫基本套路详解整合,希望对大家有所帮助,如果大家有任何疑问请给我留言,小编会及时回复大家的。在此也非常感谢大家对三水点靠木网站的支持!

Python 相关文章推荐
python中遍历文件的3个方法
Sep 02 Python
python判断windows系统是32位还是64位的方法
May 11 Python
Python基础教程之正则表达式基本语法以及re模块
Mar 25 Python
Python AES加密模块用法分析
May 22 Python
tensorflow实现逻辑回归模型
Sep 08 Python
Python实现的逻辑回归算法示例【附测试csv文件下载】
Dec 28 Python
python 使用pandas计算累积求和的方法
Feb 08 Python
PyQt5图形界面播放音乐的实例
Jun 17 Python
pandas.read_csv参数详解(小结)
Jun 21 Python
python文件路径操作方法总结
Dec 21 Python
python 如何上传包到pypi
Dec 24 Python
python绘制雷达图实例讲解
Jan 03 Python
我用Python抓取了7000 多本电子书案例详解
Mar 25 #Python
详解python:time模块用法
Mar 25 #Python
Python minidom模块用法示例【DOM写入和解析XML】
Mar 25 #Python
Python实例方法、类方法、静态方法的区别与作用详解
Mar 25 #Python
详解Python装饰器
Mar 25 #Python
详解用python自制微信机器人,定时发送天气预报
Mar 25 #Python
Python3.5实现的三级菜单功能示例
Mar 25 #Python
You might like
模板引擎Smarty深入浅出介绍
2006/12/06 PHP
基于simple_html_dom的使用小结
2013/07/01 PHP
smarty内置函数foreach用法实例
2015/01/22 PHP
php正则preg_replace_callback函数用法实例
2015/06/01 PHP
php is_executable判断给定文件名是否可执行实例
2016/09/26 PHP
js函数使用技巧之 setTimeout(function(){},0)
2009/02/09 Javascript
jQuery :nth-child前有无空格的区别分析
2011/07/11 Javascript
js检测输入内容全为空格的方法
2014/05/03 Javascript
JavaScript中使用Object.prototype.toString判断是否为数组
2015/04/01 Javascript
JS中call/apply、arguments、undefined/null方法详解
2016/02/15 Javascript
辨析JavaScript中的Undefined类型与null类型
2016/05/26 Javascript
JS动态给对象添加事件的简单方法
2016/07/19 Javascript
JS清除字符串中重复值的实现方法
2016/08/03 Javascript
JavaScript  event对象整理及详细介绍
2016/10/10 Javascript
Bootstrap基本插件学习笔记之模态对话框(16)
2016/12/08 Javascript
微信小程序 闭包写法详细介绍
2016/12/14 Javascript
JS实现两周内自动登录功能
2017/03/23 Javascript
js前端实现图片懒加载(lazyload)的两种方式
2017/04/24 Javascript
js实现图片上传预览原理分析
2017/07/13 Javascript
JavaScript实现的浏览器下载文件的方法
2017/08/09 Javascript
使用vue-aplayer插件时出现的问题的解决
2018/03/02 Javascript
JS装饰器函数用法总结
2018/04/21 Javascript
微信小程序图片左右摆动效果详解
2019/07/13 Javascript
JS一次前端面试经历记录
2020/03/19 Javascript
Jquery $.map使用方法实例详解
2020/09/01 jQuery
python修改注册表终止360进程实例
2014/10/13 Python
python与sqlite3实现解密chrome cookie实例代码
2018/01/20 Python
Python装饰器用法实例总结
2018/02/07 Python
Python爬虫实现获取动态gif格式搞笑图片的方法示例
2018/12/24 Python
Tensorflow中tf.ConfigProto()的用法详解
2020/02/06 Python
Python基于tkinter canvas实现图片裁剪功能
2020/11/05 Python
BIBLOO波兰:捷克的一家在线服装店
2018/03/09 全球购物
C语言变量的命名规则都有哪些
2013/12/27 面试题
《沙漠中的绿洲》教学反思
2014/04/24 职场文书
如何写新闻稿
2015/07/18 职场文书
python 学习GCN图卷积神经网络
2022/05/11 Python