python中绕过反爬虫的方法总结


Posted in Python onNovember 25, 2020

我们在登山的途中,有不同的路线可以到达终点。因为选择的路线不同,上山的难度也有区别。就像最近几天教大家获取数据的时候,断断续续的讲过header、地址ip等一些的方法。具体的爬取方法相信大家已经掌握住,本篇小编主要是给大家进行应对反爬虫方法的一个梳理,在进行方法回顾的同时查漏补缺,建立系统的爬虫知识框架。

首先分析要爬的网站,本质是一个信息查询系统,提供了搜索页面。例如我想获取某个case,需要利用这个case的id或者name字段,才能搜索到这个case的页面。

出于对安全的考虑,有些网站会做一些反爬的措施,例如之前讲到的需要判断user-angent和cookies,或者判断请求的ip是否在短时间内多次访问。该网站用的是知道创宇的安全服务,频繁访问会提示ip行为不正常。 

python中绕过反爬虫的方法总结

浏览器本质也是一个应用程序,只要ip不被封,既然可以通过浏览器访问,那么我们自己写程序来请求也是应该没有问题的。 

一些常见的绕过反爬虫的措施有:

  • 构造消息头:如上所说的user-angent和cookies都包含在消息头当中。
  • 延长请求间隔:如果快速频繁的发送请求,会大量抢占服务器资源,一般这种情况下很容易被网站的安全措施检测出来并且封掉ip。所以适当的延长请求间隔,例如随机隔2-5秒不等再发送下一次请求。
  • 使用代理ip,解决ip检测问题。

当然常见的反爬虫方法也不止以上的这些,这里只罗列出这常用的三种方法,有概念模糊的可以去往期的文章翻阅,其他的绕过反爬虫方法

到此这篇关于python中绕过反爬虫的方法总结的文章就介绍到这了,更多相关python中绕过反爬虫的方法有哪些内容请搜索三水点靠木以前的文章或继续浏览下面的相关文章希望大家以后多多支持三水点靠木!

Python 相关文章推荐
详解django中自定义标签和过滤器
Jul 03 Python
python使用json序列化datetime类型实例解析
Feb 11 Python
Numpy数据类型转换astype,dtype的方法
Jun 09 Python
Python画柱状统计图操作示例【基于matplotlib库】
Jul 04 Python
基于numpy中数组元素的切片复制方法
Nov 15 Python
django-rest-swagger对API接口注释的方法
Aug 29 Python
使用python脚本自动创建pip.ini配置文件代码实例
Sep 20 Python
Python3常用内置方法代码实例
Nov 18 Python
selenium+Chrome滑动验证码破解二(某某网站)
Dec 17 Python
python构造IP报文实例
May 05 Python
Python Tornado核心及相关原理详解
Jun 24 Python
python获取命令行参数实例方法讲解
Nov 02 Python
pycharm激活码免费分享适用最新pycharm2020.2.3永久激活
Nov 25 #Python
python爬虫泛滥的解决方法详解
Nov 25 #Python
cookies应对python反爬虫知识点详解
Nov 25 #Python
Python基于unittest实现测试用例执行
Nov 25 #Python
python反爬虫方法的优缺点分析
Nov 25 #Python
Pytest测试框架基本使用方法详解
Nov 25 #Python
python实现企业微信定时发送文本消息的实例代码
Nov 25 #Python
You might like
让php处理图片变得简单 基于gb库的图片处理类附实例代码下载
2011/05/17 PHP
PHP中使用addslashes函数转义的安全性原理分析
2014/11/03 PHP
js去除空格的12种实用方法
2013/11/08 Javascript
JavaScript判断访问的来源是手机还是电脑,用的哪种浏览器
2013/12/12 Javascript
纯JavaScript实现获取onclick、onchange等事件的值
2014/12/29 Javascript
js实现文件上传表单域美化特效
2015/11/02 Javascript
JavaScript使用readAsDataUrl方法预览图片
2017/05/10 Javascript
微信小程序“摇一摇”的实例代码
2017/07/20 Javascript
Javascript中的getter和setter初识
2017/08/17 Javascript
Vue中封装input组件的实例详解
2017/10/17 Javascript
浅谈Node异步编程的机制
2017/10/18 Javascript
vue中实现图片和文件上传的示例代码
2018/03/16 Javascript
详解vuex中mapState,mapGetters,mapMutations,mapActions的作用
2018/04/13 Javascript
通过实践编写优雅的JavaScript代码
2019/05/30 Javascript
elementUI 动态生成几行几列的方法示例
2019/07/11 Javascript
js Math数学简单使用操作示例
2020/03/13 Javascript
JavaScript代码简化技巧实例解析
2020/09/09 Javascript
[04:19]完美世界携手游戏风云打造 卡尔工作室模型介绍篇
2013/04/24 DOTA
Python网络编程 Python套接字编程
2017/09/13 Python
python使用tornado实现登录和登出
2018/07/28 Python
利用Python如何批量更新服务器文件
2018/07/29 Python
用Python和WordCloud绘制词云的实现方法(内附让字体清晰的秘笈)
2019/01/08 Python
python3+PyQt5 使用三种不同的简便项窗口部件显示数据的方法
2019/06/17 Python
python 实现批量图片识别并翻译
2020/11/02 Python
html5 Canvas画图教程(1)—画图的基本常识
2013/01/09 HTML / CSS
英国潮流网站:END.(全球免邮)
2017/01/16 全球购物
中国茶叶、茶具一站式网上购物商城:醉品茶城
2018/07/03 全球购物
英国休闲奢华的缩影:Crew Clothing
2019/05/05 全球购物
澳大利亚女装精品店:Alannah Hill
2020/07/29 全球购物
办公自动化毕业生求职信
2014/03/09 职场文书
中学生操行评语大全
2014/04/24 职场文书
大学生就业协议书范本(适用于公司企业)
2014/10/07 职场文书
巾帼标兵事迹材料
2014/12/26 职场文书
家长给老师的感谢信
2015/01/20 职场文书
国王的演讲观后感
2015/06/03 职场文书
幼儿园教师心得体会范文
2016/01/21 职场文书