python中绕过反爬虫的方法总结


Posted in Python onNovember 25, 2020

我们在登山的途中,有不同的路线可以到达终点。因为选择的路线不同,上山的难度也有区别。就像最近几天教大家获取数据的时候,断断续续的讲过header、地址ip等一些的方法。具体的爬取方法相信大家已经掌握住,本篇小编主要是给大家进行应对反爬虫方法的一个梳理,在进行方法回顾的同时查漏补缺,建立系统的爬虫知识框架。

首先分析要爬的网站,本质是一个信息查询系统,提供了搜索页面。例如我想获取某个case,需要利用这个case的id或者name字段,才能搜索到这个case的页面。

出于对安全的考虑,有些网站会做一些反爬的措施,例如之前讲到的需要判断user-angent和cookies,或者判断请求的ip是否在短时间内多次访问。该网站用的是知道创宇的安全服务,频繁访问会提示ip行为不正常。 

python中绕过反爬虫的方法总结

浏览器本质也是一个应用程序,只要ip不被封,既然可以通过浏览器访问,那么我们自己写程序来请求也是应该没有问题的。 

一些常见的绕过反爬虫的措施有:

  • 构造消息头:如上所说的user-angent和cookies都包含在消息头当中。
  • 延长请求间隔:如果快速频繁的发送请求,会大量抢占服务器资源,一般这种情况下很容易被网站的安全措施检测出来并且封掉ip。所以适当的延长请求间隔,例如随机隔2-5秒不等再发送下一次请求。
  • 使用代理ip,解决ip检测问题。

当然常见的反爬虫方法也不止以上的这些,这里只罗列出这常用的三种方法,有概念模糊的可以去往期的文章翻阅,其他的绕过反爬虫方法

到此这篇关于python中绕过反爬虫的方法总结的文章就介绍到这了,更多相关python中绕过反爬虫的方法有哪些内容请搜索三水点靠木以前的文章或继续浏览下面的相关文章希望大家以后多多支持三水点靠木!

Python 相关文章推荐
安装Python的web.py框架并从hello world开始编程
Apr 25 Python
在Python中使用matplotlib模块绘制数据图的示例
May 04 Python
python分割列表(list)的方法示例
May 07 Python
python 字符串和整数的转换方法
Jun 25 Python
解决Django migrate不能发现app.models的表问题
Aug 31 Python
Django框架 querySet功能解析
Sep 04 Python
Python range、enumerate和zip函数用法详解
Sep 11 Python
Django将默认的SQLite更换为MySQL的实现
Nov 18 Python
用python按照图像灰度值统计并筛选图片的操作(PIL,shutil,os)
Jun 04 Python
Java爬虫技术框架之Heritrix框架详解
Jul 22 Python
降低python版本的操作方法
Sep 11 Python
Python多线程 Queue 模块常见用法
Jul 04 Python
pycharm激活码免费分享适用最新pycharm2020.2.3永久激活
Nov 25 #Python
python爬虫泛滥的解决方法详解
Nov 25 #Python
cookies应对python反爬虫知识点详解
Nov 25 #Python
Python基于unittest实现测试用例执行
Nov 25 #Python
python反爬虫方法的优缺点分析
Nov 25 #Python
Pytest测试框架基本使用方法详解
Nov 25 #Python
python实现企业微信定时发送文本消息的实例代码
Nov 25 #Python
You might like
新版mysql+apache+php Linux安装指南
2006/10/09 PHP
php 使用post,get的一种简洁方式
2010/04/25 PHP
php文件怎么打开 如何执行php文件
2011/12/21 PHP
实例说明js脚本语言和php脚本语言的区别
2019/04/04 PHP
TP5(thinkPHP5)框架使用ajax实现与后台数据交互的方法小结
2020/02/10 PHP
javascript编程起步(第五课)
2007/01/10 Javascript
jQuery dataTables与jQuery UI 对话框dialog的使用教程
2016/09/02 Javascript
使用ReactJS实现tab页切换、菜单栏切换、手风琴切换和进度条效果
2016/10/17 Javascript
基于JQuery及AJAX实现名人名言随机生成器
2017/02/10 Javascript
js下载文件并修改文件名
2017/05/08 Javascript
bootstrap动态添加面包屑(breadcrumb)及其响应事件的方法
2017/05/25 Javascript
Vue2.0用 watch 观察 prop 变化(不触发)
2017/09/08 Javascript
实现Vue的markdown文档可以在线运行的方法示例
2018/12/11 Javascript
微信小程序rich-text富文本用法实例分析
2019/05/20 Javascript
vue实现多组关键词对应高亮显示功能
2019/07/25 Javascript
零基础写python爬虫之urllib2中的两个重要概念:Openers和Handlers
2014/11/05 Python
Python反射的用法实例分析
2018/02/11 Python
Django使用paginator插件实现翻页功能的实例
2018/10/24 Python
Python完成哈夫曼树编码过程及原理详解
2019/07/29 Python
python对数组进行排序,并输出排序后对应的索引值方式
2020/02/28 Python
Java多线程实现四种方式原理详解
2020/06/02 Python
Python 代码调试技巧示例代码
2020/08/11 Python
python 使用xlsxwriter循环向excel中插入数据和图片的操作
2021/01/01 Python
HTML5 Plus 实现手机APP拍照或相册选择图片上传功能
2016/07/13 HTML / CSS
POS解决方案:MUNBYN(热敏打印机、条形码扫描仪)
2020/06/09 全球购物
英语简历自我评价
2014/01/26 职场文书
高中生学期学习自我评价
2014/02/24 职场文书
升职演讲稿范文
2014/05/23 职场文书
任命书格式
2014/06/05 职场文书
七夕相亲活动策划方案
2014/08/31 职场文书
初婚未育证明样本
2014/10/24 职场文书
2015会计试用期工作总结
2014/12/12 职场文书
财务统计员岗位职责
2015/04/14 职场文书
2015暑期社会实践调查报告
2015/07/14 职场文书
2016年社区创先争优活动总结
2016/04/05 职场文书
导游词之秦始皇兵马俑博物馆
2019/09/29 职场文书