Python爬虫动态ip代理防止被封的方法


Posted in Python onJuly 07, 2019

在爬取的过程中难免发生ip被封和403错误等等,这都是网站检测出你是爬虫而进行反爬措施,在这里为大家总结一下怎么用IP代理防止被封

首先,设置等待时间:

常见的设置等待时间有两种,一种是显性等待时间(强制停几秒),一种是隐性等待时间(看具体情况,比如根据元素加载完成需要时间而等待)图1是显性等待时间设置,图2是隐性

Python爬虫动态ip代理防止被封的方法

Python爬虫动态ip代理防止被封的方法

第二步,修改请求头:

识别你是机器人还是人类浏览器浏览的重要依据就是User-Agent,比如人类用浏览器浏览就会使这个样子的User-Agent:'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/45.0.2454.101 Safari/537.36'

Python爬虫动态ip代理防止被封的方法

第三步,采用代理ip/建代理ip池

直接看代码。利用动态ip代理,可以强有力地保障爬虫不会被封,能够正常运行。图1为使用代理ip的情况,图2是建ip代理池的代码,有没有必要需要看自己的需求,大型项目是必须用大量ip的。

Python爬虫动态ip代理防止被封的方法

Python爬虫动态ip代理防止被封的方法

做好以上3个步骤,大致爬虫的运行就不成问题了。
做好以上3个步骤,大致爬虫的运行就不成问题了。

以上就是本次介绍的全部内容,感谢大家的学习和对三水点靠木的支持。

Python 相关文章推荐
Python实现 多进程导入CSV数据到 MySQL
Feb 26 Python
Python基础知识_浅谈用户交互
May 31 Python
python定时复制远程文件夹中所有文件
Apr 30 Python
在tensorflow中实现屏蔽输出的log信息
Feb 04 Python
python GUI库图形界面开发之PyQt5计数器控件QSpinBox详细使用方法与实例
Feb 28 Python
Django调用支付宝接口代码实例详解
Apr 04 Python
如何利用python web框架做文件流下载的实现示例
Jun 02 Python
python interpolate插值实例
Jul 06 Python
python用分数表示矩阵的方法实例
Jan 11 Python
python中常用的数据结构介绍
Jan 12 Python
python自动计算图像数据集的RGB均值
Jun 18 Python
Python之Matplotlib绘制热力图和面积图
Apr 13 Python
Python异常处理例题整理
Jul 07 #Python
解决pycharm下os.system执行命令返回有中文乱码的问题
Jul 07 #Python
在python中实现调用可执行文件.exe的3种方法
Jul 07 #Python
Python求两点之间的直线距离(2种实现方法)
Jul 07 #Python
对Python中画图时候的线类型详解
Jul 07 #Python
Python 3 实现定义跨模块的全局变量和使用教程
Jul 07 #Python
Python正则表达式匹配日期与时间的方法
Jul 07 #Python
You might like
如何去掉文章里的 html 语法
2006/10/09 PHP
PHP Session_Regenerate_ID函数双释放内存破坏漏洞
2011/01/27 PHP
定义php常量的详解
2013/06/09 PHP
php实现的mongodb操作类实例
2015/04/03 PHP
Yii2中添加全局函数的方法分析
2017/05/04 PHP
createElement动态创建HTML对象脚本代码
2008/11/24 Javascript
基于jquery的回到页面顶部按钮
2011/06/27 Javascript
Eclipse下jQuery文件报错出现错误提示红叉
2014/01/13 Javascript
AngularJS基础学习笔记之表达式
2015/05/10 Javascript
jquery使用on绑定a标签无效 只能用live解决
2016/06/02 Javascript
jQuery EasyUI Draggable拖动组件
2017/03/01 Javascript
Node.js编写CLI的实例详解
2017/05/17 Javascript
详解Layer弹出层样式
2017/08/21 Javascript
认识jQuery的Promise的具体使用方法
2017/10/10 jQuery
Nuxt.js实战详解
2018/01/18 Javascript
vue使用v-if v-show页面闪烁,div闪现的解决方法
2018/10/12 Javascript
layui固定下拉框的显示条数(有滚动条)的方法
2019/09/10 Javascript
jquery传参及获取方式(两种方式)
2020/02/13 jQuery
JavaScript实现Tab选项卡切换
2020/02/13 Javascript
vant实现购物车功能
2020/06/29 Javascript
[27:39]Ti4 循环赛第二日 LGD vs Fnatic
2014/07/11 DOTA
[02:57]2014DOTA2国际邀请赛 选手辛苦解说更辛苦
2014/07/10 DOTA
python解析xml模块封装代码
2014/02/07 Python
Python判断某个用户对某个文件的权限
2016/10/13 Python
zookeeper python接口实例详解
2018/01/18 Python
Python爬虫:将headers请求头字符串转为字典的方法
2019/08/21 Python
Python3使用 GitLab API 进行批量合并分支
2020/10/15 Python
解决python 在for循环并且pop数组的时候会跳过某些元素的问题
2020/12/11 Python
亿企通软件测试面试题
2012/04/10 面试题
小学教学随笔感言
2014/02/26 职场文书
3.12植树节活动总结2014
2014/03/13 职场文书
小学评语大全
2014/04/22 职场文书
新闻稿件写作范文
2015/07/18 职场文书
追悼会答谢词范文
2015/09/29 职场文书
Django使用channels + websocket打造在线聊天室
2021/05/20 Python
Java字符缓冲流BufferedWriter
2022/04/09 Java/Android