编程 Python

浅谈Scrapy框架普通反爬虫机制的应对策略

Posted in Python onDecember 28, 2017

简单低级的爬虫速度快，伪装度低，如果没有反爬机制，它们可以很快的抓取大量数据，甚至因为请求过多，造成服务器不能正常工作。而伪装度高的爬虫爬取速度慢，对服务器造成的负担也相对较小。

爬虫与反爬虫，这相爱相杀的一对，简直可以写出一部壮观的斗争史。而在大数据时代，数据就是金钱，很多企业都为自己的网站运用了反爬虫机制，防止网页上的数据被爬虫爬走。然而，如果反爬机制过于严格，可能会误伤到真正的用户请求;如果既要和爬虫死磕，又要保证很低的误伤率，那么又会加大研发的成本。

简单低级的爬虫速度快，伪装度低，如果没有反爬机制，它们可以很快的抓取大量数据，甚至因为请求过多，造成服务器不能正常工作。而伪装度高的爬虫爬取速度慢，对服务器造成的负担也相对较小。所以，网站反爬的重点也是那种简单粗暴的爬虫，反爬机制也会允许伪装度高的爬虫，获得数据。毕竟伪装度很高的爬虫与真实用户也就没有太大差别了。

这篇文章主要讨论使用Scrapy框架时，如何应对普通的反爬机制。

header检验

最简单的反爬机制，就是检查HTTP请求的Headers信息，包括User-Agent,Referer、Cookies等。

User-Agent

User-Agent是检查用户所用客户端的种类和版本，在Scrapy中，通常是在下载器中间件中进行处理。比如在setting.py中建立一个包含很多浏览器User-Agent的列表，然后新建一个random_user_agent文件：

class RandomUserAgentMiddleware(object): @classmethod defprocess_request(cls, request, spider): ua = random.choice(spider.settings['USER_AGENT_LIST']) if ua: request.headers.setdefault('User-Agent', ua)

这样就可以在每次请求中，随机选取一个真实浏览器的User-Agent。

Referer

Referer是检查此请求由哪里来，通常可以做图片的盗链判断。在Scrapy中，如果某个页面url是通过之前爬取的页面提取到，Scrapy会自动把之前爬取的页面url作为Referfer。也可以通过上面的方式自己定义Referfer字段。

Cookies

网站可能会检测Cookie中session_id的使用次数，如果超过限制，就触发反爬策略。所以可以在Scrapy中设置COOKIES_ENABLED=False让请求不带Cookies。

也有网站强制开启Cookis，这时就要麻烦一点了。可以另写一个简单的爬虫，定时向目标网站发送不带Cookies的请求，提取响应中Set-cookie字段信息并保存。爬取网页时，把存储起来的Cookies带入Headers中。

X-Forwarded-For

在请求头中添加X-Forwarded-For字段，将自己申明为一个透明的代理服务器，一些网站对代理服务器会手软一些。

X-Forwarded-For头一般格式如下

X-Forwarded-For:client1,proxy1,proxy2

这里将client1，proxy1设置为随机IP地址，把自己的请求伪装成代理的随机IP产生的请求。然而由于X-Forwarded-For可以随意篡改，很多网站并不会信任这个值。

限制IP的请求数量

如果某一IP的请求速度过快，就触发反爬机制。当然可以通过放慢爬取速度绕过，这要以爬取时间大大增长为代价。另一种方法就是添加代理。

很简单，在下载器中间件中添加:

request.meta['proxy'] = 'http://' + 'proxy_host' + ':' + proxy_port

然后再每次请求时使用不同的代理IP。然而问题是如何获取大量的代理IP?

可以自己写一个IP代理获取和维护系统，定时从各种披露免费代理IP的网站爬取免费IP代理，然后定时扫描这些IP和端口是否可用，将不可用的代理IP及时清理。这样就有一个动态的代理库，每次请求再从库中随机选择一个代理。然而这个方案的缺点也很明显，开发代理获取和维护系统本身就很费时费力，并且这种免费代理的数量并不多，而且稳定性都比较差。如果必须要用到代理，也可以去买一些稳定的代理服务。这些服务大多会用到带认证的代理。

在requests库中添加带认证的代理很简单，

proxies = { "http": "http://user:pass@10.10.1.10:3128/", }

然而Scrapy不支持这种认证方式，需要将认证信息base64编码后，加入Headers的Proxy-Authorization字段：

importbase64 # Set the location of the proxy proxy_string = choice(self._get_proxies_from_file('proxies.txt')) # user:pass@ip:port proxy_items = proxy_string.split('@') request.meta['proxy'] = "http://%s" % proxy_items[1] # setup basic authentication for the proxy user_pass=base64.encodestring(proxy_items[0]) request.headers['Proxy-Authorization'] = 'Basic ' + user_pass

动态加载

现在越来越多的网站使用ajax动态加载内容，这时候可以先截取ajax请求分析一下，有可能根据ajax请求构造出相应的API请求的URL就可以直接获取想要的内容，通常是json格式，反而还不用去解析HTML。

然而，很多时候ajax请求都会经过后端鉴权，不能直接构造URL获取。这时就可以通过PhantomJS+Selenium模拟浏览器行为，抓取经过js渲染后的页面。

需要注意的是，使用Selenium后，请求不再由Scrapy的Downloader执行，所以之前添加的请求头等信息都会失效，需要在Selenium中重新添加

headers = {...} for key, valuein headers.iteritems(): webdriver.DesiredCapabilities.PHANTOMJS['phantomjs.page.customHeaders.{}'.format(key)] = value

另外，调用PhantomJs需要指定PhantomJs的可执行文件路径，通常是将该路径添加到系统的path路径，让程序执行时自动去path中寻找。我们的爬虫经常会放到crontab中定时执行，而crontab中的环境变量和系统的环境变量不同，所以就加载不到PhamtonJs需要的路径，所以最好是在申明时指定路径：

driver = webdriver.PhantomJS(executable_path='/usr/local/bin/phantomjs')

总结

以上就是本文关于浅谈Scrapy框架普通反爬虫机制的应对策略的全部内容，希望对大家有所帮助。感兴趣的朋友可以继续参阅本站：

如有不足之处，欢迎留言指出。感谢朋友们对本站的支持！

浅谈Scrapy框架普通反爬虫机制的应对策略

- Author -

gxm

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Python 相关文章推荐

python 采集中文乱码问题的完美解决方法

Sep 27 Python

分享一个简单的python读写文件脚本

Nov 25 Python

Django进阶之CSRF的解决

Aug 01 Python

python 循环读取txt文档并转换成csv的方法

Oct 26 Python

python提取具有某种特定字符串的行数据方法

Dec 11 Python

python自动点赞功能的实现思路

Feb 26 Python

浅谈python 中的 type(), dtype(), astype()的区别

Apr 09 Python

opencv-python的RGB与BGR互转方式

Jun 02 Python

python文件及目录操作代码汇总

Jul 08 Python

Python实时监控网站浏览记录实现过程详解

Jul 14 Python

Python内存泄漏和内存溢出的解决方案

Sep 26 Python

Django和Ueditor自定义存储上传文件的文件名

Feb 25 Python

scrapy爬虫实例分享

Dec 28 #Python

Python解决N阶台阶走法问题的方法分析

Dec 28 #Python

Python实现嵌套列表去重方法示例

Dec 28 #Python

Python登录并获取CSDN博客所有文章列表代码实例

Dec 28 #Python

python 寻找优化使成本函数最小的最优解的方法

Dec 28 #Python

python机器学习案例教程——K最近邻算法的实现

Dec 28 #Python

Python实现螺旋矩阵的填充算法示例

Dec 28 #Python

You might like

将数组写入txt文件 var_export

2009/04/21 PHP

PHP 变量类型的强制转换

2009/10/23 PHP

javascript,php获取函数参数对象的代码

2011/02/03 PHP

PHP程序员基本要求和必备技能

2014/05/09 PHP

PHP获取文件扩展名的方法实例总结

2017/06/10 PHP

php微信开发之谷歌测距

2018/06/14 PHP

如何在centos8自定义目录安装php7.3

2019/11/28 PHP

php+mysql+ajax 局部刷新点赞/取消点赞功能(每个账号只点赞一次)

2020/07/24 PHP

最简单的jQuery程序入门者学习

2009/07/09 Javascript

Extjs TimeField 显示正常时间格式的代码

2011/06/28 Javascript

JavaScript简单实现鼠标拖动选择功能

2014/03/06 Javascript

js操作iframe父子窗体示例

2014/05/22 Javascript

JavaScript SweetAlert插件实现超酷消息警告框

2016/01/28 Javascript

Node.js批量给图片加水印的方法

2016/11/15 Javascript

JS实现的添加弹出层并完成锁屏操作示例

2017/04/07 Javascript

vue-cli+webpack在生成的项目中使用bootstrap实例代码

2017/05/26 Javascript

详解vue项目优化之按需加载组件-使用webpack require.ensure

2017/06/13 Javascript

详解vue-cil和webpack中本地静态图片的路径问题解决方案

2017/09/27 Javascript

jquery根据name取得select选中的值实例(超简单)

2018/01/25 jQuery

javascript中this的用法实践分析

2019/07/29 Javascript

java实现单链表增删改查的实例代码详解

2019/08/30 Javascript

jQuery Raty星级评分插件使用方法实例分析

2019/11/25 jQuery

JS面试题中深拷贝的实现讲解

2020/05/07 Javascript

解决ant design vue 表格a-table二次封装,slots渲染的问题

2020/10/28 Javascript

vue中activated的用法

2021/01/03 Vue.js

浅谈python numpy中nonzero()的用法

2018/04/02 Python

对pandas中apply函数的用法详解

2018/04/10 Python

python抓取搜狗微信公众号文章

2019/04/01 Python

python获取当前文件路径以及父文件路径的方法

2019/07/10 Python

Django 大文件下载实现过程解析

2019/08/01 Python

Numpy对数组的操作：创建、变形(升降维等)、计算、取值、复制、分割、合并

2019/08/28 Python

国旗下的演讲稿

2014/05/08 职场文书

爱护公共设施标语

2014/06/24 职场文书

爱国主义教育演讲稿

2014/08/26 职场文书

浅谈Redis存储数据类型及存取值方法

2021/05/08 Redis

MYSQL如何查看进程和kill进程

2022/03/13 MySQL