编程 Python

讲解Python的Scrapy爬虫框架使用代理进行采集的方法

Posted in Python onFebruary 18, 2016

1.在Scrapy工程下新建“middlewares.py”

# Importing base64 library because we'll need it ONLY in case if the proxy we are going to use requires authentication
import base64

# Start your middleware class
class ProxyMiddleware(object):
 # overwrite process request
 def process_request(self, request, spider):
  # Set the location of the proxy
  request.meta['proxy'] = "http://YOUR_PROXY_IP:PORT"

  # Use the following lines if your proxy requires authentication
  proxy_user_pass = "USERNAME:PASSWORD"
  # setup basic authentication for the proxy
  encoded_user_pass = base64.encodestring(proxy_user_pass)
  request.headers['Proxy-Authorization'] = 'Basic ' + encoded_user_pass

2.在项目配置文件里(./project_name/settings.py)添加

DOWNLOADER_MIDDLEWARES = {
 'scrapy.contrib.downloadermiddleware.httpproxy.HttpProxyMiddleware': 110,
 'project_name.middlewares.ProxyMiddleware': 100,
}

只要两步，现在请求就是通过代理的了。测试一下^_^

from scrapy.spider import BaseSpider
from scrapy.contrib.spiders import CrawlSpider, Rule
from scrapy.http import Request

class TestSpider(CrawlSpider):
 name = "test"
 domain_name = "whatismyip.com"
 # The following url is subject to change, you can get the last updated one from here :
 # http://www.whatismyip.com/faq/automation.asp
 start_urls = ["http://xujian.info"]

 def parse(self, response):
  open('test.html', 'wb').write(response.body)

3.使用随机user-agent

默认情况下scrapy采集时只能使用一种user-agent，这样容易被网站屏蔽，下面的代码可以从预先定义的user- agent的列表中随机选择一个来采集不同的页面

在settings.py中添加以下代码

DOWNLOADER_MIDDLEWARES = {
  'scrapy.contrib.downloadermiddleware.useragent.UserAgentMiddleware' : None,
  'Crawler.comm.rotate_useragent.RotateUserAgentMiddleware' :400
 }

注意: Crawler; 是你项目的名字，通过它是一个目录的名称下面是蜘蛛的代码

#!/usr/bin/python
#-*-coding:utf-8-*-

import random
from scrapy.contrib.downloadermiddleware.useragent import UserAgentMiddleware

class RotateUserAgentMiddleware(UserAgentMiddleware):
 def __init__(self, user_agent=''):
  self.user_agent = user_agent

 def process_request(self, request, spider):
  #这句话用于随机选择user-agent
  ua = random.choice(self.user_agent_list)
  if ua:
   request.headers.setdefault('User-Agent', ua)

 #the default user_agent_list composes chrome,I E,firefox,Mozilla,opera,netscape
 #for more user agent strings,you can find it in http://www.useragentstring.com/pages/useragentstring.php
 user_agent_list = [\
  "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.1 (KHTML, like Gecko) Chrome/22.0.1207.1 Safari/537.1"\
  "Mozilla/5.0 (X11; CrOS i686 2268.111.0) AppleWebKit/536.11 (KHTML, like Gecko) Chrome/20.0.1132.57 Safari/536.11",\
  "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.6 (KHTML, like Gecko) Chrome/20.0.1092.0 Safari/536.6",\
  "Mozilla/5.0 (Windows NT 6.2) AppleWebKit/536.6 (KHTML, like Gecko) Chrome/20.0.1090.0 Safari/536.6",\
  "Mozilla/5.0 (Windows NT 6.2; WOW64) AppleWebKit/537.1 (KHTML, like Gecko) Chrome/19.77.34.5 Safari/537.1",\
  "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/536.5 (KHTML, like Gecko) Chrome/19.0.1084.9 Safari/536.5",\
  "Mozilla/5.0 (Windows NT 6.0) AppleWebKit/536.5 (KHTML, like Gecko) Chrome/19.0.1084.36 Safari/536.5",\
  "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1063.0 Safari/536.3",\
  "Mozilla/5.0 (Windows NT 5.1) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1063.0 Safari/536.3",\
  "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_8_0) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1063.0 Safari/536.3",\
  "Mozilla/5.0 (Windows NT 6.2) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1062.0 Safari/536.3",\
  "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1062.0 Safari/536.3",\
  "Mozilla/5.0 (Windows NT 6.2) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1061.1 Safari/536.3",\
  "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1061.1 Safari/536.3",\
  "Mozilla/5.0 (Windows NT 6.1) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1061.1 Safari/536.3",\
  "Mozilla/5.0 (Windows NT 6.2) AppleWebKit/536.3 (KHTML, like Gecko) Chrome/19.0.1061.0 Safari/536.3",\
  "Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/535.24 (KHTML, like Gecko) Chrome/19.0.1055.1 Safari/535.24",\
  "Mozilla/5.0 (Windows NT 6.2; WOW64) AppleWebKit/535.24 (KHTML, like Gecko) Chrome/19.0.1055.1 Safari/535.24"
  ]

讲解Python的Scrapy爬虫框架使用代理进行采集的方法

- Author -

goldensun

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Python 相关文章推荐

使用简单工厂模式来进行Python的设计模式编程

Mar 01 Python

详解Python中open()函数指定文件打开方式的用法

Jun 04 Python

使用pandas对矢量化数据进行替换处理的方法

Apr 11 Python

Python中存取文件的4种不同操作

Jul 02 Python

python的scikit-learn将特征转成one-hot特征的方法

Jul 10 Python

Django开发的简易留言板案例详解

Dec 04 Python

Python如何筛选序列中的元素的方法实现

Jul 15 Python

python实现猜拳游戏

Mar 04 Python

Django实现从数据库中获取到的数据转换为dict

Mar 27 Python

基于python实现计算且附带进度条代码实例

Mar 31 Python

详解Python爬虫爬取博客园问题列表所有的问题

Jan 18 Python

python+selenium自动化实战携带cookies模拟登陆微博

Jan 19 Python

使用Python的PIL模块来进行图片对比

Feb 18 #Python

使用Python来编写HTTP服务器的超级指南

Feb 18 #Python

python装饰器与递归算法详解

Feb 18 #Python

Python利用Nagios增加微信报警通知的功能

Feb 18 #Python

Python多线程、异步＋多进程爬虫实现代码

Feb 17 #Python

玩转python爬虫之爬取糗事百科段子

Feb 17 #Python

玩转python爬虫之正则表达式

Feb 17 #Python

You might like

PHP的宝库目录--PEAR

2006/10/09 PHP

PHP获取网址的顶级域名函数代码

2012/09/24 PHP

ThinkPHP3.1新特性之对页面压缩输出的支持

2014/06/19 PHP

php操作mongoDB实例分析

2014/12/29 PHP

PHP读取文件内容的五种方式

2015/12/28 PHP

thinkphp5 加载静态资源路径与常量的方法

2017/12/24 PHP

PHP连接MySQL数据库并以json格式输出

2018/05/21 PHP

Django中通过定时任务触发页面静态化的处理方式

2018/08/29 PHP

CI框架附属类用法分析

2018/12/26 PHP

在Laravel中使用GuzzleHttp调用第三方服务的API接口代码

2019/10/15 PHP

关于使用runtimeStyle属性问题讨论文章

2007/03/08 Javascript

jquery里的each使用方法详解

2010/12/22 Javascript

优化innerHTML操作(提高代码执行效率)

2011/08/20 Javascript

js事件冒泡实例分享(已测试)

2013/04/23 Javascript

为JS扩展Array.prototype.indexOf引发的问题探讨及解决

2013/04/24 Javascript

JavaScript作用域链使用介绍

2013/08/29 Javascript

jQuery截取指定长度字符串代码

2014/08/21 Javascript

jQuery通过扩展实现抖动效果的方法

2015/03/11 Javascript

JS定时检测任务任务完成后执行下一步的解决办法

2016/12/22 Javascript

js canvas实现星空连线背景特效

2019/11/01 Javascript

[04:42]2015国际邀请赛CDEC战队晋级之路

2015/08/13 DOTA

python2.7+selenium2实现淘宝滑块自动认证功能

2018/02/24 Python

python 利用for循环保存多个图像或者文件的实例

2018/11/09 Python

Python解决两个整数相除只得到整数部分的实例

2018/11/10 Python

python实现字典嵌套列表取值

2019/12/16 Python

Pytorch 实现focal_loss 多类别和二分类示例

2020/01/14 Python

介绍一下ICMP(Internet Control Message Protocol)Internet控制信息协议

2016/11/26 面试题

传播学毕业生求职信

2013/10/11 职场文书

绩效管理实施方案

2014/03/19 职场文书

班子成员四风问题自我剖析材料

2014/09/29 职场文书

小学生安全教育广播稿

2014/10/20 职场文书

销售督导岗位职责

2015/04/10 职场文书

复活读书笔记

2015/06/29 职场文书

2015质检员个人年终工作总结

2015/10/23 职场文书

win10更新失败无限重启解决方法

2022/04/19 数码科技

JS前端轻量fabric.js系列之画布初始化

2022/08/05 Javascript