Python爬虫抓取代理IP并检验可用性的实例


Posted in Python onMay 07, 2018

经常写爬虫,难免会遇到ip被目标网站屏蔽的情况,银次一个ip肯定不够用,作为节约的程序猿,能不花钱就不花钱,那就自己去找吧,这次就写了下抓取 西刺代理上的ip,但是这个网站也反爬!!!

至于如何应对,我觉得可以通过增加延时试试,可能是我抓取的太频繁了,所以被封IP了。

但是,还是可以去IP巴士试试的,条条大路通罗马嘛,不能吊死在一棵树上。

不废话,上代码。

#!/usr/bin/env python
# -*- coding:utf8 -*-
import urllib2
import time
from bs4 import BeautifulSoup
import sys
reload(sys)
sys.setdefaultencoding( "utf-8" )
req_header = {'User-Agent':'Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.11 (KHTML, like Gecko) Chrome/23.0.1271.64 Safari/537.11',
 'Accept':'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8',
 #'Accept-Language': 'en-US,en;q=0.8,zh-Hans-CN;q=0.5,zh-Hans;q=0.3',
 'Accept-Charset':'ISO-8859-1,utf-8;q=0.7,*;q=0.3',
 'Accept-Encoding':'en-us',
 'Connection':'keep-alive',
 'Referer':'http://www.baidu.com/'
 }
req_timeout = 5
testUrl = "http://www.baidu.com/"
testStr = "wahaha"
file1 = open('proxy.txt' , 'w')
# url = ""
# req = urllib2.Request(url,None,req_header)
# jsondatas = urllib2.urlopen(req,None,req_timeout).read()
cookies = urllib2.HTTPCookieProcessor()
checked_num = 0
grasp_num = 0
for page in range(1, 160):
 req = urllib2.Request('http://www.xici.net.co/nn/' + str(page), None, req_header)
 html_doc = urllib2.urlopen(req, None, req_timeout).read()
 # html_doc = urllib2.urlopen('http://www.xici.net.co/nn/' + str(page)).read()
 soup = BeautifulSoup(html_doc)
 trs = soup.find('table', id='ip_list').find_all('tr')
 for tr in trs[1:]:
  tds = tr.find_all('td')
  ip = tds[1].text.strip()
  port = tds[2].text.strip()
  protocol = tds[5].text.strip()
  if protocol == 'HTTP' or protocol == 'HTTPS':
   #of.write('%s=%s:%s\n' % (protocol, ip, port))
   print '%s=%s:%s' % (protocol, ip, port)
   grasp_num +=1
   proxyHandler = urllib2.ProxyHandler({"http": r'http://%s:%s' % (ip, port)})
   opener = urllib2.build_opener(cookies, proxyHandler)
   opener.addheaders = [('User-Agent',
         'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/31.0.1650.63 Safari/537.36')]
   t1 = time.time()
   try:
    req = opener.open(testUrl, timeout=req_timeout)
    result = req.read()
    timeused = time.time() - t1
    pos = result.find(testStr)
    if pos > 1:
     file1.write(protocol+"\t"+ip+"\t"+port+"\n")
     checked_num+=1
     print checked_num, grasp_num
    else:
     continue
   except Exception,e:
    continue
file1.close()
print checked_num,grasp_num

个人感觉代码里没有太复杂的,就没有加注释,相信大家基本可以理解,如有问题也请多批评指正,共同进步!

以上这篇Python爬虫抓取代理IP并检验可用性的实例就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持三水点靠木。

Python 相关文章推荐
python基础教程之python消息摘要算法使用示例
Feb 10 Python
利用python程序帮大家清理windows垃圾
Jan 15 Python
对Python进行数据分析_关于Package的安装问题
May 22 Python
浅谈python中列表、字符串、字典的常用操作
Sep 19 Python
TensorFlow Session使用的两种方法小结
Jul 30 Python
python实现自动获取IP并发送到邮箱
Dec 26 Python
django 信号调度机制详解
Jul 19 Python
Pytorch中index_select() 函数的实现理解
Nov 19 Python
520使用Python实现“我爱你”表白
May 20 Python
Python selenium使用autoIT上传附件过程详解
May 26 Python
matplotlib设置颜色、标记、线条,让你的图像更加丰富(推荐)
Sep 25 Python
Pandas之缺失数据的实现
Jan 06 Python
Python视频爬虫实现下载头条视频功能示例
May 07 #Python
十分钟利用Python制作属于你自己的个性logo
May 07 #Python
Redis使用watch完成秒杀抢购功能的代码
May 07 #Python
Python文本统计功能之西游记用字统计操作示例
May 07 #Python
Python中的函数作用域
May 07 #Python
Php多进程实现代码
May 07 #Python
Python格式化输出%s和%d
May 07 #Python
You might like
《星际争霸重制版》兵种对比图鉴
2020/03/02 星际争霸
解析在zend Farmework下如何创立一个FORM表单
2013/06/28 PHP
PHP中new static() 和 new self() 的区别介绍
2015/01/09 PHP
thinkphp3.x中cookie方法的用法分析
2016/05/19 PHP
Android AsyncTack 异步任务实例详解
2016/11/02 PHP
有一段有意思的代码-javascript现实多行信息
2007/08/26 Javascript
Json和Jsonp理论实例代码详解
2013/11/15 Javascript
深入理解javascript的执行顺序
2014/04/04 Javascript
jQuery中closest()函数用法实例
2015/01/07 Javascript
js的for in循环和java里foreach循环的区别分析
2015/01/28 Javascript
使用jquery制作弹出框效果
2015/04/03 Javascript
js实现简单排列组合的方法
2016/01/27 Javascript
Bootstrap布局组件教程之Bootstrap下拉菜单
2016/06/12 Javascript
浅谈JavaScript中的this指针和引用知识
2016/08/05 Javascript
jQuery插件fullPage.js实现全屏滚动效果
2016/12/02 Javascript
基于bootstrap的选择框插件icheck
2016/12/23 Javascript
Javascript中字符串和数字的操作方法整理
2017/01/22 Javascript
js实现悬浮窗效果(支持拖动)
2017/03/09 Javascript
Angular实现的进度条功能示例
2018/02/18 Javascript
vue.js element-ui tree树形控件改iview的方法
2018/03/29 Javascript
JS如何把字符串转换成json
2020/02/21 Javascript
python协程用法实例分析
2015/06/04 Python
Python实现Linux的find命令实例分享
2017/06/04 Python
Python + selenium自动化环境搭建的完整步骤
2018/05/19 Python
使用 Python 实现简单的 switch/case 语句的方法
2018/09/17 Python
python自动保存百度盘资源到百度盘中的实例代码
2019/08/26 Python
canvas 如何绘制线段的实现方法
2018/07/12 HTML / CSS
HTML5新标签兼容——> 的两种方法
2018/09/12 HTML / CSS
英国发展最快的在线超市之一:Click Marketplace
2021/02/15 全球购物
小学生保护环境倡议书
2014/05/15 职场文书
三好学生先进事迹材料
2014/08/28 职场文书
2015年个人实习工作总结
2014/12/12 职场文书
表彰大会新闻稿
2015/07/17 职场文书
医院保洁员管理制度
2015/08/05 职场文书
详解Flask开发技巧之异常处理
2021/06/15 Python
直播实况, OMG破敌三路五十分钟大战神技局摩托车
2022/04/01 DOTA