Python爬虫抓取代理IP并检验可用性的实例


Posted in Python onMay 07, 2018

经常写爬虫,难免会遇到ip被目标网站屏蔽的情况,银次一个ip肯定不够用,作为节约的程序猿,能不花钱就不花钱,那就自己去找吧,这次就写了下抓取 西刺代理上的ip,但是这个网站也反爬!!!

至于如何应对,我觉得可以通过增加延时试试,可能是我抓取的太频繁了,所以被封IP了。

但是,还是可以去IP巴士试试的,条条大路通罗马嘛,不能吊死在一棵树上。

不废话,上代码。

#!/usr/bin/env python
# -*- coding:utf8 -*-
import urllib2
import time
from bs4 import BeautifulSoup
import sys
reload(sys)
sys.setdefaultencoding( "utf-8" )
req_header = {'User-Agent':'Mozilla/5.0 (Windows NT 6.1) AppleWebKit/537.11 (KHTML, like Gecko) Chrome/23.0.1271.64 Safari/537.11',
 'Accept':'text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8',
 #'Accept-Language': 'en-US,en;q=0.8,zh-Hans-CN;q=0.5,zh-Hans;q=0.3',
 'Accept-Charset':'ISO-8859-1,utf-8;q=0.7,*;q=0.3',
 'Accept-Encoding':'en-us',
 'Connection':'keep-alive',
 'Referer':'http://www.baidu.com/'
 }
req_timeout = 5
testUrl = "http://www.baidu.com/"
testStr = "wahaha"
file1 = open('proxy.txt' , 'w')
# url = ""
# req = urllib2.Request(url,None,req_header)
# jsondatas = urllib2.urlopen(req,None,req_timeout).read()
cookies = urllib2.HTTPCookieProcessor()
checked_num = 0
grasp_num = 0
for page in range(1, 160):
 req = urllib2.Request('http://www.xici.net.co/nn/' + str(page), None, req_header)
 html_doc = urllib2.urlopen(req, None, req_timeout).read()
 # html_doc = urllib2.urlopen('http://www.xici.net.co/nn/' + str(page)).read()
 soup = BeautifulSoup(html_doc)
 trs = soup.find('table', id='ip_list').find_all('tr')
 for tr in trs[1:]:
  tds = tr.find_all('td')
  ip = tds[1].text.strip()
  port = tds[2].text.strip()
  protocol = tds[5].text.strip()
  if protocol == 'HTTP' or protocol == 'HTTPS':
   #of.write('%s=%s:%s\n' % (protocol, ip, port))
   print '%s=%s:%s' % (protocol, ip, port)
   grasp_num +=1
   proxyHandler = urllib2.ProxyHandler({"http": r'http://%s:%s' % (ip, port)})
   opener = urllib2.build_opener(cookies, proxyHandler)
   opener.addheaders = [('User-Agent',
         'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/31.0.1650.63 Safari/537.36')]
   t1 = time.time()
   try:
    req = opener.open(testUrl, timeout=req_timeout)
    result = req.read()
    timeused = time.time() - t1
    pos = result.find(testStr)
    if pos > 1:
     file1.write(protocol+"\t"+ip+"\t"+port+"\n")
     checked_num+=1
     print checked_num, grasp_num
    else:
     continue
   except Exception,e:
    continue
file1.close()
print checked_num,grasp_num

个人感觉代码里没有太复杂的,就没有加注释,相信大家基本可以理解,如有问题也请多批评指正,共同进步!

以上这篇Python爬虫抓取代理IP并检验可用性的实例就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持三水点靠木。

Python 相关文章推荐
用python代码做configure文件
Jul 20 Python
教大家使用Python SqlAlchemy
Feb 12 Python
Python中__init__.py文件的作用详解
Sep 18 Python
Python 爬虫图片简单实现
Jun 01 Python
使用pyecharts在jupyter notebook上绘图
Apr 23 Python
Python WXPY实现微信监控报警功能的代码
Oct 20 Python
Python3.5文件读与写操作经典实例详解
May 01 Python
Python文件操作中进行字符串替换的方法(保存到新文件/当前文件)
Jun 28 Python
python3 xpath和requests应用详解
Mar 06 Python
你应该知道的Python3.6、3.7、3.8新特性小结
May 12 Python
详解python中的三种命令行模块(sys.argv,argparse,click)
Dec 15 Python
PyCharm+Miniconda3安装配置教程详解
Feb 16 Python
Python视频爬虫实现下载头条视频功能示例
May 07 #Python
十分钟利用Python制作属于你自己的个性logo
May 07 #Python
Redis使用watch完成秒杀抢购功能的代码
May 07 #Python
Python文本统计功能之西游记用字统计操作示例
May 07 #Python
Python中的函数作用域
May 07 #Python
Php多进程实现代码
May 07 #Python
Python格式化输出%s和%d
May 07 #Python
You might like
为什么那些咖啡爱好者大多看不上连锁咖啡店?
2021/03/06 咖啡文化
在Windows中安装Apache2和PHP4的权威指南
2006/10/09 PHP
php中多维数组按指定value排序的实现代码
2014/08/19 PHP
PHP下SSL加密解密、验证、签名方法(很简单)
2020/06/28 PHP
thinkPHP5.1框架路由::get、post请求简单用法示例
2019/05/06 PHP
基于Laravel 5.2 regex验证的正确写法
2019/09/29 PHP
getComputedStyle与currentStyle获取样式(style/class)
2013/03/19 Javascript
基于JavaScript实现继承机制之构造函数方法对象冒充的使用详解
2013/05/07 Javascript
js获取页面传来参数的方法
2014/09/06 Javascript
JS 打印功能代码可实现打印预览、打印设置等
2014/10/31 Javascript
js生成验证码并直接在前端判断
2015/05/15 Javascript
JavaScript创建闭包的两种方式的优劣与区别分析
2015/06/22 Javascript
如何动态加载外部Javascript文件
2015/12/02 Javascript
理解javascript中try...catch...finally
2015/12/25 Javascript
微信小程序 出现47001 data format error原因解决办法
2017/03/10 Javascript
AngularJS对动态增加的DOM实现ng-keyup事件示例
2018/03/12 Javascript
angular 实现同步验证器跨字段验证的方法
2019/04/11 Javascript
深入解析Vue源码实例挂载与编译流程实现思路详解
2019/05/05 Javascript
有关vue 开发钉钉 H5 微应用 dd.ready() 不执行问题及快速解决方案
2020/05/09 Javascript
vue实现井字棋游戏
2020/09/29 Javascript
python基础教程之udp端口扫描
2014/02/10 Python
Python读取mp3中ID3信息的方法
2015/03/05 Python
对比Python中__getattr__和 __getattribute__获取属性的用法
2016/06/21 Python
Python中shape计算矩阵的方法示例
2017/04/21 Python
python pandas dataframe 按列或者按行合并的方法
2018/04/12 Python
python 利用文件锁单例执行脚本的方法
2019/02/19 Python
意大利独特而优质的家居用品:Fazzini
2018/12/05 全球购物
英文版区域经理求职信
2013/10/23 职场文书
十佳班主任事迹材料
2014/01/18 职场文书
关于母亲节的感言
2014/02/04 职场文书
拔河比赛口号
2014/06/10 职场文书
义和团口号
2014/06/17 职场文书
药剂专业毕业生求职信
2014/06/24 职场文书
国际贸易系求职信
2014/08/09 职场文书
一文搞懂Python Sklearn库使用
2021/08/23 Python
在Python 中将类对象序列化为JSON
2022/04/06 Python