python 爬虫 批量获取代理ip的实例代码


Posted in Python onMay 22, 2018

实例如下所示:

import urllib.request
import os, re,sys,time
try:
 from StringIO import StringIO
except ImportError:
 from io import StringIO
loca = re.compile(r"""ion":"\D+", "ti""")
#伪装成浏览器
header = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/44.0.2403.157 Safari/537.36'}
class Getip():
 def __init__(self,diqu):
  self.ur ={"xicidaili国内普通代理 --1线":"http://www.xicidaili.com/nt/",
        
    "ip84国内普通代理 --2线":'http://www.ip84.com/dlpn-http/',
        
    'xicidaili国内高匿名代理 --1线':'http://www.xicidaili.com/nn/',
       
    'ip84国内高匿名代理 --2线':'http://www.ip84.com/dlgn-http/',
    
    'xicidaili国外高匿名代理 --1线':'http://www.xicidaili.com/wn/',
    
    'ip84国外高匿名代理 --2线':'http://www.ip84.com/gwgn-http/',
    'xicidaili国外普通代理 --1线':'http://www.xicidaili.com/wt/',
    'haodailiip国内混合代理 --3线':'http://www.haodailiip.com/guonei/',
    'haodailiip国外混合代理 --3线':'http://www.haodailiip.com/guoji/',
        }
  self.diqu = diqu
 
 def urlopen(self,url):
  global header
  try:
   req = urllib.request.Request(url, None, header)
   res=urllib.request.urlopen(req)
  
   return res
  except:
   pass
 def getip(self,ren):
  '''url = "http://proxy.ipcn.org/proxylist.html"#代理IP页面
  ip_proxy_re = re.compile(r"""\d{1,3}\.\d{1,3}\.\d{1,3}\.\d{1,3}:\d{1,}""")# 直接匹配 xxx.xxx.xxx.xxx:xxxx'''
  
  url = self.ur[self.diqu]+str(ren)
  
  ip_proxy_re = re.compile(r'(\d{1,3}\.\d{1,3}\.\d{1,3}\.\d{1,3})\s*</td>\s*<td>\s*(\d{1,})\s*</td>\s*<[^\u4E00-\u9FA5]+>([\u4E00-\u9FA5]*\s*[\u4E00-\u9FA5]*\s*[\u4E00-\u9FA5]*)\s*<')
  #################################通用正则匹配的  格式 是  (IP,端口,地区) 地区有可能包含换行和空格
  try:
   data = self.urlopen(url).read().decode('utf-8')
  except:
   return None
  
  self.rel = []
  
  ip = ip_proxy_re.findall(data)
  ##########返回的IP 就是 正则匹配的结果(IP,端口,地区) 地区有可能包含换行和空格
  
  return ip
  
if __name__ == '__main__':
 g=Getip("xicidaili国内普通代理 --1线")
 import pprint
 for x in range(4):
  ips = g.getip(1)
  print('获取到ip地址一共:',len(ips))
  pprint.pprint(ips)

以上这篇python 爬虫 批量获取代理ip的实例代码就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持三水点靠木。

Python 相关文章推荐
Python实现的几个常用排序算法实例
Jun 16 Python
python3实现短网址和数字相互转换的方法
Apr 28 Python
[原创]使用豆瓣提供的国内pypi源
Jul 02 Python
Python之列表的插入&amp;替换修改方法
Jun 28 Python
详解python while 函数及while和for的区别
Sep 07 Python
树莓派+摄像头实现对移动物体的检测
Jun 22 Python
python正则表达式匹配不包含某几个字符的字符串方法
Jul 23 Python
python elasticsearch从创建索引到写入数据的全过程
Aug 04 Python
python3 pathlib库Path类方法总结
Dec 26 Python
Python如何通过Flask-Mail发送电子邮件
Jan 29 Python
python使用html2text库实现从HTML转markdown的方法详解
Feb 21 Python
pytorch分类模型绘制混淆矩阵以及可视化详解
Apr 07 Python
python 获取当天每个准点时间戳的实例
May 22 #Python
selenium+python 去除启动的黑色cmd窗口方法
May 22 #Python
python3实现163邮箱SMTP发送邮件
May 22 #Python
django请求返回不同的类型图片json,xml,html的实例
May 22 #Python
Django使用HttpResponse返回图片并显示的方法
May 22 #Python
python实现最长公共子序列
May 22 #Python
使用python存储网页上的图片实例
May 22 #Python
You might like
PHP下通过file_get_contents的代理使用方法
2011/02/16 PHP
php 求质素(素数) 的实现代码
2011/04/12 PHP
php实现图片缩略图的方法
2016/03/29 PHP
浅谈PHP面向对象之访问者模式+组合模式
2017/05/22 PHP
php检测mysql表是否存在的方法小结
2017/07/20 PHP
Laravel 的数据库迁移的方法
2017/07/31 PHP
jQuery EasyUI API 中文文档 - Tabs标签页/选项卡
2011/10/01 Javascript
用jquery写的一个万年历(自写)
2014/01/20 Javascript
jQuery修改CSS伪元素属性的方法
2014/07/30 Javascript
JavaScript实现文字跟随鼠标特效
2015/08/06 Javascript
jQuery+css实现的时钟效果(兼容各浏览器)
2016/01/27 Javascript
JavaScript 中有关数组对象的方法(详解)
2016/08/15 Javascript
深入理解vue.js中$watch的oldvalue与newValue
2017/08/07 Javascript
微信小程序出现wx.navigateTo页面不跳转问题的解决方法
2017/12/26 Javascript
Vue.js自定义指令学习使用详解
2019/10/19 Javascript
Jquery使用each函数实现遍历及数组处理
2020/07/14 jQuery
addEventListener()和removeEventListener()追加事件和删除追加事件
2020/12/04 Javascript
Python之web模板应用
2017/12/26 Python
Python socket模块实现的udp通信功能示例
2019/04/10 Python
pandas数据处理进阶详解
2019/10/11 Python
Python中常用的高阶函数实例详解
2020/02/21 Python
Python实现自动访问网页的例子
2020/02/21 Python
解决Jupyter Notebook开始菜单栏Anaconda下消失的问题
2020/04/13 Python
周年庆促销方案
2014/03/15 职场文书
幼儿园中班区域活动总结
2014/07/09 职场文书
秋季运动会广播稿(30篇)
2014/09/13 职场文书
医德考评自我评价
2014/09/14 职场文书
在教室放鞭炮的检讨书
2014/09/28 职场文书
酒店辞职信怎么写
2015/02/27 职场文书
杨善洲电影观后感
2015/06/04 职场文书
环保宣传语大全
2015/07/13 职场文书
新手开公司创业注意事项有哪些?
2019/07/29 职场文书
html2 canvas svg不能识别的解决方案
2021/06/03 HTML / CSS
JavaScript原型链详解
2021/11/07 Javascript
Java练习之潜艇小游戏的实现
2022/03/16 Java/Android
在python中读取和写入CSV文件详情
2022/06/28 Python