python 爬虫 批量获取代理ip的实例代码


Posted in Python onMay 22, 2018

实例如下所示:

import urllib.request
import os, re,sys,time
try:
 from StringIO import StringIO
except ImportError:
 from io import StringIO
loca = re.compile(r"""ion":"\D+", "ti""")
#伪装成浏览器
header = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/44.0.2403.157 Safari/537.36'}
class Getip():
 def __init__(self,diqu):
  self.ur ={"xicidaili国内普通代理 --1线":"http://www.xicidaili.com/nt/",
        
    "ip84国内普通代理 --2线":'http://www.ip84.com/dlpn-http/',
        
    'xicidaili国内高匿名代理 --1线':'http://www.xicidaili.com/nn/',
       
    'ip84国内高匿名代理 --2线':'http://www.ip84.com/dlgn-http/',
    
    'xicidaili国外高匿名代理 --1线':'http://www.xicidaili.com/wn/',
    
    'ip84国外高匿名代理 --2线':'http://www.ip84.com/gwgn-http/',
    'xicidaili国外普通代理 --1线':'http://www.xicidaili.com/wt/',
    'haodailiip国内混合代理 --3线':'http://www.haodailiip.com/guonei/',
    'haodailiip国外混合代理 --3线':'http://www.haodailiip.com/guoji/',
        }
  self.diqu = diqu
 
 def urlopen(self,url):
  global header
  try:
   req = urllib.request.Request(url, None, header)
   res=urllib.request.urlopen(req)
  
   return res
  except:
   pass
 def getip(self,ren):
  '''url = "http://proxy.ipcn.org/proxylist.html"#代理IP页面
  ip_proxy_re = re.compile(r"""\d{1,3}\.\d{1,3}\.\d{1,3}\.\d{1,3}:\d{1,}""")# 直接匹配 xxx.xxx.xxx.xxx:xxxx'''
  
  url = self.ur[self.diqu]+str(ren)
  
  ip_proxy_re = re.compile(r'(\d{1,3}\.\d{1,3}\.\d{1,3}\.\d{1,3})\s*</td>\s*<td>\s*(\d{1,})\s*</td>\s*<[^\u4E00-\u9FA5]+>([\u4E00-\u9FA5]*\s*[\u4E00-\u9FA5]*\s*[\u4E00-\u9FA5]*)\s*<')
  #################################通用正则匹配的  格式 是  (IP,端口,地区) 地区有可能包含换行和空格
  try:
   data = self.urlopen(url).read().decode('utf-8')
  except:
   return None
  
  self.rel = []
  
  ip = ip_proxy_re.findall(data)
  ##########返回的IP 就是 正则匹配的结果(IP,端口,地区) 地区有可能包含换行和空格
  
  return ip
  
if __name__ == '__main__':
 g=Getip("xicidaili国内普通代理 --1线")
 import pprint
 for x in range(4):
  ips = g.getip(1)
  print('获取到ip地址一共:',len(ips))
  pprint.pprint(ips)

以上这篇python 爬虫 批量获取代理ip的实例代码就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持三水点靠木。

Python 相关文章推荐
Python使用os模块和fileinput模块来操作文件目录
Jan 19 Python
python fabric实现远程部署
Jan 05 Python
解决python文件字符串转列表时遇到空行的问题
Jul 09 Python
Python如何实现MySQL实例初始化详解
Nov 06 Python
Python OpenCV 直方图的计算与显示的方法示例
Feb 08 Python
Python贪心算法实例小结
Apr 22 Python
flask-socketio实现WebSocket的方法
Jul 31 Python
python 制作自定义包并安装到系统目录的方法
Oct 27 Python
解决pip install xxx报错SyntaxError: invalid syntax的问题
Nov 30 Python
应用OpenCV和Python进行SIFT算法的实现详解
Aug 21 Python
Python pandas实现excel工作表合并功能详解
Aug 29 Python
python 操作hive pyhs2方式
Dec 21 Python
python 获取当天每个准点时间戳的实例
May 22 #Python
selenium+python 去除启动的黑色cmd窗口方法
May 22 #Python
python3实现163邮箱SMTP发送邮件
May 22 #Python
django请求返回不同的类型图片json,xml,html的实例
May 22 #Python
Django使用HttpResponse返回图片并显示的方法
May 22 #Python
python实现最长公共子序列
May 22 #Python
使用python存储网页上的图片实例
May 22 #Python
You might like
PHP 常见郁闷问题答解
2006/11/25 PHP
php引用传值实例详解学习
2013/11/06 PHP
推荐一款MAC OS X 下php集成开发环境mamp
2014/11/08 PHP
Laravel使用swoole实现websocket主动消息推送的方法介绍
2019/10/20 PHP
JavaScript 变量、作用域及内存
2015/04/08 Javascript
JavaScript中用于生成随机数的Math.random()方法
2015/06/15 Javascript
js实现简单的省市县三级联动效果实例
2016/02/18 Javascript
微信小程序云函数使用mysql数据库过程详解
2019/08/07 Javascript
JS实现网页端猜数字小游戏
2020/03/06 Javascript
[43:32]Winstrike vs VGJ.S 2018国际邀请赛淘汰赛BO3 第一场 8.23
2018/08/24 DOTA
python字典get()方法用法分析
2015/04/17 Python
python实现简单爬虫功能的示例
2016/10/24 Python
Python中元组,列表,字典的区别
2017/05/21 Python
Python实现的快速排序算法详解
2017/08/01 Python
python网络爬虫之如何伪装逃过反爬虫程序的方法
2017/11/23 Python
Python根据已知邻接矩阵绘制无向图操作示例
2018/06/23 Python
解决每次打开pycharm直接进入项目的问题
2018/10/28 Python
python 与服务器的共享文件夹交互方法
2018/12/27 Python
Python图像处理之颜色的定义与使用分析
2019/01/03 Python
Pytorch加载部分预训练模型的参数实例
2019/08/18 Python
python 实现list或string按指定分段
2019/12/25 Python
django rest framework serializer返回时间自动格式化方法
2020/03/31 Python
解决Keras使用GPU资源耗尽的问题
2020/06/22 Python
python实现简单猜单词游戏
2020/12/24 Python
HTML5本地存储之Database Storage应用介绍
2013/01/06 HTML / CSS
金蝶的一道SQL笔试题
2012/12/18 面试题
平面设计师的工作职责
2013/11/21 职场文书
会计应届生的自荐信
2013/12/13 职场文书
基层干部个人对照检查及整改措施
2014/10/28 职场文书
学校开除通知书
2015/04/25 职场文书
2016高一新生军训心得体会
2016/01/11 职场文书
幼儿园2016圣诞节活动总结
2016/03/31 职场文书
导游词之海南-南湾猴岛
2019/10/12 职场文书
SQL实现LeetCode(176.第二高薪水)
2021/08/04 MySQL
CSS 实现Chrome标签栏的技巧
2021/08/04 HTML / CSS
Python 数据可视化工具 Pyecharts 安装及应用
2022/04/20 Python