编程 Python

python获取代理IP的实例分享

Posted in Python onMay 07, 2018

平时当我们需要爬取一些我们需要的数据时，总是有些网站禁止同一IP重复访问，这时候我们就应该使用代理IP，每次访问前伪装自己，让“敌人”无法察觉。

oooooooooooooooOK，让我们愉快的开始吧！

这个是获取代理ip的文件，我将它们模块化，分为三个函数

注：文中会有些英文注释，是为了写代码方便，毕竟英文一两个单词就ok了

#!/usr/bin/python
#-*- coding:utf-8 -*-
"""
author:dasuda
"""
import urllib2
import re
import socket
import threading
findIP = [] #获取的原始IP数据
IP_data = [] #拼接端口后的IP数据
IP_data_checked = [] #检查可用性后的IP数据
findPORT = [] #IP对应的端口
available_table = [] #可用IP的索引
def getIP(url_target):
 patternIP = re.compile(r'(?<=<td>)[\d]{1,3}\.[\d]{1,3}\.[\d]{1,3}\.[\d]{1,3}')
 patternPORT = re.compile(r'(?<=<td>)[\d]{2,5}(?=</td>)')
 print "now,start to refresh proxy IP..."
 for page in range(1,4):
  url = 'http://www.xicidaili.com/nn/'+str(page)
  headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64)"}
  request = urllib2.Request(url=url, headers=headers)
  response = urllib2.urlopen(request)
  content = response.read()
  findIP = re.findall(patternIP,str(content))
  findPORT = re.findall(patternPORT,str(content))
  #assemble the ip and port
  for i in range(len(findIP)):
   findIP[i] = findIP[i] + ":" + findPORT[i]
   IP_data.extend(findIP)
  print('get page', page)
 print "refresh done!!!"
 #use multithreading
 mul_thread_check(url_target)
 return IP_data_checked
def check_one(url_check,i):
 #get lock
 lock = threading.Lock()
 #setting timeout
 socket.setdefaulttimeout(8)
 try:
  ppp = {"http":IP_data[i]}
  proxy_support = urllib2.ProxyHandler(ppp)
  openercheck = urllib2.build_opener(proxy_support)
  urllib2.install_opener(openercheck)
  request = urllib2.Request(url_check)
  request.add_header('User-Agent',"Mozilla/5.0 (Windows NT 10.0; WOW64)")
  html = urllib2.urlopen(request).read()
  lock.acquire()
  print(IP_data[i],'is OK')
  #get available ip index
  available_table.append(i)
  lock.release()
 except Exception as e:
  lock.acquire()
  print('error')
  lock.release()
def mul_thread_check(url_mul_check):
 threads = []
 for i in range(len(IP_data)):
  #creat thread...
  thread = threading.Thread(target=check_one, args=[url_mul_check,i,])
  threads.append(thread)
  thread.start()
  print "new thread start",i
 for thread in threads:
  thread.join()
 #get the IP_data_checked[]
 for error_cnt in range(len(available_table)):
  aseemble_ip = {'http': IP_data[available_table[error_cnt]]}
  IP_data_checked.append(aseemble_ip)
 print "available proxy ip:",len(available_table)

一、getIP(url_target):主要函数传入参数是：验证代理IP可用性的网址，推荐ipchina

获取代理IP，从http://www.xicidaili.com/nn/网站获取，它是一个提供免费代理IP的网站，但是里面的IP不是全都能用，而且结合你的实际地理位置、网络情况、访问的目标服务器等情况，能用的大概不到20%，至少我的情况是这样。

访问http://www.xicidaili.com/nn/网站使用正常方式，返回的网页内容通过正则查询获得需要的IP和对应端口，代码如下：

patternIP = re.compile(r'(?<=<td>)[\d]{1,3}\.[\d]{1,3}\.[\d]{1,3}\.[\d]{1,3}')
patternPORT = re.compile(r'(?<=<td>)[\d]{2,5}(?=</td>)')
...
findIP = re.findall(patternIP,str(content))
findPORT = re.findall(patternPORT,str(content))

关于如何构造正则表达式，可以参考其他的文章：

获取的IP保存在findIP中，对应的端口在findPORT中，两者按索引对应，获取一页IP正常数量为100.

接下来进行IP和端口拼接

最后进行可用性检查

二、check_one(url_check,i):线程函数

本次访问url_check还是使用正常方式访问，当访问网页有返回时，则说明本代理IP可用，则记录下当前索引值，用于后面将所有可用IP取出。

三、mul_thread_check(url_mul_check):多线程生成

本函数开启多线程检查代理IP可用性，每个IP开启一个线程进行检查。

本工程直接调用getIP(),并传入用于检查可用性的网址，即可返回一个列表，里面是经可用性检查的ip列表，格式为

['ip1:port1','ip2:port2',....]

以上这篇python获取代理IP的实例分享就是小编分享给大家的全部内容了，希望能给大家一个参考，也希望大家多多支持三水点靠木。

python获取代理IP的实例分享

- Author -

HelloHaibo

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Python 相关文章推荐

Python出现segfault错误解决方法

Apr 16 Python

使用Python的Flask框架表单插件Flask-WTF实现Web登录验证

Jul 12 Python

Python实现读取SQLServer数据并插入到MongoDB数据库的方法示例

Jun 09 Python

修复 Django migration 时遇到的问题解决

Jun 14 Python

python3+requests接口自动化session操作方法

Oct 13 Python

Flask核心机制之上下文源码剖析

Dec 25 Python

Python中numpy模块常见用法demo实例小结

Mar 16 Python

实例详解python函数的对象、函数嵌套、名称空间和作用域

May 31 Python

python3下载抖音视频的完整代码

Jun 05 Python

Django+Uwsgi+Nginx如何实现生产环境部署

Jul 31 Python

Python3.9.1中使用split()的处理方法(推荐)

Feb 07 Python

python读取并查看npz/npy文件数据以及数据显示方法

Apr 14 Python

对python使用http、https代理的实例讲解

May 07 #Python

python3 requests中使用ip代理池随机生成ip的实例

May 07 #Python

python使用代理ip访问网站的实例

May 07 #Python

一些Centos Python 生产环境的部署命令(推荐)

May 07 #Python

Python实现爬虫设置代理IP和伪装成浏览器的方法分享

May 07 #Python

Pyspider中给爬虫伪造随机请求头的实例

May 07 #Python

python通过伪装头部数据抵抗反爬虫的实例

May 07 #Python

You might like

php生成随机密码的几种方法

2011/01/17 PHP

解决文件名解压后乱码的问题将文件名进行转码的代码

2012/01/10 PHP

PHP排序算法之简单选择排序(Simple Selection Sort)实例分析

2018/04/20 PHP

为Plesk PHP7启用Oracle OCI8扩展方法总结

2019/03/29 PHP

gearman中任务的优先级和返回状态实例分析

2020/02/27 PHP

基于jquery封装的一个js分页

2011/11/15 Javascript

javascript事件函数中获得事件源的两种不错方法

2014/03/17 Javascript

jquery获取html元素的绝对位置和相对位置的方法

2014/06/20 Javascript

理解javascript中的回调函数(callback)

2014/09/02 Javascript

Javascript学习笔记之相等符号与严格相等符号

2014/11/23 Javascript

JavaScript中函数表达式和函数声明及函数声明与函数表达式的不同

2015/11/15 Javascript

深入探究AngularJs之$scope对象（作用域）

2017/07/20 Javascript

JS返回顶部实例代码

2020/08/09 Javascript

Vue.js组件间的循环引用方法示例

2017/12/27 Javascript

js判断文件类型大小并给出提示的实现方法

2018/01/03 Javascript

vue 注册组件的使用详解

2018/05/05 Javascript

Angular6新特性之Angular Material

2018/12/28 Javascript

深入学习TypeScript 、React、 Redux和Ant-Design的最佳实践

2019/06/17 Javascript

jQuery实现手风琴特效

2021/01/11 jQuery

[32:07]完美世界DOTA2联赛PWL S3 LBZS vs Rebirth 第一场 12.16

2020/12/17 DOTA

解读! Python在人工智能中的作用

2017/11/14 Python

Python解析命令行读取参数之argparse模块

2019/07/26 Python

python数据归一化及三种方法详解

2019/08/06 Python

Python中bisect的用法及示例详解

2020/07/20 Python

HTML5 canvas画矩形时出现边框样式不一致的解决方法

2013/10/14 HTML / CSS

解析HTML5中的新功能本地存储localStorage

2016/03/01 HTML / CSS

瑞典首都斯德哥尔摩的多元奢侈时尚品牌：Acne Studios

2017/07/09 全球购物

阿姆斯特丹杜莎夫人蜡像馆官方网站：Madame Tussauds Amsterdam

2019/03/12 全球购物

澳大利亚波西米亚风连衣裙在线商店：Fortunate One

2019/04/01 全球购物

Linux如何修改文件和文件夹的权限

2012/06/27 面试题

上班睡觉检讨书

2014/01/09 职场文书

《秋游》教学反思

2014/04/24 职场文书

美术专业自荐信

2014/07/07 职场文书

党政领导班子群众路线对照检查材料

2014/10/26 职场文书

优化经济发展环境工作总结

2015/08/11 职场文书

安装配置mysql及Navicat prenium的详细流程

2021/06/10 MySQL