尝试使用Python多线程抓取代理服务器IP地址的示例


Posted in Python onNovember 09, 2015

这里以抓取 http://www.proxy.com.ru 站点的代理服务器为例,代码如下:

#!/usr/bin/env python
#coding:utf-8
import urllib2
import re
import threading
import time
import MySQLdb
rawProxyList = []
checkedProxyList = []
#抓取代理网站
targets = []
for i in xrange(1,42):
  target = r"http://www.proxy.com.ru/list_%d.html" % i
  targets.append(target)
#抓取代理服务器正则
p = re.compile(r'''<tr><b><td>(\d+)</td><td>(.+?)</td><td>(\d+)</td><td>(.+?)</td><td>(.+?)</td></b></tr>''')
#获取代理的类
class ProxyGet(threading.Thread):
 def __init__(self,target):
  threading.Thread.__init__(self)
  self.target = target
 def getProxy(self):
  print "代理服务器目标网站: " + self.target
  req = urllib2.urlopen(self.target)
  result = req.read()
  #print chardet.detect(result)
  matchs = p.findall(result)
#  print matchs
  for row in matchs:
   ip=row[1]
   port =row[2]
   addr = row[4].decode("cp936").encode("utf-8")
   proxy = [ip,port,addr]
   print proxy
   rawProxyList.append(proxy)
 def run(self):
  self.getProxy()
#检验代理的类
class ProxyCheck(threading.Thread):
 def __init__(self,proxyList):
  threading.Thread.__init__(self)
  self.proxyList = proxyList
  self.timeout = 5
  self.testUrl = "http://www.baidu.com/"
  self.testStr = "030173"
 def checkProxy(self):
  cookies = urllib2.HTTPCookieProcessor()
  for proxy in self.proxyList:
   proxyHandler = urllib2.ProxyHandler({"http" : r'http://%s:%s' %(proxy[0],proxy[1])})
   #print r'http://%s:%s' %(proxy[0],proxy[1])
   opener = urllib2.build_opener(cookies,proxyHandler)
   opener.addheaders = [('User-agent', 'Mozilla/5.0 (Windows NT 6.2; WOW64; rv:22.0) Gecko/20100101 Firefox/22.0')]
   #urllib2.install_opener(opener)
   t1 = time.time()
   try:
    #req = urllib2.urlopen("http://www.baidu.com", timeout=self.timeout)
    req = opener.open(self.testUrl, timeout=self.timeout)
    #print "urlopen is ok...."
    result = req.read()
    #print "read html...."
    timeused = time.time() - t1
    pos = result.find(self.testStr)
    #print "pos is %s" %pos
    if pos > 1:
     checkedProxyList.append((proxy[0],proxy[1],proxy[2],timeused))
     #print "ok ip: %s %s %s %s" %(proxy[0],proxy[1],proxy[2],timeused)
    else:
      continue
   except Exception,e:
    #print e.message
    continue
 def run(self):
  self.checkProxy()
if __name__ == "__main__":
 getThreads = []
 checkThreads = []
#对每个目标网站开启一个线程负责抓取代理
for i in range(len(targets)):
 t = ProxyGet(targets[i])
 getThreads.append(t)
for i in range(len(getThreads)):
 getThreads[i].start()
for i in range(len(getThreads)):
 getThreads[i].join()
print '.'*10+"总共抓取了%s个代理" %len(rawProxyList) +'.'*10
#开启20个线程负责校验,将抓取到的代理分成20份,每个线程校验一份
for i in range(20):
 t = ProxyCheck(rawProxyList[((len(rawProxyList)+19)/20) * i:((len(rawProxyList)+19)/20) * (i+1)])
 checkThreads.append(t)
for i in range(len(checkThreads)):
 checkThreads[i].start()
for i in range(len(checkThreads)):
 checkThreads[i].join()
print '.'*10+"总共有%s个代理通过校验" %len(checkedProxyList) +'.'*10
#插入数据库,表结构自己创建,四个字段ip,port,speed,address
def db_insert(insert_list):
 try:
  conn = MySQLdb.connect(host="localhost", user="root", passwd="admin",db="m_common",charset='utf8')
  cursor = conn.cursor()
  cursor.execute('delete from proxy')
  cursor.execute('alter table proxy AUTO_INCREMENT=1')
  cursor.executemany("INSERT INTO proxy(ip,port,speed,address) VALUES (%s,%s,%s,%s)",insert_list)
  conn.commit()
  cursor.close()
  conn.close()
 except MySQLdb.Error,e:
  print "Mysql Error %d: %s" % (e.args[0], e.args[1])
#代理排序持久化
proxy_ok = []
f= open("proxy_list.txt",'w+')
for proxy in sorted(checkedProxyList,cmp=lambda x,y:cmp(x[3],y[3])):
 if proxy[3] < 8:
  #print "checked proxy is: %s:%s\t%s\t%s" %(proxy[0],proxy[1],proxy[2],proxy[3])
  proxy_ok.append((proxy[0],proxy[1],proxy[3],proxy[2]))
  f.write("%s:%s\t%s\t%s\n"%(proxy[0],proxy[1],proxy[2],proxy[3]))
f.close()
db_insert(proxy_ok)

测试:

python proxy.py

结果如下:

['61.58.94.179', '8088', '\xe5\x8f\xb0\xe6\xb9\xbe\xe7\x9c\x81 \xe5\x8f\xb0\xe6\xb9\xbe\xe5\xae\xbd\xe9\xa2\x91\xe9\x80\x9a\xe8\xae\xaf\xe9\xa1\xbe\xe9\x97\xae\xe8\x82\xa1\xe4\xbb\xbd\xe6\x9c\x89\xe9\x99\x90\xe5\x85\xac\xe5\x8f\xb8']
['200.84.116.99', '9064', '\xe5\xa7\x94\xe5\x86\x85\xe7\x91\x9e\xe6\x8b\x89 ']
['183.223.204.8', '8123', '\xe5\x9b\x9b\xe5\xb7\x9d\xe7\x9c\x81\xe8\x87\xaa\xe8\xb4\xa1\xe5\xb8\x82 \xe7\xa7\xbb\xe5\x8a\xa8']
..........总共抓取了1921个代理..........
..........总共有524个代理通过校验..........
# more proxy_list.txt
202.106.169.142:80  北京市 联通ADSL 0.291432857513
111.13.136.59:80  北京市 移动  0.297957897186
111.13.136.56:80  北京市 移动  0.373070955276
111.206.81.248:80  北京市 联通  0.403017997742
111.13.136.58:80  北京市 移动  0.414332151413
124.202.217.134:8118 北京市 电信通 0.416817903519
124.202.183.218:8118 北京市 电信通 0.426618099213
120.132.71.232:80  北京市 联通  0.440200090408
61.232.6.164:8081  北京市 铁通  0.469615936279
118.144.96.253:80  北京市 电信通 0.485229969025
203.192.10.66:80  北京市 新华社 0.51485991478
124.202.182.22:8118  北京市 电信通 0.553130865097

数据库:

mysql> select * from m_common.proxy limit 10;
+----------+-----------------+------+----------+----------------------+---------------------+
| proxy_id | ip    | port | speed | address    | create_time   |
+----------+-----------------+------+----------+----------------------+---------------------+
|  1 | 202.106.169.142 | 80 | 0.291433 | 北京市 联通ADSL  | 2015-02-26 11:29:24 |
|  2 | 111.13.136.59 | 80 | 0.297958 | 北京市 移动   | 2015-02-26 11:29:24 |
|  3 | 111.13.136.56 | 80 | 0.373071 | 北京市 移动   | 2015-02-26 11:29:24 |
|  4 | 111.206.81.248 | 80 | 0.403018 | 北京市 联通   | 2015-02-26 11:29:24 |
|  5 | 111.13.136.58 | 80 | 0.414332 | 北京市 移动   | 2015-02-26 11:29:24 |
|  6 | 124.202.217.134 | 8118 | 0.416818 | 北京市 电信通  | 2015-02-26 11:29:24 |
|  7 | 124.202.183.218 | 8118 | 0.426618 | 北京市 电信通  | 2015-02-26 11:29:24 |
|  8 | 120.132.71.232 | 80 | 0.4402 | 北京市 联通   | 2015-02-26 11:29:24 |
|  9 | 61.232.6.164 | 8081 | 0.469616 | 北京市 铁通   | 2015-02-26 11:29:24 |
|  10 | 118.144.96.253 | 80 | 0.48523 | 北京市 电信通  | 2015-02-26 11:29:24 |
+----------+-----------------+------+----------+----------------------+---------------------+
10 rows in set (0.00 sec)
Python 相关文章推荐
跟老齐学Python之画圈还不简单吗?
Sep 20 Python
理解生产者消费者模型及在Python编程中的运用实例
Jun 26 Python
python2.7读取文件夹下所有文件名称及内容的方法
Feb 24 Python
django富文本编辑器的实现示例
Apr 10 Python
详解Python list和numpy array的存储和读取方法
Nov 06 Python
python selenium实现发送带附件的邮件代码实例
Dec 10 Python
python pprint模块中print()和pprint()两者的区别
Feb 10 Python
Python3爬虫中关于Ajax分析方法的总结
Jul 10 Python
python3 循环读取excel文件并写入json操作
Jul 14 Python
python为什么要安装到c盘
Jul 20 Python
Python程序慢的重要原因
Sep 04 Python
python百行代码实现汉服圈图片爬取
Nov 23 Python
使用Python实现BT种子和磁力链接的相互转换
Nov 09 #Python
Python中MySQLdb和torndb模块对MySQL的断连问题处理
Nov 09 #Python
使用Python对IP进行转换的一些操作技巧小结
Nov 09 #Python
Python实现模拟时钟代码推荐
Nov 08 #Python
用Python的Flask框架结合MySQL写一个内存监控程序
Nov 07 #Python
Python的Flask框架中SQLAlchemy使用时的乱码问题解决
Nov 07 #Python
举例讲解Linux系统下Python调用系统Shell的方法
Nov 07 #Python
You might like
解析Linux下Varnish缓存的配置优化
2013/06/20 PHP
php检查函数必传参数是否存在的实例详解
2017/08/28 PHP
childNodes.length与children.length的区别
2009/05/14 Javascript
JavaScript CSS修改学习第二章 样式
2010/02/19 Javascript
JavaScript的类型简单说明
2010/09/03 Javascript
基于JQuery的一个简单的鼠标跟随提示效果
2010/09/23 Javascript
jQuery分组选择器用法实例
2014/12/23 Javascript
JS实现选项卡实例详解
2015/11/17 Javascript
AngularJS控制器controller正确的通信的方法
2016/01/25 Javascript
JavaScript快速切换繁体中文和简体中文的方法及网站支持简繁体切换的绝招
2016/03/07 Javascript
jQuery ajax应用总结
2016/06/02 Javascript
详谈js遍历集合(Array,Map,Set)
2017/04/06 Javascript
浅谈js获取ModelAndView值的问题
2018/03/28 Javascript
解决vue中监听input只能输入数字及英文或者其他情况的问题
2018/08/30 Javascript
深入理解JavaScript的值传递和引用传递
2018/10/24 Javascript
Fundebug支持监控微信小程序HTTP请求错误的方法
2019/02/21 Javascript
JS实现简易计算器
2020/02/14 Javascript
javascript 函数的暂停和恢复实例详解
2020/04/25 Javascript
js实现tab栏切换效果
2020/08/02 Javascript
解决vue props传Array/Object类型值,子组件报错的情况
2020/11/07 Javascript
Python的Flask框架中@app.route的用法教程
2015/03/31 Python
Python 变量类型详解
2018/10/10 Python
python爬虫获取小区经纬度以及结构化地址
2018/12/30 Python
Tensorflow实现酸奶销量预测分析
2019/07/19 Python
python Pandas如何对数据集随机抽样
2019/07/29 Python
python PyQt5/Pyside2 按钮右击菜单实例代码
2019/08/17 Python
python实现按键精灵找色点击功能教程,使用pywin32和Pillow库
2020/06/04 Python
python 实现一个简单的线性回归案例
2020/12/17 Python
html5使用html2canvas实现浏览器截图的示例
2017/08/31 HTML / CSS
高中化学教学反思
2014/01/13 职场文书
工作态度不端正检讨书
2014/10/04 职场文书
党的群众路线教育实践活动个人对照检查材料(企业)
2014/11/05 职场文书
大四学生个人总结
2015/02/15 职场文书
2015年机关党建工作总结
2015/05/22 职场文书
小学一年级数学教学反思
2016/02/16 职场文书
游戏《我的世界》澄清Xbox版暂无计划加入光追
2022/04/03 其他游戏