编程 Python

多线程爬虫批量下载pcgame图片url 保存为xml的实现代码

Posted in Python onJanuary 17, 2013

#coding=gbk
from xml.dom import minidom,Node
import urllib2,re,os
def readsrc(src):
    try:
        url = urllib2.urlopen(src)
        content = url.read()#.decode('utf-8')
        return content
    except:
        print 'error'
        return None
def pictype(content):
    '''
    通过抓取网站导航栏，获得网站的图片类型
    返回列表，每个列表元素为一个字典，addr代表图片类型对于的链接，name代表图片类型的名称
    错误会返回None
    '''
    p = re.compile(r'<ul>(.*)</ul>',re.S)
    r=p.search(content)
    if r:
        content=r.group()
    else:
        print None
    p = re.compile(r'<li\s*.*?>\s*<a href *= *"(?P<addr>.*?)">(?P<name>.*?)\s*</a>\s*</li>')
    l = [i.groupdict() for i in p.finditer(content)]
    l=l[1:]
    if len(l):return l
    else:return None
def pageinfo(src):
    '''
    获取一个页面的详细信息
    返回对于的字典列表
    name:图片的名字
    cutaddr：缩小的浏览图
    picaddr：实际图片的地址
    '''
    d=os.path.split(src)[0]
    try:
        url = urllib2.urlopen(src)
        content = url.read()#.decode('utf-8')
    except:
        print 'error'
        return None
    #find all the pictures info in a page
    p = re.compile(r'<ul.*?>(.*?)</ul>',re.S)
    r = p.findall(content)
    if not r: return None
    r = r[1]
    p = re.compile(r'<li><a href="(?P<picaddr>.*?)".*?><img.*?alt="(?P<name>.*?)" *src="(?P<cutaddr>.*?)" */></a>.*?</li>')
    l = [ i.groupdict() for i in p.finditer(r)]
    for i in l:
        i['picaddr']=d+'/'+i['picaddr']
    if len(l): return l
    else: return None
def nextpageaddr(src):
    '''
    从页面的html源码中获取下一个页面地址的名称，最后一页返回None
    '''
    content=readsrc(src)
    p = re.compile(r'<a class="next" href="(.*?)">.*?</a>')
    r = p.search(content)
    if r:
        return os.path.dirname(src)+"/"+r.group(1)
    else:
        return None
def picinfoaddr(src):
    '''
    参数相册图集的html代码
    返回全部图片的相对地址
    '''
    content=readsrc(src)
    p = re.compile(r'<div class="picinfo">.*?<a href="(?P<addr>.*?)".*?>.*?</div>',re.S)
    r = p.search(content)
    if r:
        return os.path.dirname(src)+"/"+r.group(1)
    else:
        return None
def parseinfo(content):
    '''
    读取全部图片html代码，获得一个相册的详细信息
    kw：关键字
    title：标题
    type：类型
    pic：各个图片的地址列表，末尾加上_220x165，_medium,_small 可以得到不同大小的图片
    '''
    info={}
    temp=str()
    #title
    temp=''
    r=re.search('<h1>(.*?)</h1>',content)#get the pic title
    if r:
        temp = r.group(1)
    info['title']=temp
    #keyword
    temp=''
    r=re.search('<meta name="keywords" content="(.*?)" />',content)
    if r:
        temp = r.group(1)
    info['kw']=temp
    #type
    r=re.findall('<i><a.*?>(.*?)</a></i>.*?>',content)
    if r:
        info['type']=':'.join(r)
    else:
        info['type']=''
    r=re.search('<ul class=".*?">(.*?)</ul>',content,re.S)
    if not r:return None
    content=r.group(1)#filter content
#    print content
    r=re.findall('<a href=".*?<img.*?src="(.*?)".*?</a>',content)
    for index,i in enumerate(r):
        r[index]=i[0:i.rfind('_')]
#        print r[index]
    info['pic']=r
    return info
import threading
class mthread(threading.Thread):
    def __init__(self,tp,addr,lock):
        threading.Thread.__init__(self)
#        self.doc = minidom.Document()
        self.doc=minidom.Document()
        self.tp=tp
        self.lock=lock
        self.addr=addr
        self.thread_stop=False
        self.picdoc=None
    def run(self):
        self.picdoc = self.doc.createElement('urlclass')
#        print self.tp
        self.picdoc.setAttribute('type',self.tp)
#        self.doc.appendChild(self.picdoc)
        m=pageinfo(self.addr)
        while self.addr:
            for i in m:
#                print i['picaddr']
                picaddr=picinfoaddr(i['picaddr'])
#                print picaddr
                info=parseinfo(readsrc(picaddr))
                name=info['title']

                picture=doc.createElement('picture')
                title = doc.createElement('title')
                title.appendChild(doc.createTextNode(info['title']))
                picture.appendChild(title)
                keyword = doc.createElement('keywords')
                keyword.appendChild(doc.createTextNode(info['kw']))
                picture.appendChild(keyword)
                tp = doc.createElement('pictype')
                tp.appendChild(doc.createTextNode(info['type']))
                picture.appendChild(tp)
                cuturl = doc.createElement('piccut')
                cuturl.appendChild(doc.createTextNode(i['cutaddr']))
                picture.appendChild(cuturl)
                urls = doc.createElement('urls')
                self.lock.acquire()
                print 'downloading ',name
                self.lock.release()
                for picurl in info['pic']:
                    singleurl=doc.createElement('url')
                    singleurl.appendChild(doc.createTextNode(picurl+'.jpg'))
                    urls.appendChild(singleurl)
                picture.appendChild(urls)
                self.picdoc.appendChild(picture)
            m=pageinfo(self.addr)
            self.addr=nextpageaddr(self.addr)
#        f = open('c:\\'+self.tp+'.xml','w')
#        f.write(doc.toprettyxml(indent = ''))
#        f.close()
    def stop(self):
        self.thread_stop=True

path='C:\\pict\\'#下载的路径
#import sys
sys.exit(12)
content=readsrc('http://photos.pcgames.com.cn/cate/3/1.html')
r=pictype(content)
lt=[]
doc = minidom.Document()
root=doc.createElement('url_resource')
root.setAttribute('type','url')
root.setAttribute('urltype','image')
root.setAttribute('imgfmt','jpg')
doc.appendChild(root)
lock=threading.RLock()
for iaddr in r:
    print 'downloading type: ',iaddr['name']
    addr=iaddr['addr']
    th=mthread(iaddr['name'],addr,lock)
    lt.append(th)
    th.start()
for t in lt:
    t.join()
    root.appendChild(t.picdoc)
print 'write'
f = open('c:\\'+'urls'+'.xml','w')
f.write(doc.toprettyxml(indent = ''))
f.close()
print doc.toprettyxml()
print 'end'

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Python 相关文章推荐

python使用两种发邮件的方式smtp和outlook示例

Jun 02 Python

python中logging库的使用总结

Oct 18 Python

Python多继承顺序实例分析

May 26 Python

python中pika模块问题的深入探究

Oct 13 Python

python进程和线程用法知识点总结

May 28 Python

django的ORM操作增加和查询

Jul 26 Python

下载官网python并安装的步骤详解

Oct 12 Python

浅谈Python中的继承

Jun 19 Python

Python异常处理机制结构实例解析

Jul 23 Python

Python join()函数原理及使用方法

Nov 14 Python

Python Selenium异常处理的实例分析

Feb 28 Python

Python下载商品数据并连接数据库且保存数据

Mar 31 Python

Python高效编程技巧

Jan 07 #Python

Python内置函数bin() oct()等实现进制转换

Dec 30 #Python

python的id()函数解密过程

Dec 25 #Python

python cookielib 登录人人网的实现代码

Dec 19 #Python

python 多线程应用介绍

Dec 19 #Python

Python多线程学习资料

Dec 19 #Python

python搭建简易服务器分析与实现

Dec 15 #Python

You might like

PHP简单系统数据添加以及数据删除模块源文件下载

2008/06/07 PHP

纯真IP数据库的应用 IP地址转化成十进制

2009/06/14 PHP

PHP 防注入函数(格式化数据)

2011/08/08 PHP

ThinkPHP 防止表单重复提交的方法

2011/08/08 PHP

PHP中函数gzuncompress无法使用的解决方法

2017/03/02 PHP

Laravel学习教程之本地化模块

2017/08/18 PHP

php单元测试phpunit入门实例教程

2017/11/17 PHP

打开新窗口关闭当前页面不弹出关闭提示js代码

2013/03/18 Javascript

Javascript实现视频轮播在pc端与移动端均可

2013/09/29 Javascript

js截取中英文字符串、标点符号无乱码示例解读

2014/04/17 Javascript

js获取内联样式的方法

2015/01/27 Javascript

EasyUI中实现form表单提交的示例分享

2015/03/01 Javascript

JavaScript获取服务器时间的方法详解

2016/12/11 Javascript

微信小程序授权登录及解密unionId出错的方法

2018/09/26 Javascript

js+canvas实现两张图片合并成一张图片的方法

2019/11/01 Javascript

JS script脚本中async和defer区别详解

2020/06/24 Javascript

[57:53]Secret vs Pain 2018国际邀请赛小组赛BO2 第二场 8.17

2018/08/20 DOTA

python判断字符串是否纯数字的方法

2014/11/19 Python

使用Python实现下载网易云音乐的高清MV

2015/03/16 Python

Python实现账号密码输错三次即锁定功能简单示例

2019/03/29 Python

解决Django生产环境无法加载静态文件问题的解决

2019/04/23 Python

Python 实现遥感影像波段组合的示例代码

2019/08/04 Python

Python如何使用PIL Image制作GIF图片

2020/05/16 Python

Pycharm2020.1安装无法启动问题即设置中文插件的方法

2020/08/07 Python

美国便宜的横幅和标志印刷在线：Best of Signs

2019/05/29 全球购物

爱尔兰旅游网站：ebookers.ie

2020/01/24 全球购物

英国豪华家具和家居用品购物网站：Teddy Beau

2020/10/12 全球购物

《大江保卫战》教学反思

2014/04/11 职场文书

社保转移委托书范本

2014/10/08 职场文书

2014年财务经理工作总结

2014/12/08 职场文书

2015年医院护理部工作总结

2015/04/23 职场文书

工程竣工验收申请报告

2015/05/15 职场文书

七年级作文之冬景

2019/11/07 职场文书

用Python爬取英雄联盟的皮肤详细示例

2021/12/06 Python

vue如何使用模拟的json数据查看效果

2022/03/31 Vue.js

Windows Server 版本 20H2 于 8 月 9 日停止支持，Win10 版本 21H1 将于 12 月结束支

2022/07/23 数码科技