python制作最美应用的爬虫


Posted in Python onOctober 28, 2015

安卓最美应用页面爬虫,爬虫很简单,设计的东西到挺多的
文件操作
正则表达式
字符串替换等等

import requests
import re
url = "http://zuimeia.com"
r = requests.get('http://zuimeia.com/community/app/hot/?platform=2')
pattern = re.compile(r'<a class="community-app-cover-wrapper" href="(.*?)" target="_blank">')
urlList = pattern.findall(r.content)

def requestsUrl(url):
 r = requests.get(url)
 title = re.findall(r'"app-title"><h1>(.*?)</h1>',r.content)
 #print title
 category = re.findall(r'<a class="app-tag" href="/community/app/category/title/.*?/?platform=2">(.*?)</a>',r.content)
 #print category

 describe = re.findall(r'<div id="article_content">(.*?)<div class="community-image-wrapper">',r.content)
 #print type(describe[0])
 strdescribe = srtReplace(describe[0])
 #print strdescribe

 downloadUrl = re.findall(r'<a class="download-button direct hidden" href="(.*?)"',r.content)
 #print downloadUrl

 return title,category,strdescribe,downloadUrl

def srtReplace(string):
 listReplace = ['<p>', '<br>', '<h1>', '<h2>', '<h3>', '<h4>', '<h5>', '<h6>', '<h7>','<strong>','</p>', '<br/>', '</h1>', '</h2>', '</h3>', '</h4>', '</h5>',
     '</h6>', '</h7>','</strong>','<b>', '</b>']
 for eachListReplace in listReplace:
  string = string.replace(str(eachListReplace),'\n')

 string = string.replace('\n\n','')
 return string

def categornFinal(category):
 categoryFinal =''
 for eachCategory in category:
  categoryFinal = categoryFinal+str(eachCategory)+'-->'
 return categoryFinal

def urlReplace(url):
 url = url.replace('&', '&')
 return url

requestsUrl("http://zuimeia.com/community/app/27369/?platform=2")
for eachUrl in urlList:
 eachUrl = url+eachUrl
 content = requestsUrl(eachUrl)
 categoryFinal =''

 title = content[0][0]
 category = categornFinal(content[1])
 strdescribe = content[2]
 downloadUrl = urlReplace(content[3][0])

 with open('c:/wqa.txt', 'a+') as fd:
  fd.write('title:'+title+'\n'+'category:'+category+'\n'+'strdescribe:'+strdescribe+'\n'+'downloadUrl:'+downloadUrl+'\n\n\n-----------------------------------------------------------------------------------------------------------------------------\n\n\n')
Python 相关文章推荐
详解Python中内置的NotImplemented类型的用法
Mar 31 Python
python实现class对象转换成json/字典的方法
Mar 11 Python
Python判断文本中消息重复次数的方法
Apr 27 Python
python 以16进制打印输出的方法
Jul 09 Python
python 去除二维数组/二维列表中的重复行方法
Jan 23 Python
Django的Modelforms用法简介
Jul 27 Python
Django项目使用ckeditor详解(不使用admin)
Dec 17 Python
python中的subprocess.Popen()使用详解
Dec 25 Python
Python调用Windows API函数编写录音机和音乐播放器功能
Jan 05 Python
python 对象真假值的实例(哪些视为False)
Dec 11 Python
scrapy实践之翻页爬取的实现
Jan 05 Python
windows安装python超详细图文教程
May 21 Python
python使用wmi模块获取windows下的系统信息 监控系统
Oct 27 #Python
详解JavaScript编程中的window与window.screen对象
Oct 26 #Python
深入讲解Python中的迭代器和生成器
Oct 26 #Python
Windows下使Python2.x版本的解释器与3.x共存的方法
Oct 25 #Python
解析Python编程中的包结构
Oct 25 #Python
Python实现获取域名所用服务器的真实IP
Oct 25 #Python
Python制作爬虫采集小说
Oct 25 #Python
You might like
phpMyAdmin链接MySql错误 个人解决方案
2009/12/28 PHP
php 随机记录mysql rand()造成CPU 100%的解决办法
2010/05/18 PHP
php array_values 返回数组的值实例详解
2016/11/17 PHP
PHP使用ActiveMQ实现消息队列的方法详解
2019/05/31 PHP
PDO实现学生管理系统
2020/03/21 PHP
用js 让图片在 div或dl里 居中,底部对齐
2008/01/21 Javascript
说说JSON和JSONP 也许你会豁然开朗
2012/09/02 Javascript
JavaScript设置IFrame高度自适应(兼容各主流浏览器)
2013/06/05 Javascript
JavaScript中创建对象的模式汇总
2016/04/19 Javascript
分享一个插件实现水珠自动下落效果
2016/06/01 Javascript
Highcharts入门之基本属性
2016/08/02 Javascript
前端框架学习总结之Angular、React与Vue的比较详解
2017/03/14 Javascript
jQuery滚动插件scrollable.js用法分析
2017/05/25 jQuery
Angular Renderer (渲染器)的具体使用
2018/05/03 Javascript
vue.js中proxyTable 转发请求的实现方法
2018/09/20 Javascript
详解Vuex下Store的模块化拆分实践
2019/07/31 Javascript
vue.js中使用微信扫一扫解决invalid signature问题(完美解决)
2020/04/11 Javascript
[00:15]天涯墨客终极技能展示
2018/08/25 DOTA
python中嵌套函数的实操步骤
2019/02/27 Python
利用Python半自动化生成Nessus报告的方法
2019/03/19 Python
python lxml中etree的简单应用
2019/05/10 Python
Django Rest framework频率原理与限制
2019/07/26 Python
python使用rsa非对称加密过程解析
2019/12/28 Python
Python小白学习爬虫常用请求报头
2020/06/03 Python
基于Pytorch版yolov5的滑块验证码破解思路详解
2021/02/25 Python
CSS3制作圆形滚动进度条动画的示例
2020/11/05 HTML / CSS
意大利火车票和铁路通行证专家:ItaliaRail
2019/01/22 全球购物
代码中finally中的代码会不会执行
2012/02/06 面试题
工业自动化毕业生自荐信范文
2014/01/04 职场文书
大学生创业策划书
2014/02/02 职场文书
给市场的环保建议书
2014/05/14 职场文书
我的中国梦演讲稿600字
2014/08/19 职场文书
2014年团队工作总结
2014/11/24 职场文书
2015年社区服务活动总结
2015/03/25 职场文书
医者仁心观后感
2015/06/17 职场文书
2016年区委书记抓基层党建工作公开承诺书
2016/03/25 职场文书