python制作最美应用的爬虫


Posted in Python onOctober 28, 2015

安卓最美应用页面爬虫,爬虫很简单,设计的东西到挺多的
文件操作
正则表达式
字符串替换等等

import requests
import re
url = "http://zuimeia.com"
r = requests.get('http://zuimeia.com/community/app/hot/?platform=2')
pattern = re.compile(r'<a class="community-app-cover-wrapper" href="(.*?)" target="_blank">')
urlList = pattern.findall(r.content)

def requestsUrl(url):
 r = requests.get(url)
 title = re.findall(r'"app-title"><h1>(.*?)</h1>',r.content)
 #print title
 category = re.findall(r'<a class="app-tag" href="/community/app/category/title/.*?/?platform=2">(.*?)</a>',r.content)
 #print category

 describe = re.findall(r'<div id="article_content">(.*?)<div class="community-image-wrapper">',r.content)
 #print type(describe[0])
 strdescribe = srtReplace(describe[0])
 #print strdescribe

 downloadUrl = re.findall(r'<a class="download-button direct hidden" href="(.*?)"',r.content)
 #print downloadUrl

 return title,category,strdescribe,downloadUrl

def srtReplace(string):
 listReplace = ['<p>', '<br>', '<h1>', '<h2>', '<h3>', '<h4>', '<h5>', '<h6>', '<h7>','<strong>','</p>', '<br/>', '</h1>', '</h2>', '</h3>', '</h4>', '</h5>',
     '</h6>', '</h7>','</strong>','<b>', '</b>']
 for eachListReplace in listReplace:
  string = string.replace(str(eachListReplace),'\n')

 string = string.replace('\n\n','')
 return string

def categornFinal(category):
 categoryFinal =''
 for eachCategory in category:
  categoryFinal = categoryFinal+str(eachCategory)+'-->'
 return categoryFinal

def urlReplace(url):
 url = url.replace('&', '&')
 return url

requestsUrl("http://zuimeia.com/community/app/27369/?platform=2")
for eachUrl in urlList:
 eachUrl = url+eachUrl
 content = requestsUrl(eachUrl)
 categoryFinal =''

 title = content[0][0]
 category = categornFinal(content[1])
 strdescribe = content[2]
 downloadUrl = urlReplace(content[3][0])

 with open('c:/wqa.txt', 'a+') as fd:
  fd.write('title:'+title+'\n'+'category:'+category+'\n'+'strdescribe:'+strdescribe+'\n'+'downloadUrl:'+downloadUrl+'\n\n\n-----------------------------------------------------------------------------------------------------------------------------\n\n\n')
Python 相关文章推荐
Using Django with GAE Python 后台抓取多个网站的页面全文
Feb 17 Python
python 将数据保存为excel的xls格式(实例讲解)
May 03 Python
windows下python和pip安装教程
May 25 Python
对python3 一组数值的归一化处理方法详解
Jul 11 Python
解决tensorflow模型参数保存和加载的问题
Jul 26 Python
python 遍历列表提取下标和值的实例
Dec 25 Python
Django 多环境配置详解
May 14 Python
Python正则表达式匹配和提取IP地址
Jun 06 Python
详解Python 定时框架 Apscheduler原理及安装过程
Jun 14 Python
python实现字符串完美拆分split()的方法
Jul 16 Python
python实现的按要求生成手机号功能示例
Oct 08 Python
python多继承(钻石继承)问题和解决方法简单示例
Oct 21 Python
python使用wmi模块获取windows下的系统信息 监控系统
Oct 27 #Python
详解JavaScript编程中的window与window.screen对象
Oct 26 #Python
深入讲解Python中的迭代器和生成器
Oct 26 #Python
Windows下使Python2.x版本的解释器与3.x共存的方法
Oct 25 #Python
解析Python编程中的包结构
Oct 25 #Python
Python实现获取域名所用服务器的真实IP
Oct 25 #Python
Python制作爬虫采集小说
Oct 25 #Python
You might like
PHP如何得到当前页和上一页的地址?
2006/11/27 PHP
php 显示指定路径下的图片
2009/10/29 PHP
ThinkPHP跳转页success及error模板实例教程
2014/07/17 PHP
简单解决微信文章图片防盗链问题
2016/12/17 PHP
全面解析PHP面向对象的三大特征
2017/06/10 PHP
YII2框架中ActiveDataProvider与GridView的配合使用操作示例
2020/03/18 PHP
document对象execCommand的command参数介绍
2006/08/01 Javascript
用htc组件制作windows选项卡
2007/01/13 Javascript
JavaScript中链式调用之研习
2011/04/07 Javascript
autoPlay 基于jquery的图片自动播放效果
2011/12/07 Javascript
Javascript中的apply()方法浅析
2015/03/15 Javascript
js实现select下拉框菜单
2015/12/08 Javascript
jQuery图片左右滚动代码 有左右按钮实例
2016/06/20 Javascript
jquery做个日期选择适用于手机端示例
2017/01/10 Javascript
解决nodejs的npm命令无反应的问题
2018/05/17 NodeJs
vue项目创建步骤及路由router
2020/01/14 Javascript
JavaScript canvas实现跟随鼠标事件
2020/02/10 Javascript
JS Web Flex弹性盒子模型代码实例
2020/03/10 Javascript
基于JS实现table导出Excel并保留样式
2020/05/19 Javascript
JavaScript中CreateTextFile函数
2020/08/30 Javascript
使用jquery实现轮播图效果
2021/01/02 jQuery
python3中os.path模块下常用的用法总结【推荐】
2018/09/16 Python
Python为何不能用可变对象作为默认参数的值
2019/07/01 Python
Python + OpenCV 实现LBP特征提取的示例代码
2019/07/11 Python
python离线安装外部依赖包的实现
2020/02/13 Python
remote接口和home接口主要作用
2013/05/15 面试题
应届大专毕业生个人自荐信
2013/09/22 职场文书
初三学生个人自我评定
2014/04/06 职场文书
财务会计专业求职信
2014/06/09 职场文书
临床专业自荐信
2014/06/22 职场文书
海洋天堂观后感
2015/06/05 职场文书
公司开业主持词
2015/07/02 职场文书
优秀创业计划书分享
2019/07/19 职场文书
golang协程池模拟实现群发邮件功能
2021/05/02 Golang
Golang数据类型和相互转换
2022/04/12 Golang