python爬虫入门教程之点点美女图片爬虫代码分享


Posted in Python onSeptember 02, 2014

继续鼓捣爬虫,今天贴出一个代码,爬取点点网「美女」标签下的图片,原图。

# -*- coding: utf-8 -*- 

#--------------------------------------- 
#  程序:点点美女图片爬虫 
#  版本:0.2 
#  作者:zippera 
#  日期:2013-07-26 
#  语言:Python 2.7 
#  说明:能设置下载的页数 
#--------------------------------------- 
 
import urllib2
import urllib
import re
 
 
 
pat = re.compile('<div class="feed-big-img">\n.*?imgsrc="(ht.*?)\".*?')
nexturl1 = "http://www.diandian.com/tag/%E7%BE%8E%E5%A5%B3?page="
 
 
count = 1
 
while count < 2:
 
  print "Page " + str(count) + "\n"
  myurl = nexturl1 + str(count)
  myres = urllib2.urlopen(myurl)
  mypage = myres.read()
  ucpage = mypage.decode("utf-8") #转码
 
  mat = pat.findall(ucpage)
  
 
  
  
  
  if len(mat):
    cnt = 1
    for item in mat:
      print "Page" + str(count) + " No." + str(cnt) + " url: " + item + "\n"
      cnt += 1
      fnp = re.compile('(\w{10}\.\w+)$')
      fnr = fnp.findall(item)
      if fnr:
        fname = fnr[0]
        urllib.urlretrieve(item, fname)
    
  else:
    print "no data"
    
  count += 1

使用方法:新建一个文件夹,把代码保存为name.py文件,运行python name.py就可以把图片下载到文件夹。

Python 相关文章推荐
python使用urllib2模块获取gravatar头像实例
Dec 18 Python
Python类的多重继承问题深入分析
Nov 09 Python
django 自定义用户user模型的三种方法
Nov 18 Python
Python的Flask开发框架简单上手笔记
Nov 16 Python
Python切片操作实例分析
Mar 16 Python
django框架模板语言使用方法详解
Jul 18 Python
Python socket实现的文件下载器功能示例
Nov 15 Python
简单了解Python3 bytes和str类型的区别和联系
Dec 19 Python
Python操作Excel工作簿的示例代码(\*.xlsx)
Mar 23 Python
基于python实现数组格式参数加密计算
Apr 21 Python
使用python实现时间序列白噪声检验方式
Jun 03 Python
Python使用Pygame绘制时钟
Nov 29 Python
python爬虫入门教程之糗百图片爬虫代码分享
Sep 02 #Python
python批量同步web服务器代码核心程序
Sep 01 #Python
寻找网站后台地址的python脚本
Sep 01 #Python
python批量修改文件名的实现代码
Sep 01 #Python
python中List的sort方法指南
Sep 01 #Python
Python抓取京东图书评论数据
Aug 31 #Python
Python深入学习之内存管理
Aug 31 #Python
You might like
php中模拟POST传递数据的两种方法分享
2011/09/16 PHP
PHP版网站缓存加快打开速度的方法分享
2012/06/03 PHP
PHP时间格式控制符对照表分享
2013/07/23 PHP
调试PHP程序的多种方法介绍
2014/11/06 PHP
验证用户是否修改过页面的数据的实现方法
2008/09/26 Javascript
jquery 简短右键菜单 多浏览器兼容
2010/01/01 Javascript
jQuery 工具函数学习资料
2010/04/29 Javascript
JS动态调用方法名示例介绍
2013/12/18 Javascript
node.js中的定时器nextTick()和setImmediate()区别分析
2014/11/26 Javascript
Javascript中神奇的this
2016/01/20 Javascript
酷! 不同风格页面布局幻灯片特效js实现
2021/02/19 Javascript
Javascript 高性能之递归,迭代,查表法详解及实例
2017/01/08 Javascript
js编写简单的计时器功能
2017/07/15 Javascript
详解vue 组件之间使用eventbus传值
2017/10/25 Javascript
jquery中有哪些api jQuery主要API
2017/11/20 jQuery
vue实现一拉到底的滑动验证
2019/07/25 Javascript
关于layui toolbar和template的结合使用方法
2019/09/19 Javascript
Vue filter 过滤当前时间 实现实时更新效果
2019/12/20 Javascript
Node.js设置定时任务之node-schedule模块的使用详解
2020/04/28 Javascript
Python实现的远程文件自动打包并下载功能示例
2019/07/12 Python
Django之使用celery和NGINX生成静态页面实现性能优化
2019/10/08 Python
布隆过滤器的概述及Python实现方法
2019/12/08 Python
Python对称的二叉树多种思路实现方法
2020/02/28 Python
Python绘图之二维图与三维图详解
2020/08/04 Python
Python如何读写字节数据
2020/08/05 Python
建筑工程技术应届生求职信
2013/11/17 职场文书
《要下雨了》教学反思
2014/02/17 职场文书
大学专科求职信
2014/07/02 职场文书
党的群众路线领导班子整改方案
2014/09/27 职场文书
导游词欢迎词
2015/02/02 职场文书
校运会宣传稿大全
2015/07/23 职场文书
MySQL中你可能忽略的COLLATION实例详解
2021/05/12 MySQL
MySQL系列之三 基础篇
2021/07/02 MySQL
mybatis 获取无数据的字段不显示的问题
2021/07/15 Java/Android
nginx内存池源码解析
2021/11/20 Servers
《LOL》“克隆大作战”久违归来 幻灵战队皮肤上线
2022/04/03 其他游戏