Python使用urllib2模块抓取HTML页面资源的实例分享


Posted in Python onMay 03, 2016

先把要抓取的网络地址列在单独的list文件中

https://3water.com/article/83440.html
https://3water.com/article/83437.html
https://3water.com/article/83430.html
https://3water.com/article/83449.html

然后我们来看程序操作,代码如下:

#!/usr/bin/python

import os
import sys
import urllib2
import re

def Cdown_data(fileurl, fpath, dpath):
 if not os.path.exists(dpath):
  os.makedirs(dpath)
 try:
  getfile = urllib2.urlopen(fileurl) 
  data = getfile.read()
  f = open(fpath, 'w')
  f.write(data)
  f.close()
 except:
 print 

with open('u1.list') as lines:
 for line in lines:
  URI = line.strip()
  if '?' and '%' in URI:
   continue
 elif URI.count('/') == 2:
   continue
  elif URI.count('/') > 2:
   #print URI,URI.count('/')
  try:
    dirpath = URI.rpartition('/')[0].split('//')[1]
    #filepath = URI.split('//')[1].split('/')[1]
    filepath = URI.split('//')[1]
   if filepath:
     print URI,filepath,dirpath
     Cdown_data(URI, filepath, dirpath)
   except:
    print URI,'error'
Python 相关文章推荐
python调用Moxa PCOMM Lite通过串口Ymodem协议实现发送文件
Aug 15 Python
Python 字符串大小写转换的简单实例
Jan 21 Python
Python编程之string相关操作实例详解
Jul 22 Python
Python操作Redis之设置key的过期时间实例代码
Jan 25 Python
pandas DataFrame实现几列数据合并成为新的一列方法
Jun 08 Python
Django教程笔记之中间件middleware详解
Aug 01 Python
python智联招聘爬虫并导入到excel代码实例
Sep 09 Python
自定义Django Form中choicefield下拉菜单选取数据库内容实例
Mar 13 Python
通过Python实现一个简单的html页面
May 16 Python
python 实现单例模式的5种方法
Sep 23 Python
Python 实现3种回归模型(Linear Regression,Lasso,Ridge)的示例
Oct 15 Python
使用Python爬取Json数据的示例代码
Dec 07 Python
Python中字符串的格式化方法小结
May 03 #Python
Python实现约瑟夫环问题的方法
May 03 #Python
Python实现堆排序的方法详解
May 03 #Python
python web框架学习笔记
May 03 #Python
Python批量修改文本文件内容的方法
Apr 29 #Python
Python+Opencv识别两张相似图片
Mar 23 #Python
Python实现包含min函数的栈
Apr 29 #Python
You might like
在PHP中利用wsdl创建标准webservice的实现代码
2011/12/07 PHP
thinkphp3.2.2前后台公用类架构问题分析
2014/11/25 PHP
php实现高效获取图片尺寸的方法
2014/12/12 PHP
php读取csv数据保存到数组的方法
2015/01/03 PHP
tp5(thinkPHP5)框架数据库Db增删改查常见操作总结
2019/01/10 PHP
PHP设计模式(八)装饰器模式Decorator实例详解【结构型】
2020/05/02 PHP
ajax无刷新动态调用股票信息(改良版)
2008/11/01 Javascript
Javascript面向对象之四 继承
2011/02/08 Javascript
jquery.cookie.js 操作cookie实现记住密码功能的实现代码
2011/04/27 Javascript
Javascript遍历Html Table示例(包括内容和属性值)
2014/07/08 Javascript
用jquery修复在iframe下的页面锚点失效问题
2014/08/22 Javascript
JS自动倒计时30秒后按钮才可用(两种场景)
2015/08/31 Javascript
jQuery检测滚动条是否到达底部
2015/12/15 Javascript
JSONP跨域请求实例详解
2016/07/04 Javascript
基于AngularJS实现iOS8自带的计算器
2016/09/12 Javascript
JavaScript实现简单的星星评分效果
2017/05/18 Javascript
JavaScript函数式编程(Functional Programming)纯函数用法分析
2019/05/22 Javascript
Python中selenium实现文件上传所有方法整理总结
2017/04/01 Python
python 全文检索引擎详解
2017/04/25 Python
numpy使用技巧之数组过滤实例代码
2018/02/03 Python
Python cookbook(数据结构与算法)从序列中移除重复项且保持元素间顺序不变的方法
2018/03/13 Python
Sanic框架安装与简单入门示例
2018/07/16 Python
Python使用shutil模块实现文件拷贝
2020/07/31 Python
为2021年的第一场雪锦上添花:用matplotlib绘制雪花和雪景
2021/01/05 Python
如何用Python进行时间序列分解和预测
2021/03/01 Python
秘鲁购物网站:Linio秘鲁
2017/04/07 全球购物
爱尔兰旅游网站:ebookers.ie
2020/01/24 全球购物
Solaris操作系统的线程机制
2012/12/23 面试题
个人应聘自我评价分享
2013/11/18 职场文书
校园摄影活动策划方案
2014/02/05 职场文书
经典的毕业生自荐信范文
2014/04/14 职场文书
英文推荐信格式范文
2014/05/09 职场文书
中学学校门卫岗位职责
2014/08/15 职场文书
推普周国旗下讲话稿
2014/09/21 职场文书
争先创优个人总结
2015/03/04 职场文书
个人思想政治总结
2015/03/05 职场文书