Python使用urllib2模块抓取HTML页面资源的实例分享


Posted in Python onMay 03, 2016

先把要抓取的网络地址列在单独的list文件中

https://3water.com/article/83440.html
https://3water.com/article/83437.html
https://3water.com/article/83430.html
https://3water.com/article/83449.html

然后我们来看程序操作,代码如下:

#!/usr/bin/python

import os
import sys
import urllib2
import re

def Cdown_data(fileurl, fpath, dpath):
 if not os.path.exists(dpath):
  os.makedirs(dpath)
 try:
  getfile = urllib2.urlopen(fileurl) 
  data = getfile.read()
  f = open(fpath, 'w')
  f.write(data)
  f.close()
 except:
 print 

with open('u1.list') as lines:
 for line in lines:
  URI = line.strip()
  if '?' and '%' in URI:
   continue
 elif URI.count('/') == 2:
   continue
  elif URI.count('/') > 2:
   #print URI,URI.count('/')
  try:
    dirpath = URI.rpartition('/')[0].split('//')[1]
    #filepath = URI.split('//')[1].split('/')[1]
    filepath = URI.split('//')[1]
   if filepath:
     print URI,filepath,dirpath
     Cdown_data(URI, filepath, dirpath)
   except:
    print URI,'error'
Python 相关文章推荐
Python实现简单求解给定整数的质因数算法示例
Mar 25 Python
在cmder下安装ipython以及环境的搭建
Oct 19 Python
使用PIL(Python-Imaging)反转图像的颜色方法
Jan 24 Python
Python数学形态学实例分析
Sep 06 Python
Python imread、newaxis用法详解
Nov 04 Python
wxPython窗体拆分布局基础组件
Nov 19 Python
tensorflow将图片保存为tfrecord和tfrecord的读取方式
Feb 17 Python
Python面向对象多态实现原理及代码实例
Sep 16 Python
使用python把xmind转换成excel测试用例的实现代码
Oct 12 Python
基于PyTorch中view的用法说明
Mar 03 Python
Python 制作自动化翻译工具
Apr 25 Python
使用python绘制分组对比柱状图
Apr 21 Python
Python中字符串的格式化方法小结
May 03 #Python
Python实现约瑟夫环问题的方法
May 03 #Python
Python实现堆排序的方法详解
May 03 #Python
python web框架学习笔记
May 03 #Python
Python批量修改文本文件内容的方法
Apr 29 #Python
Python+Opencv识别两张相似图片
Mar 23 #Python
Python实现包含min函数的栈
Apr 29 #Python
You might like
php 设计模式之 工厂模式
2008/12/19 PHP
PHP得到mssql的存储过程的输出参数功能实现
2012/11/23 PHP
ThinkPHP的截取字符串函数无法显示省略号的解决方法
2014/06/25 PHP
jquery isType() 类型判断代码
2011/02/14 Javascript
jquery隐藏标签和显示标签的实例
2013/11/11 Javascript
jquery mobile的触控点击事件会多次触发问题的解决方法
2014/05/08 Javascript
详解Jquery实现ready和bind事件
2016/04/14 Javascript
基于JS实现省市联动效果代码分享
2016/06/06 Javascript
jQueryUI 拖放排序遇到滚动条时有可能无法执行排序的小bug及解决方案
2016/12/19 Javascript
详解微信小程序开发—你期待的分享功能来了,微信小程序序新增5大功能
2016/12/23 Javascript
socket.io学习教程之基本应用(二)
2017/04/29 Javascript
NodeJs使用Mysql模块实现事务处理实例
2017/05/31 NodeJs
js+css实现红包雨效果
2018/07/12 Javascript
VUE脚手架的下载和配置步骤详解
2019/04/01 Javascript
layui table表格数据的新增,修改,删除,查询,双击获取行数据方式
2019/11/14 Javascript
js实现经典贪吃蛇小游戏
2020/03/19 Javascript
在vue中使用inheritAttrs实现组件的扩展性介绍
2020/12/07 Vue.js
Python 字符串中的字符倒转
2008/09/06 Python
Python中用pycurl监控http响应时间脚本分享
2015/02/02 Python
解决python3爬虫无法显示中文的问题
2018/04/12 Python
Python基于whois模块简单识别网站域名及所有者的方法
2018/04/23 Python
python opencv实现运动检测
2018/07/10 Python
pygame实现俄罗斯方块游戏(AI篇1)
2019/10/29 Python
numpy.ndarray 实现对特定行或列取值
2019/12/05 Python
Python 列表的清空方式
2020/01/13 Python
Python json模块与jsonpath模块区别详解
2020/03/05 Python
Python图片处理模块PIL操作方法(pillow)
2020/04/07 Python
pytorch  网络参数 weight bias 初始化详解
2020/06/24 Python
pytorch学习教程之自定义数据集
2020/11/10 Python
业务员的岗位职责
2014/03/15 职场文书
业务内勤岗位职责
2014/04/30 职场文书
村级个人对照检查材料
2014/08/22 职场文书
2015年安全生产管理工作总结
2015/05/25 职场文书
2019暑假阅读倡议书
2019/06/24 职场文书
2022漫威和DC电影上映作品
2022/04/05 欧美动漫
vue动态绑定style样式
2022/04/20 Vue.js