编程 Python

Python3直接爬取图片URL并保存示例

Posted in Python onDecember 18, 2019

有时候我们会需要从网络上爬取一些图片，来满足我们形形色色直至不可描述的需求。

一个典型的简单爬虫项目步骤包括两步：获取网页地址和提取保存数据。

这里是一个简单的从图片url收集图片的例子，可以成为一个小小的开始。

获取地址

这些图片的URL可能是连续变化的，如从001递增到099，这种情况可以在程序中将共同的前面部分截取，再在最后递增并字符串化后循环即可。

抑或是它们的URL都保存在某个文件中，这时可以读取到列表中：

def getUrls(path):
  urls = []
  with open(path,'r') as f:
    for line in f:
      urls.append(line.strip('\n'))
  return(urls)

保存图片

在python3中，urllib提供了一系列用于操作URL的功能，其中的request模块可以非常方便地抓取URL内容，也就是发送一个GET请求到指定的页面，然后返回HTTP的响应。具体细节请看注释：

def requestImg(url, name, num_retries=3):
  img_src = url
  # print(img_src)
  header = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) \
    AppleWebKit/537.36 (KHTML, like Gecko) \
      Chrome/35.0.1916.114 Safari/537.36',
    'Cookie': 'AspxAutoDetectCookieSupport=1'
  }
  # Request类可以使用给定的header访问URL
  req = urllib.request.Request(url=img_src, headers=header) 
  try:
    response = urllib.request.urlopen(req) # 得到访问的网址
    filename = name + '.jpg'
    with open(filename, "wb") as f:
      content = response.read() # 获得图片
      f.write(content) # 保存图片
      response.close()
  except HTTPError as e: # HTTP响应异常处理
    print(e.reason)
  except URLError as e: # 一定要放到HTTPError之后，因为它包含了前者
    print(e.reason)
  except IncompleteRead or RemoteDisconnected as e: 
    if num_retries == 0: # 重连机制
      return
    else:
      requestImg(url, name, num_retries-1)

其他

捕获异常

以下是批量爬取网页时可能需要捕获的异常，同时可以看出，urllib2库对应urllib库，而httplib库对应http.client：

Python2	Pyhton3
urllib2.HTTPError	urllib.error.HTTPError
urllib2.URLError	urllib.error.URLError (HTTPError被包含其中)
httplib.IncompleteRead	http.client.IncompleteRead
httplib.RemoteDisconnected	http.client.RemoteDisconnected

重连机制

在函数参数中设置一个参数num_retries并对其进行初始化，即默认参数。在某些异常出现时可以将该参数递减，再让它递归调用自身，这就是基本的重连机制。

修饰器

有种设计模式叫修饰器模式，它可以在不修改目标函数代码的前提下，在目标函数执行前后增加一些额外功能。

def clock(func): # 修饰器函数，对函数计时
  def clocked(*args):
    t0 = timeit.default_timer()
    result = func(*args)
    elapsed = timeit.default_timer() - t0
    name = func.__name__
    arg_str = ', '.join(repr(arg) for arg in args)
    print('[%0.8fs] %s(%s)' % (elapsed, name, arg_str))
    # print('%s(%s) -> %r [%0.8fs]' % (name, arg_str, result, elapsed))
    return result
  return clocked

上面这段代码是修饰器函数的一个例子，用来对函数运行时间进行计时，在需要计时的函数上一行添加一点点代码即可：

@clock

完整代码

from urllib.error import HTTPError, URLError
from http.client import IncompleteRead, RemoteDisconnected
import timeit, time
import urllib.request
import socket
 
 
# timeout = 20
# socket.setdefaulttimeout(timeout) # 等待，防止被简单地反爬
 
 
def getUrls(path):
  urls = []
  with open(path,'r') as f:
    for line in f:
      urls.append(line.strip('\n'))
  return(urls)
 
 
def clock(func): # 修饰器函数，对函数计时
  def clocked(*args):
    t0 = timeit.default_timer()
    result = func(*args)
    elapsed = timeit.default_timer() - t0
    name = func.__name__
    arg_str = ', '.join(repr(arg) for arg in args)
    print('[%0.8fs] %s(%s)' % (elapsed, name, arg_str))
    # print('%s(%s) -> %r [%0.8fs]' % (name, arg_str, result, elapsed))
    return result
  return clocked
 
 
@clock
def requestImg(url, name, num_retries=3):
  img_src = url
  # print(img_src)
  header = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) \
    AppleWebKit/537.36 (KHTML, like Gecko) \
      Chrome/35.0.1916.114 Safari/537.36',
    'Cookie': 'AspxAutoDetectCookieSupport=1'
  }
  req = urllib.request.Request(url=img_src, headers=header)
  try:
    response = urllib.request.urlopen(req)
    filename = name + '.jpg'
    with open(filename, "wb") as f:
      content = response.read()
      f.write(content)
      response.close()
  except HTTPError as e:
    print(e.reason)
  except URLError as e:
    print(e.reason)
  except IncompleteRead or RemoteDisconnected as e:
    if num_retries == 0:
      return
    else:
      requestImg(url, name, num_retries-1)
 
 
 
if __name__ =='__main__':
  urls = getUrls('./'URLS.txt') # 换成你的URL文件路径
  nLines = len(urls)
  print(nLines)
  for index, value in enumerate(urls):
      requestImg(value, './'+str(index).zfill(6)) # zfill用来格式化数字：000001

以上这篇Python3直接爬取图片URL并保存示例就是小编分享给大家的全部内容了，希望能给大家一个参考，也希望大家多多支持三水点靠木。

Python3直接爬取图片URL并保存示例

- Author -

TelAntiNomy

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Python 相关文章推荐

在SAE上部署Python的Django框架的一些问题汇总

May 30 Python

python itchat实现微信好友头像拼接图的示例代码

Aug 14 Python

Python实现简易版的Web服务器(推荐)

Jan 29 Python

Python统计纯文本文件中英文单词出现个数的方法总结【测试可用】

Jul 25 Python

django使用LDAP验证的方法示例

Dec 10 Python

python处理excel绘制雷达图

Oct 18 Python

基于python3生成标签云代码解析

Feb 18 Python

Python Numpy中数据的常用保存与读取方法

Apr 01 Python

文件上传服务器-jupyter 中python解压及压缩方式

Apr 22 Python

python实现密度聚类(模板代码+sklearn代码)

Apr 27 Python

sklearn线性逻辑回归和非线性逻辑回归的实现

Jun 09 Python

python UDF 实现对csv批量md5加密操作

Jan 01 Python

python 实现图片上传接口开发并生成可以访问的图片url

Dec 18 #Python

Python谱减法语音降噪实例

Dec 18 #Python

利用PyCharm操作Github(仓库新建、更新，代码回滚)

Dec 18 #Python

使用python 对验证码图片进行降噪处理

Dec 18 #Python

如何使用Python多线程测试并发漏洞

Dec 18 #Python

Python实现图像去噪方式(中值去噪和均值去噪)

Dec 18 #Python

python 中值滤波,椒盐去噪,图片增强实例

Dec 18 #Python

You might like

php access 数据连接与读取保存编辑数据的实现代码

2010/05/12 PHP

php实现天干地支计算器示例

2014/03/14 PHP

PHP中获取时间的下一周下个月的方法

2014/03/18 PHP

yii2整合百度编辑器umeditor及umeditor图片上传问题的解决办法

2016/04/20 PHP

PHP分享图片的生成方法

2018/04/25 PHP

获取DOM对象的几种扩展及简写

2006/10/09 Javascript

JavaScript中的new的使用方法与注意事项

2007/05/16 Javascript

关于捕获用户何时点击window.onbeforeunload的取消事件

2011/03/06 Javascript

jquery.Jwin.js 基于jquery的弹出层插件代码

2012/05/23 Javascript

深入理解JavaScript中的传值与传引用

2013/12/09 Javascript

什么是cookie?js手动创建和存储cookie

2014/05/27 Javascript

JavaScript对Cookie进行读写操作实例

2015/07/25 Javascript

浅析JavaScript动画模拟拖拽原理

2016/12/09 Javascript

vue2.0的contextmenu右键弹出菜单的实例代码

2017/07/24 Javascript

微信小程序实现下拉刷新和轮播图效果

2017/11/21 Javascript

基于$.ajax()方法从服务器获取json数据的几种方式总结

2018/01/31 Javascript

前端插件之Bootstrap Dual Listbox使用教程

2019/07/23 Javascript

Node.js爬虫如何获取天气和每日问候详解

2019/08/26 Javascript

Vue使用vue-draggable 插件在不同列表之间拖拽功能

2020/03/12 Javascript

单线程JavaScript实现异步过程详解

2020/05/19 Javascript

使用JavaScript获取扫码枪扫描得到的条形码的思路代码详解

2020/06/10 Javascript

跟老齐学Python之Python文档

2014/10/10 Python

Python正则表达式教程之一：基础篇

2017/03/02 Python

python字典快速保存于读取的方法

2018/03/23 Python

基于Python 的语音重采样函数解析

2020/07/06 Python

opencv 图像腐蚀和图像膨胀的实现

2020/07/07 Python

如何把python项目部署到linux服务器

2020/08/26 Python

世界上最大的在线汽车租赁预订平台：Rentalcars.com（支持中文）

2018/10/12 全球购物

荷兰天然和有机产品网上商城：BigGreenSmile.nl

2020/07/26 全球购物

用JAVA SOCKET编程，读服务器几个字符，再写入本地显示

2012/11/25 面试题

化验室技术员岗位职责

2013/12/24 职场文书

美发活动策划书

2014/01/14 职场文书

秘书英文求职信

2014/04/16 职场文书

公司承诺书格式

2014/05/21 职场文书

教师病假条范文

2015/08/17 职场文书

python的netCDF4批量处理NC格式文件的操作方法

2022/03/21 Python