Python3简单爬虫抓取网页图片代码实例


Posted in Python onAugust 26, 2019

现在网上有很多python2写的爬虫抓取网页图片的实例,但不适用新手(新手都使用python3环境,不兼容python2),

所以我用Python3的语法写了一个简单抓取网页图片的实例,希望能够帮助到大家,并希望大家批评指正。

import urllib.request
import re
import os
import urllib
#根据给定的网址来获取网页详细信息,得到的html就是网页的源代码 
def getHtml(url):
  page = urllib.request.urlopen(url)
  html = page.read()
  return html.decode('UTF-8')

def getImg(html):
  reg = r'src="(.+?\.jpg)" pic_ext'
  imgre = re.compile(reg)
  imglist = imgre.findall(html)#表示在整个网页中过滤出所有图片的地址,放在imglist中
  x = 0
  path = 'D:\\test' 
  # 将图片保存到D:\\test文件夹中,如果没有test文件夹则创建
  if not os.path.isdir(path): 
    os.makedirs(path) 
  paths = path+'\\'   #保存在test路径下 

  for imgurl in imglist: 
    urllib.request.urlretrieve(imgurl,'{0}{1}.jpg'.format(paths,x)) #打开imglist中保存的图片网址,并下载图片保存在本地,format格式化字符串 
    x = x + 1 
  return imglist
html = getHtml("http://tieba.baidu.com/p/2460150866")#获取该网址网页详细信息,得到的html就是网页的源代码 
print (getImg(html)) #从网页源代码中分析并下载保存图片

以上就是本文的全部内容,希望对大家的学习有所帮助,也希望大家多多支持三水点靠木。

Python 相关文章推荐
Python中使用 Selenium 实现网页截图实例
Jul 18 Python
python 统计列表中不同元素的数量方法
Jun 29 Python
解决python "No module named pip" 的问题
Oct 13 Python
python合并已经存在的sheet数据到新sheet的方法
Dec 11 Python
Python3.5基础之函数的定义与使用实例详解【参数、作用域、递归、重载等】
Apr 26 Python
numpy数组广播的机制
Jul 12 Python
python 用 xlwings 库 生成图表的操作方法
Dec 22 Python
150行Python代码实现带界面的数独游戏
Apr 04 Python
jupyter notebook 参数传递给shell命令行实例
Apr 10 Python
python实现xlwt xlrd 指定条件给excel行添加颜色
Jul 14 Python
详解scrapy内置中间件的顺序
Sep 28 Python
基于Python实现全自动下载抖音视频
Nov 06 Python
python 数据提取及拆分的实现代码
Aug 26 #Python
Python3 使用pillow库生成随机验证码
Aug 26 #Python
python excel转换csv代码实例
Aug 26 #Python
对YOLOv3模型调用时候的python接口详解
Aug 26 #Python
pandas条件组合筛选和按范围筛选的示例代码
Aug 26 #Python
python3 反射的四种基本方法解析
Aug 26 #Python
python接口调用已训练好的caffe模型测试分类方法
Aug 26 #Python
You might like
PHP中获取变量的变量名的一段代码的bug分析
2011/07/07 PHP
Youku 视频绝对地址获取的方法详解
2013/06/26 PHP
php使用正则过滤js脚本代码实例
2014/05/10 PHP
php将print_r处理后的数据还原为原始数组的解决方法
2016/11/02 PHP
基于jQuery的弹出消息插件 DivAlert之旅(一)
2010/04/01 Javascript
基于JavaScript实现继承机制之构造函数+原型链混合方式的使用详解
2013/05/07 Javascript
javascript实现TreeView 无刷新展开的实例代码
2013/07/13 Javascript
jquery提交form表单时禁止重复提交的方法
2014/02/13 Javascript
jquery中子元素和后代元素的区别示例介绍
2014/04/02 Javascript
一个JS函数搞定网页标题(title)闪动效果
2014/05/13 Javascript
创建、调用JavaScript对象的方法集锦
2014/12/24 Javascript
javascript框架设计之框架分类及主要功能
2015/06/23 Javascript
jQuery实现的个性化返回底部与返回顶部特效代码
2015/10/30 Javascript
原生JavaScript实现瀑布流布局
2020/06/28 Javascript
ClearTimeout消除闪动实例代码
2016/02/29 Javascript
基于BootStrap Metronic开发框架经验小结【三】下拉列表Select2插件的使用
2016/05/12 Javascript
javascript设计模式Constructor(构造器)模式
2016/08/19 Javascript
js仿微博动态栏功能
2017/02/22 Javascript
jQuery列表检索功能实现代码
2017/07/17 jQuery
详解package.json版本号规则
2019/08/01 Javascript
JS禁用右键、禁用Ctrl+u、禁用Ctrl+s、禁用F12的实现代码
2020/12/01 Javascript
介绍Python中的__future__模块
2015/04/27 Python
Python计算三维矢量幅度的方法
2015/06/15 Python
基于Python实现对PDF文件的OCR识别
2016/08/05 Python
pytorch实现用Resnet提取特征并保存为txt文件的方法
2019/08/20 Python
解决django接口无法通过ip进行访问的问题
2020/03/27 Python
python 解决Windows平台上路径有空格的问题
2020/11/10 Python
python搜索算法原理及实例讲解
2020/11/18 Python
python如何调用php文件中的函数详解
2020/12/29 Python
公共汽车、火车和飞机票的通用在线预订和销售平台:INFOBUS
2019/11/30 全球购物
EJB包括(SessionBean,EntityBean)说出他们的生命周期,及如何管理事务的
2015/07/24 面试题
自我鉴定怎么写
2013/12/05 职场文书
移交协议书
2014/08/19 职场文书
慰问信格式
2015/02/14 职场文书
《有余数的除法》教学反思
2016/02/22 职场文书
2019年聘任书的写作格式及范文!
2019/07/03 职场文书