详解Python静态网页爬取获取高清壁纸


Posted in Python onApril 23, 2019

前言

在设计爬虫项目的时候,首先要在脑内明确人工浏览页面获得图片时的步骤

一般地,我们去网上批量打开壁纸的时候一般操作如下:

1、打开壁纸网页

2、单击壁纸图(打开指定壁纸的页面)

3、选择分辨率(我们要下载高清的图)

4、保存图片

实际操作时,我们实现了如下几步网页地址的访问:打开了壁纸的网页→单击壁纸图打开指定页面→选择分辨率,点击后打开最终保存目标图片网页→保存图片

在爬虫的过程中我们就尝试通过模拟浏览器打开网页的操作,一步步获得、访问网页、最后获得目标图片的下载地址,对图片进行下载保存到指定路径中

*这些中间过程中网页的一些具体筛选条件的构造,需要打开指定页面的源代码去观察和寻找包含有目的链接的标签

具体实现项目与注释

这里我只想获得一些指定的图片,所以我先在网页上搜索“长门有希”,打开了一个搜索结果页面,发现在这个页面上就已经包含了同类型的其他壁纸链接,于是我一开始就把最初访问的目的地址设置为这个搜索结果页面

目标结果页面截图:

详解Python静态网页爬取获取高清壁纸

图中下标为"1/29"."2/29"为其他同类型目标壁纸,通过点击这些图片我们可以打开新的目标下载图片页面

这里我们查看一下网页源代码

详解Python静态网页爬取获取高清壁纸

图中黄色底的地方就是打开这些同类壁纸的目的地址(访问的时候需要加上前缀"http://desk.zol.com.cn")

现在我们可以尝试实现构建爬虫:

打开指定页面→筛选获得所有长门有希壁纸的目标下载页面链接

代码如下:

详解Python静态网页爬取获取高清壁纸

获得地址以后我们可以通过获取地址→打开指定页面→选择分辨率→获得目的下载地址→保存到本地指定路径中

在测试的时候我输出了一下上一步truelist中保存的内容

 详解Python静态网页爬取获取高清壁纸

可以看到保存的只是一个后缀,在访问的时候我们需要加上一个指定的前缀

实现代码如下(注释见代码):

详解Python静态网页爬取获取高清壁纸

 最后可以在自己的目标文件夹中看到爬下来的图片集~

详解Python静态网页爬取获取高清壁纸

以上所述是小编给大家介绍的Python爬取高清壁纸详解整合,希望对大家有所帮助,如果大家有任何疑问请给我留言,小编会及时回复大家的。在此也非常感谢大家对三水点靠木网站的支持!

Python 相关文章推荐
浅析python 中__name__ = '__main__' 的作用
Jul 05 Python
Python查询阿里巴巴关键字排名的方法
Jul 08 Python
Python爬虫辅助利器PyQuery模块的安装使用攻略
Apr 24 Python
Python学习小技巧之列表项的拼接
May 20 Python
python微信跳一跳系列之自动计算跳一跳距离
Feb 26 Python
在python中做正态性检验示例
Dec 09 Python
Python StringIO如何在内存中读写str
Jan 07 Python
TensorFlow实现保存训练模型为pd文件并恢复
Feb 06 Python
python GUI库图形界面开发之PyQt5简单绘图板实例与代码分析
Mar 08 Python
利用 PyCharm 实现本地代码和远端的实时同步功能
Mar 23 Python
Python自动发送和收取邮件的方法
Aug 12 Python
python3 字符串str和bytes相互转换
Mar 23 Python
Python matplotlib画图与中文设置操作实例分析
Apr 23 #Python
Python实现的删除重复文件或图片功能示例【去重】
Apr 23 #Python
详解Python 函数如何重载?
Apr 23 #Python
解决Django生产环境无法加载静态文件问题的解决
Apr 23 #Python
Python 存储字符串时节省空间的方法
Apr 23 #Python
Django页面数据的缓存与使用的具体方法
Apr 23 #Python
Python切片操作去除字符串首尾的空格
Apr 22 #Python
You might like
PHP迅雷、快车、旋风下载专用链转换代码
2010/06/15 PHP
php使用ICQ网关发送手机短信
2013/10/30 PHP
Laravel 验证码认证学习记录小结
2019/12/20 PHP
jquery 插件之仿“卓越亚马逊”首页弹出菜单效果
2008/12/25 Javascript
jquery中防刷IP流量软件影响统计的一点对策
2011/07/10 Javascript
JavaScript基本编码模式小结
2012/05/23 Javascript
javascript面向对象快速入门实例
2015/01/13 Javascript
6种javascript显示当前系统时间代码
2015/12/01 Javascript
BootStrap实现树形目录组件代码详解
2016/06/21 Javascript
利用D3.js实现最简单的柱状图示例代码
2016/12/09 Javascript
JavaScript自定义文本框光标
2017/03/05 Javascript
nodejs入门教程一:概念与用法简介
2017/04/24 NodeJs
webpack3+React 的配置全解
2017/08/21 Javascript
基于vue2实现左滑删除功能
2017/11/28 Javascript
使用bootstrap实现下拉框搜索功能的实例讲解
2018/08/10 Javascript
vue中使用cookies和crypto-js实现记住密码和加密的方法
2018/10/18 Javascript
《javascript设计模式》学习笔记一:Javascript面向对象程序设计对象成员的定义分析
2020/04/07 Javascript
Python中文件遍历的两种方法
2014/06/16 Python
在Python中使用模块的教程
2015/04/27 Python
Python自定义函数计算给定日期是该年第几天的方法示例
2019/05/30 Python
简单了解python gevent 协程使用及作用
2019/07/22 Python
Linux系统下升级pip的完整步骤
2021/01/31 Python
python实现不同数据库间数据同步功能
2021/02/25 Python
ONLY德国官方在线商店:购买时尚女装
2017/09/21 全球购物
Tom Dixon官网:英国照明及家具设计和制造公司
2019/03/01 全球购物
戴尔英国翻新电脑和电子产品:Dell UK Refurbished Computers
2019/07/30 全球购物
什么是GWT的Module
2013/01/20 面试题
顶碗少年教学反思
2014/02/21 职场文书
小学生植树节活动总结
2014/07/04 职场文书
上班迟到检讨书范文300字
2014/11/02 职场文书
见习报告的格式
2014/11/04 职场文书
2014年大学班级工作总结
2014/11/14 职场文书
银行催款通知书
2015/04/17 职场文书
三方合作意向书范本
2015/05/09 职场文书
浅谈JS和Nodejs中的事件驱动
2021/05/05 NodeJs
CSS 实现多彩、智能的阴影效果
2021/05/12 HTML / CSS