用Python下载一个网页保存为本地的HTML文件实例


Posted in Python onMay 21, 2018

我们可以用Python来将一个网页保存为本地的HTML文件,这需要用到urllib库。

比如我们要下载山东大学新闻网的一个页面,该网页如下:

用Python下载一个网页保存为本地的HTML文件实例

实现代码如下:

import urllib.request

def getHtml(url):
 html = urllib.request.urlopen(url).read()
 return html

def saveHtml(file_name, file_content):
 # 注意windows文件命名的禁用符,比如 /
 with open(file_name.replace('/', '_') + ".html", "wb") as f:
  # 写文件用bytes而不是str,所以要转码
  f.write(file_content)

aurl = "http://www.view.sdu.edu.cn/info/1003/75240.htm"
html = getHtml(aurl)
saveHtml("sduview", html)

print("下载成功")

打开相应的目录可以看到这个网页已经被下载保存成功了

用Python下载一个网页保存为本地的HTML文件实例

我们用浏览器打开这个网页文件如下

用Python下载一个网页保存为本地的HTML文件实例

由于我们只是下载了网页的主要源码,其中的很多图片之类的文件都不在这里。因此这种方法只适用于提取文字内容。

以上这篇用Python下载一个网页保存为本地的HTML文件实例就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持三水点靠木。

Python 相关文章推荐
python实现百度关键词排名查询
Mar 30 Python
python私有属性和方法实例分析
Jan 15 Python
python之PyMongo使用总结
May 26 Python
Python回文字符串及回文数字判定功能示例
Mar 20 Python
Python实现带参数的用户验证功能装饰器示例
Dec 14 Python
python将字符串list写入excel和txt的实例
Jul 20 Python
python求平均数、方差、中位数的例子
Aug 22 Python
Python函数中的可变长参数详解
Sep 12 Python
pandas实现excel中的数据透视表和Vlookup函数功能代码
Feb 14 Python
Django跨域资源共享问题(推荐)
Mar 09 Python
python使用QQ邮箱实现自动发送邮件
Jun 22 Python
python实现excel公式格式化的示例代码
Dec 23 Python
Python读取本地文件并解析网页元素的方法
May 21 #Python
详解Python中的四种队列
May 21 #Python
Python实现的当前时间多加一天、一小时、一分钟操作示例
May 21 #Python
Python自定义函数实现求两个数最大公约数、最小公倍数示例
May 21 #Python
Python基于递归和非递归算法求两个数最大公约数、最小公倍数示例
May 21 #Python
Python常用字符串替换函数strip、replace及sub用法示例
May 21 #Python
Python下使用Scrapy爬取网页内容的实例
May 21 #Python
You might like
PHP自带方法验证邮箱、URL、IP是否合法的函数
2016/12/08 PHP
PHP使用HTML5 FileApi实现Ajax上传文件功能示例
2019/07/01 PHP
JAVASCRIPT车架号识别/验证函数代码 汽车车架号验证程序
2012/01/08 Javascript
jquery获取复选框被选中的值
2014/03/22 Javascript
使用ajaxfileupload.js实现上传文件功能
2016/08/13 Javascript
轻松掌握JavaScript中介者模式
2016/08/26 Javascript
Vue2.0权限树组件实现代码
2017/08/29 Javascript
Node.js使用Express.Router的方法
2017/11/14 Javascript
基于Vue的ajax公共方法(详解)
2018/01/20 Javascript
vue.js 嵌套循环、if判断、动态删除的实例
2018/03/07 Javascript
vue-router重定向不刷新问题的解决
2018/06/25 Javascript
React Hooks的深入理解与使用
2018/11/12 Javascript
Javascript迭代、递推、穷举、递归常用算法实例讲解
2019/02/01 Javascript
小程序关于请求同步的总结
2019/05/05 Javascript
深入探索VueJS Scoped CSS 实现原理
2019/09/23 Javascript
深入学习Vue nextTick的用法及原理
2019/10/08 Javascript
vue+koa2搭建mock数据环境的详细教程
2020/05/18 Javascript
Vue用mixin合并重复代码的实现
2020/11/27 Vue.js
vue监听滚动事件的方法
2020/12/21 Vue.js
[02:27]《DAC最前线》之附加赛征程
2015/01/29 DOTA
[02:14]完美“圣”典2016风云人物:xiao8专访
2016/12/01 DOTA
python计算圆周长、面积、球体体积并画出圆
2014/04/08 Python
python实现批量监控网站
2016/09/09 Python
Python实现个人微信号自动监控告警的示例
2019/07/03 Python
解决Python命令行下退格,删除,方向键乱码(亲测有效)
2020/01/16 Python
Python如何使用OS模块调用cmd
2020/02/27 Python
python 如何快速复制序列
2020/09/07 Python
Skyscanner澳大利亚:全球领先的旅游搜索网站
2018/03/24 全球购物
Elemental Herbology官网:英国美容品牌
2019/04/27 全球购物
大学生就业自荐信
2013/10/26 职场文书
初三家长会邀请函
2014/01/18 职场文书
幼儿教师师德承诺书
2014/05/23 职场文书
民族学专业求职信
2014/07/28 职场文书
2015年高一班主任工作总结
2015/05/13 职场文书
集结号观后感
2015/06/08 职场文书
tomcat的catalina.out日志按自定义时间格式进行分割的操作方法
2022/04/02 Servers