用Python下载一个网页保存为本地的HTML文件实例


Posted in Python onMay 21, 2018

我们可以用Python来将一个网页保存为本地的HTML文件,这需要用到urllib库。

比如我们要下载山东大学新闻网的一个页面,该网页如下:

用Python下载一个网页保存为本地的HTML文件实例

实现代码如下:

import urllib.request

def getHtml(url):
 html = urllib.request.urlopen(url).read()
 return html

def saveHtml(file_name, file_content):
 # 注意windows文件命名的禁用符,比如 /
 with open(file_name.replace('/', '_') + ".html", "wb") as f:
  # 写文件用bytes而不是str,所以要转码
  f.write(file_content)

aurl = "http://www.view.sdu.edu.cn/info/1003/75240.htm"
html = getHtml(aurl)
saveHtml("sduview", html)

print("下载成功")

打开相应的目录可以看到这个网页已经被下载保存成功了

用Python下载一个网页保存为本地的HTML文件实例

我们用浏览器打开这个网页文件如下

用Python下载一个网页保存为本地的HTML文件实例

由于我们只是下载了网页的主要源码,其中的很多图片之类的文件都不在这里。因此这种方法只适用于提取文字内容。

以上这篇用Python下载一个网页保存为本地的HTML文件实例就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持三水点靠木。

Python 相关文章推荐
pycharm 使用心得(三)Hello world!
Jun 05 Python
python traceback捕获并打印异常的方法
Aug 31 Python
浅谈python3.x pool.map()方法的实质
Jan 16 Python
Python逐行读取文件中内容的简单方法
Feb 26 Python
Python正则表达式实现简易计算器功能示例
May 07 Python
Python中的引用知识点总结
May 20 Python
PyCharm搭建Spark开发环境的实现步骤
Sep 05 Python
python 多进程队列数据处理详解
Dec 23 Python
python 一维二维插值实例
Apr 22 Python
Django在Model保存前记录日志实例
May 14 Python
Django Admin 上传文件到七牛云的示例代码
Jun 20 Python
BeautifulSoup中find和find_all的使用详解
Dec 07 Python
Python读取本地文件并解析网页元素的方法
May 21 #Python
详解Python中的四种队列
May 21 #Python
Python实现的当前时间多加一天、一小时、一分钟操作示例
May 21 #Python
Python自定义函数实现求两个数最大公约数、最小公倍数示例
May 21 #Python
Python基于递归和非递归算法求两个数最大公约数、最小公倍数示例
May 21 #Python
Python常用字符串替换函数strip、replace及sub用法示例
May 21 #Python
Python下使用Scrapy爬取网页内容的实例
May 21 #Python
You might like
php模拟post行为代码总结(POST方式不是绝对安全)
2012/02/22 PHP
php数组实现根据某个键值将相同键值合并生成新二维数组的方法
2017/04/26 PHP
Javascript绝句欣赏 一些经典的js代码
2012/02/22 Javascript
js中如何把字符串转化为对象、数组示例代码
2013/07/17 Javascript
JavaScript中的运算符种类及其规则介绍
2013/09/26 Javascript
JS简单实现元素复制示例附图
2013/11/19 Javascript
js计算德州扑克牌面值的方法
2015/03/04 Javascript
深入理解JavaScript系列(21):S.O.L.I.D五大原则之接口隔离原则ISP详解
2015/03/05 Javascript
浅析js绑定事件的常用方法
2016/05/15 Javascript
用nodejs的实现原理和搭建服务器(动态)
2016/08/10 NodeJs
AngularJs验证重复密码的方法(两种)
2016/11/25 Javascript
JS实现的四级密码强度检测功能示例
2017/05/11 Javascript
利用Node.js检测端口是否被占用的方法
2017/12/07 Javascript
浅谈layui 绑定form submit提交表单的注意事项
2019/10/25 Javascript
python多线程调用exit无法退出的解决方法
2019/02/18 Python
django富文本编辑器的实现示例
2019/04/10 Python
python将excel转换为csv的代码方法总结
2019/07/03 Python
python 类的继承 实例方法.静态方法.类方法的代码解析
2019/08/23 Python
PyQt5高级界面控件之QTableWidget的具体使用方法
2020/02/23 Python
在TensorFlow中实现矩阵维度扩展
2020/05/22 Python
Django DRF认证组件流程实现原理详解
2020/08/17 Python
pycharm2020.2 配置使用的方法详解
2020/09/16 Python
HTMl5的存储方式sessionStorage和localStorage详解
2014/03/18 HTML / CSS
详解HTML5中的元素与元素
2015/08/17 HTML / CSS
美国大型的健身社区和补充商店:Bodybuilding.com
2016/09/06 全球购物
全球性的女装店:storets
2019/06/12 全球购物
远程研修随笔感言
2014/02/10 职场文书
领导调研接待方案
2014/02/27 职场文书
村级换届选举方案
2014/05/10 职场文书
机械专业技术员求职信
2014/06/14 职场文书
社区关爱留守儿童活动方案
2014/08/22 职场文书
校车安全责任书
2014/08/25 职场文书
房地产工程部经理岗位职责
2015/04/09 职场文书
Arthas排查Kubernetes中应用频繁挂掉重启异常
2022/02/28 MySQL
Python基本知识点总结
2022/04/07 Python
CSS控制继承中的height能变为可继承吗
2022/06/10 HTML / CSS