Python3使用requests包抓取并保存网页源码的方法


Posted in Python onMarch 15, 2016

本文实例讲述了Python3使用requests包抓取并保存网页源码的方法。分享给大家供大家参考,具体如下:

使用Python 3的requests模块抓取网页源码并保存到文件示例:

import requests
html = requests.get("http://www.baidu.com")
with open('test.txt','w',encoding='utf-8') as f:
 f.write(html.text)

这是一个基本的文件保存操作,但这里有几个值得注意的问题:

1.安装requests包,命令行输入pip install requests即可自动安装。很多人推荐使用requests,自带的urllib.request也可以抓取网页源码

2.open方法encoding参数设为utf-8,否则保存的文件会出现乱码。

3.如果直接在cmd中输出抓取的内容,会提示各种编码错误,所以保存到文件查看。

4.with open方法是更好的写法,可以自动操作完毕后释放资源。

另一个例子:

import requests
ff = open('testt.txt','w',encoding='utf-8')
with open('test.txt',encoding="utf-8") as f:
 for line in f:
 ff.write(line)
ff.close()

这是演示读取一个txt文件,每次读取一行,并保存到另一个txt文件中的示例。

因为在命令行中打印每次读取一行的数据,中文会出现编码错误,所以每次读取一行并保存到另一个文件,这样来测试读取是否正常。(注意open的时候制定encoding编码方式)

转自:小谈博客 http://www.tantengvip.com/2015/05/requests-html/

希望本文所述对大家Python程序设计有所帮助。

Python 相关文章推荐
python操作摄像头截图实现远程监控的例子
Mar 25 Python
Python数据类型详解(一)字符串
May 08 Python
python使用matplotlib绘制折线图教程
Feb 08 Python
Python实现解析Bit Torrent种子文件内容的方法
Aug 29 Python
numpy.linspace 生成等差数组的方法
Jul 02 Python
对Python3 goto 语句的使用方法详解
Feb 16 Python
Pycharm创建项目时如何自动添加头部信息
Nov 14 Python
手把手教你进行Python虚拟环境配置教程
Feb 03 Python
关于python中的xpath解析定位
Mar 06 Python
pandas按照列的值排序(某一列或者多列)
Dec 13 Python
利用python实现汉诺塔游戏
Mar 01 Python
python 利用PyAutoGUI快速构建自动化操作脚本
May 31 Python
Python减少循环层次和缩进的技巧分析
Mar 15 #Python
Python作用域用法实例详解
Mar 15 #Python
Python的净值数据接口调用示例分享
Mar 15 #Python
Python简单连接MongoDB数据库的方法
Mar 15 #Python
Python函数中的函数(闭包)用法实例
Mar 15 #Python
实例讲解Python中函数的调用与定义
Mar 14 #Python
Python使用multiprocessing实现一个最简单的分布式作业调度系统
Mar 14 #Python
You might like
php5中date()得出的时间为什么不是当前时间的解决方法
2008/06/30 PHP
PHP实现截取中文字符串不出现?号的解决方法
2016/12/29 PHP
零基础php编程好学吗
2019/10/11 PHP
PHP 出现 http500 错误的解决方法
2021/03/09 PHP
javascript编程起步(第六课)
2007/02/27 Javascript
jQuery开发者都需要知道的5个小技巧
2010/01/08 Javascript
JQERY limittext 插件0.2版(长内容限制显示)
2010/08/27 Javascript
深入剖析JavaScript中的枚举功能
2014/03/06 Javascript
简述AngularJS相关的一些编程思想
2015/06/23 Javascript
JavaScript表单验证完美代码
2017/03/02 Javascript
Canvas放置反弹效果随机图形(实例)
2017/08/17 Javascript
详解从新建vue项目到引入组件Element的方法
2017/08/29 Javascript
详解使用webpack打包编写一个vue-toast插件
2017/11/08 Javascript
微信小程序之事件交互操作实例分析
2018/12/03 Javascript
如何在vue里面优雅的解决跨域(路由冲突问题)
2019/01/20 Javascript
[44:40]KG vs LGD 2019国际邀请赛小组赛 BO2 第一场 8.15
2019/08/16 DOTA
Python列表推导式的使用方法
2013/11/21 Python
跟老齐学Python之集合的关系
2014/09/24 Python
修改Python的pyxmpp2中的主循环使其提高性能
2015/04/24 Python
从django的中间件直接返回请求的方法
2018/05/30 Python
python3.7.0的安装步骤
2018/08/27 Python
Python制作动态字符图的实例
2019/01/27 Python
使用python爬取抖音视频列表信息
2019/07/15 Python
浅谈多卡服务器下隐藏部分 GPU 和 TensorFlow 的显存使用设置
2020/06/30 Python
美国电子产品折扣网站:Daily Steals
2017/05/20 全球购物
生物化工专业个人自荐信
2013/09/26 职场文书
资料员的岗位职责
2013/11/20 职场文书
学习礼仪心得体会
2014/09/01 职场文书
2015年考研复习计划
2015/01/19 职场文书
2015年酒店客房部工作总结
2015/04/25 职场文书
贫困证明书范文
2015/06/16 职场文书
python 实现mysql自动增删分区的方法
2021/04/01 Python
基于Redis延迟队列的实现代码
2021/05/13 Redis
Element实现动态表格的示例代码
2021/08/02 Javascript
Nginx本地配置SSL访问的实例教程
2022/05/30 Servers
python内置模块之上下文管理contextlib
2022/06/14 Python