python实现从web抓取文档的方法


Posted in Python onSeptember 26, 2014

本文实例讲述了Python实现从Web的一个URL中抓取文档的方法,分享给大家供大家参考。具体方法分析如下:

实例代码如下:

import urllib 
doc = urllib.urlopen("http://www.python.org").read() 
print doc#直接打印出网页 
def reporthook(*a): 
 print a 
#将http://www.renren.com网页保存到renre.html中,
#每读取一个块调用一字reporthook函数 
 
urllib.urlretrieve("http://www.renren.com",'renren.html',reporthook) 
#将http://www.renren.com网页保存到renre.html中 
urllib.urlretrieve("http://www.renren.com",'renren.html')

程序运行结果如下:

<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
..........................网页内容
</body>
</html>


(0, 8192, -1)
(1, 8192, -1)
(2, 8192, -1)

其中urllib.urlopen返回一个类文件对象。

希望本文所述对大家的Python程序设计有所帮助。

Python 相关文章推荐
Python实现高效求解素数代码实例
Jun 30 Python
python爬取51job中hr的邮箱
May 14 Python
浅谈Python中的可变对象和不可变对象
Jul 07 Python
手把手教你用python抢票回家过年(代码简单)
Jan 21 Python
Python实现邮件的批量发送的示例代码
Jan 23 Python
python实现二叉查找树实例代码
Feb 08 Python
对python指数、幂数拟合curve_fit详解
Dec 29 Python
使用python将请求的requests headers参数格式化方法
Jan 02 Python
Python 判断图像是否读取成功的方法
Jan 26 Python
pyenv与virtualenv安装实现python多版本多项目管理
Aug 17 Python
Python 实现将数组/矩阵转换成Image类
Jan 09 Python
Python中zipfile压缩文件模块的基本使用教程
Jun 14 Python
python实现udp数据报传输的方法
Sep 26 #Python
python使用Berkeley DB数据库实例
Sep 26 #Python
python实现通过shelve修改对象实例
Sep 26 #Python
python实现在pickling的时候压缩的方法
Sep 25 #Python
python使用cPickle模块序列化实例
Sep 25 #Python
python使用marshal模块序列化实例
Sep 25 #Python
python中类的一些方法分析
Sep 25 #Python
You might like
新闻分类录入、显示系统
2006/10/09 PHP
深入理解PHP中的Session和Cookie
2013/06/21 PHP
ThinkPHP中处理表单中的注意事项
2014/11/22 PHP
php实现将base64格式图片保存在指定目录的方法
2016/10/13 PHP
利用php + Laravel如何实现部署自动化详解
2017/10/11 PHP
解决Laravel5.x的php artisan migrate数据库迁移创建操作报错SQLSTATE[42000]
2020/04/06 PHP
用JavaScript编写COM组件的步骤
2009/03/17 Javascript
统计出现最多的字符次数的js代码
2010/12/03 Javascript
Jquery弹出窗口插件 LeanModal的使用方法
2012/03/10 Javascript
jQuery 网易相册鼠标移动显示隐藏效果实现代码
2013/03/31 Javascript
artDialog双击会关闭对话框的修改过程分享
2013/08/05 Javascript
js简单实现让文本框内容逐个字的显示出来
2013/10/22 Javascript
原生js ActiveXObject获取execl里面的值
2013/11/01 Javascript
jquery live()重复绑定的解决方法介绍
2014/01/03 Javascript
innerText 使用示例
2014/01/23 Javascript
JS实现含有中文字符串的友好截取功能分析
2017/03/13 Javascript
JavaScript之Date_动力节点Java学院整理
2017/06/28 Javascript
layer子层给父层页面元素赋值,以达到向父层页面传值的效果实例
2017/09/22 Javascript
详解NODEJS的http实现
2018/01/04 NodeJs
简单理解Vue中的nextTick方法
2018/01/30 Javascript
Vue监听页面刷新和关闭功能
2019/06/20 Javascript
ES6之Proxy的get方法详解
2019/10/11 Javascript
有趣的JavaScript隐式类型转换操作实例分析
2020/05/02 Javascript
Python生成pdf文件的方法
2014/08/04 Python
Python中的ConfigParser模块使用详解
2015/05/04 Python
Python3 利用requests 库进行post携带账号密码请求数据的方法
2018/10/26 Python
Python3获取电脑IP、主机名、Mac地址的方法示例
2019/04/11 Python
使用Python画股票的K线图的方法步骤
2019/06/28 Python
python实现取余操作的简单实例
2020/08/16 Python
英国马莎百货官网:Marks & Spencer
2016/07/29 全球购物
Hotels.com南非:酒店预订
2017/11/02 全球购物
介绍一下HTTP、HTTPS和SSL
2012/12/16 面试题
餐饮主管岗位职责
2013/12/10 职场文书
《长江之歌》教学反思
2014/04/17 职场文书
人民调解协议书
2016/03/21 职场文书
送给自己的励志语句:要安静的优秀,悄无声息的坚强
2019/11/26 职场文书