python实现从web抓取文档的方法


Posted in Python onSeptember 26, 2014

本文实例讲述了Python实现从Web的一个URL中抓取文档的方法,分享给大家供大家参考。具体方法分析如下:

实例代码如下:

import urllib 
doc = urllib.urlopen("http://www.python.org").read() 
print doc#直接打印出网页 
def reporthook(*a): 
 print a 
#将http://www.renren.com网页保存到renre.html中,
#每读取一个块调用一字reporthook函数 
 
urllib.urlretrieve("http://www.renren.com",'renren.html',reporthook) 
#将http://www.renren.com网页保存到renre.html中 
urllib.urlretrieve("http://www.renren.com",'renren.html')

程序运行结果如下:

<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">
..........................网页内容
</body>
</html>


(0, 8192, -1)
(1, 8192, -1)
(2, 8192, -1)

其中urllib.urlopen返回一个类文件对象。

希望本文所述对大家的Python程序设计有所帮助。

Python 相关文章推荐
一个检测OpenSSL心脏出血漏洞的Python脚本分享
Apr 10 Python
Python注释详解
Jun 01 Python
Python+Selenium自动化实现分页(pagination)处理
Mar 31 Python
Python中字典(dict)合并的四种方法总结
Aug 10 Python
使用Python通过win32 COM打开Excel并添加Sheet的方法
May 02 Python
python pygame实现2048游戏
Nov 20 Python
python绘制地震散点图
Jun 18 Python
解决Django一个表单对应多个按钮的问题
Jul 18 Python
django 框架实现的用户注册、登录、退出功能示例
Nov 28 Python
python add_argument()用法解析
Jan 29 Python
解决Keyerror ''acc'' KeyError: ''val_acc''问题
Jun 18 Python
python画条形图的具体代码
Apr 20 Python
python实现udp数据报传输的方法
Sep 26 #Python
python使用Berkeley DB数据库实例
Sep 26 #Python
python实现通过shelve修改对象实例
Sep 26 #Python
python实现在pickling的时候压缩的方法
Sep 25 #Python
python使用cPickle模块序列化实例
Sep 25 #Python
python使用marshal模块序列化实例
Sep 25 #Python
python中类的一些方法分析
Sep 25 #Python
You might like
学习使用curl采集curl使用方法
2012/01/11 PHP
解析PHP中ob_start()函数的用法
2013/06/24 PHP
php导入csv文件碰到乱码问题的解决方法
2014/02/10 PHP
WordPress中邮件的一些修改和自定义技巧
2015/12/15 PHP
PHP如何读取由JavaScript设置的Cookie
2017/03/22 PHP
PHP面向对象程序设计之接口的继承定义与用法详解
2018/12/20 PHP
解决laravel中日志权限莫名变成了root的问题
2019/10/17 PHP
让广告代码不再影响你的网页加载速度
2006/07/07 Javascript
Div自动滚动到末尾的代码
2008/10/26 Javascript
jQuery处理xml格式的返回数据(实例解析)
2013/11/28 Javascript
javascript中直接引用Microsoft的COM生成Word
2014/01/20 Javascript
使用JavaScript判断图片是否加载完成的三种实现方式
2014/05/04 Javascript
js和jquery如何获取图片真实的宽度和高度
2014/09/28 Javascript
jQuery插件slick实现响应式移动端幻灯片图片切换特效
2015/04/12 Javascript
gulp-htmlmin压缩html的gulp插件实例代码
2016/06/06 Javascript
jQuery插件FusionCharts绘制的3D饼状图效果实例【附demo源码下载】
2017/03/03 Javascript
详解ECMAScript6入门--Class对象
2017/04/27 Javascript
angularjs项目的页面跳转如何实现(5种方法)
2017/05/25 Javascript
JavaScript屏蔽Backspace键的实现代码
2017/11/02 Javascript
bootstrap select下拉搜索插件使用方法详解
2017/11/23 Javascript
Node中使用ES6语法的基础教程
2018/01/05 Javascript
javascript填充默认头像方法
2018/02/22 Javascript
vue动态路由配置及路由传参的方式
2018/05/23 Javascript
vue-router 起步步骤详解
2019/03/26 Javascript
js实现九宫格抽奖
2020/03/19 Javascript
Python根据区号生成手机号码的方法
2015/07/08 Python
python实现写数字文件名的递增保存文件方法
2018/10/25 Python
Django objects的查询结果转化为json的三种方式的方法
2018/11/07 Python
css 如何让背景图片拉伸填充避免重复显示
2013/07/11 HTML / CSS
洲际酒店集团大中华区:IHG中国
2016/08/17 全球购物
美国隐形眼镜零售商:LensPure
2019/03/10 全球购物
Sql面试题
2013/03/20 面试题
师范生实习自我鉴定
2013/11/01 职场文书
五好关工委申报材料
2014/05/31 职场文书
美丽的大脚观后感
2015/06/03 职场文书
再谈python_tkinter弹出对话框创建
2022/03/20 Python