python访问抓取网页常用命令总结


Posted in Python onApril 11, 2017

python访问抓取网页常用命令

简单的抓取网页:

import urllib.request  
url="http://google.cn/" 
response=urllib.request.urlopen(url)  #返回文件对象
page=response.read()

直接将URL保存为本地文件:

import urllib.request  
url="http://google.cn/" 
response=urllib.request.urlopen(url)  #返回文件对象
page=response.read()

POST方式:

import urllib.parse 
import urllib.request 
 
url="http://liuxin-blog.appspot.com/messageboard/add" 
 
values={"content":"命令行发出网页请求测试"} 
data=urllib.parse.urlencode(values) 

#创建请求对象 
req=urllib.request.Request(url,data) 
#获得服务器返回的数据 
response=urllib.request.urlopen(req) 
#处理数据 
page=response.read()

GET方式:

import urllib.parse 
import urllib.request 
 
url="http://www.google.cn/webhp" 
 
values={"rls":"ig"} 
data=urllib.parse.urlencode(values) 
 
theurl=url+"?"+data 
#创建请求对象 
req=urllib.request.Request(theurl) 
#获得服务器返回的数据 
response=urllib.request.urlopen(req) 
#处理数据 
page=response.read()

有2个常用的方法,geturl(),info()

geturl()的设置是为了辨别是否有服务器端的网址重定向,而info()则包含了一系列的信息。

中文问题的处理,会用到 encode()编码 dencode()解码:

感谢阅读,希望能帮助到大家,谢谢大家对本站的支持!

Python 相关文章推荐
Python 条件判断的缩写方法
Sep 06 Python
Python中asyncore的用法实例
Sep 29 Python
Python多进程通信Queue、Pipe、Value、Array实例
Nov 21 Python
Python pass详细介绍及实例代码
Nov 24 Python
python素数筛选法浅析
Mar 19 Python
python处理两种分隔符的数据集方法
Dec 12 Python
浅谈Tensorflow 动态双向RNN的输出问题
Jan 20 Python
TensorFlow实现指数衰减学习率的方法
Feb 05 Python
手把手教你安装Windows版本的Tensorflow
Mar 26 Python
Python中的wordcloud库安装问题及解决方法
May 27 Python
详解如何在pyqt中通过OpenCV实现对窗口的透视变换
Sep 20 Python
linux中nohup和后台运行进程查看及终止
Jun 24 Python
Python 登录网站详解及实例
Apr 11 #Python
python实现FTP服务器服务的方法
Apr 11 #Python
python读写json文件的简单实现
Apr 11 #Python
Python实现Mysql数据库连接池实例详解
Apr 11 #Python
详解Python中类的定义与使用
Apr 11 #Python
python获取指定时间差的时间实例详解
Apr 11 #Python
一个基于flask的web应用诞生 组织结构调整(7)
Apr 11 #Python
You might like
is_uploaded_file函数引发的不能上传文件问题
2013/10/29 PHP
php使用memcoder将视频转成mp4格式的方法
2015/03/12 PHP
Yii2 中实现单点登录的方法
2018/03/09 PHP
PHP _construct()函数讲解
2019/02/03 PHP
PHP+ajax实现上传、删除、修改单张图片及后台处理逻辑操作详解
2020/02/12 PHP
TextArea设置MaxLength属性最大输入值的js代码
2012/12/21 Javascript
Struts2的s:radio标签使用及用jquery添加change事件
2013/04/08 Javascript
jQuery随便控制任意div隐藏的方法
2013/06/28 Javascript
用jQuery toggleClass 实现鼠标移上变色
2014/05/14 Javascript
Jquery异步提交表单代码分享
2015/03/26 Javascript
使用jquery实现仿百度自动补全特效
2015/07/23 Javascript
JS的框架Polymer中的dom-if和is属性使用说明
2015/07/29 Javascript
微信jssdk用法汇总
2016/07/16 Javascript
纯js和css完成贪吃蛇小游戏demo
2016/09/01 Javascript
JavaScript构建自己的对象示例
2016/11/29 Javascript
利用Javascript实现简单的转盘抽奖
2017/02/13 Javascript
JavaScript设计模式之单例模式详解
2017/06/09 Javascript
vue解决跨域路由冲突问题思路解析
2017/11/03 Javascript
vuex 实现getter值赋值给vue组件里的data示例
2019/11/05 Javascript
学前端,css与javascript重难点浅析
2020/06/11 Javascript
[02:33]2018 DOTA2亚洲邀请赛回顾视频 再次拾起那些美妙的时刻
2018/04/10 DOTA
[54:47]Liquid vs VP Supermajor决赛 BO 第五场 6.10
2018/07/05 DOTA
Python translator使用实例
2008/09/06 Python
python爬虫基本知识
2018/03/05 Python
python给微信好友定时推送消息的示例
2019/02/20 Python
利用python实现PSO算法优化二元函数
2019/11/13 Python
法国综合购物网站:RueDuCommerce
2016/09/12 全球购物
澳大利亚优惠网站:Deals.com.au
2019/07/02 全球购物
欢送退休感言
2014/02/08 职场文书
家庭贫困证明
2014/09/23 职场文书
置业顾问岗位职责
2015/02/09 职场文书
化验员岗位职责
2015/02/14 职场文书
2015年领班工作总结
2015/04/29 职场文书
话题作文之自信作文
2019/11/15 职场文书
Python使用海龟绘图实现贪吃蛇游戏
2021/06/18 Python
星际争霸:毕姥爷vs解冻03
2022/04/01 星际争霸