python访问抓取网页常用命令总结


Posted in Python onApril 11, 2017

python访问抓取网页常用命令

简单的抓取网页:

import urllib.request  
url="http://google.cn/" 
response=urllib.request.urlopen(url)  #返回文件对象
page=response.read()

直接将URL保存为本地文件:

import urllib.request  
url="http://google.cn/" 
response=urllib.request.urlopen(url)  #返回文件对象
page=response.read()

POST方式:

import urllib.parse 
import urllib.request 
 
url="http://liuxin-blog.appspot.com/messageboard/add" 
 
values={"content":"命令行发出网页请求测试"} 
data=urllib.parse.urlencode(values) 

#创建请求对象 
req=urllib.request.Request(url,data) 
#获得服务器返回的数据 
response=urllib.request.urlopen(req) 
#处理数据 
page=response.read()

GET方式:

import urllib.parse 
import urllib.request 
 
url="http://www.google.cn/webhp" 
 
values={"rls":"ig"} 
data=urllib.parse.urlencode(values) 
 
theurl=url+"?"+data 
#创建请求对象 
req=urllib.request.Request(theurl) 
#获得服务器返回的数据 
response=urllib.request.urlopen(req) 
#处理数据 
page=response.read()

有2个常用的方法,geturl(),info()

geturl()的设置是为了辨别是否有服务器端的网址重定向,而info()则包含了一系列的信息。

中文问题的处理,会用到 encode()编码 dencode()解码:

感谢阅读,希望能帮助到大家,谢谢大家对本站的支持!

Python 相关文章推荐
python分割和拼接字符串
Nov 01 Python
简单的通用表达式求10乘阶示例
Mar 03 Python
Python实现迭代时使用索引的方法示例
Jun 05 Python
使用Python来开发微信功能
Jun 13 Python
python 生成图形验证码的方法示例
Nov 11 Python
selenium+python配置chrome浏览器的选项的实现
Mar 18 Python
Python 在函数上添加包装器
Jul 28 Python
Python如何执行精确的浮点数运算
Jul 31 Python
Docker如何部署Python项目的实现详解
Oct 26 Python
利用python清除移动硬盘中的临时文件
Oct 28 Python
如何将numpy二维数组中的np.nan值替换为指定的值
May 14 Python
Python合并多张图片成PDF
Jun 09 Python
Python 登录网站详解及实例
Apr 11 #Python
python实现FTP服务器服务的方法
Apr 11 #Python
python读写json文件的简单实现
Apr 11 #Python
Python实现Mysql数据库连接池实例详解
Apr 11 #Python
详解Python中类的定义与使用
Apr 11 #Python
python获取指定时间差的时间实例详解
Apr 11 #Python
一个基于flask的web应用诞生 组织结构调整(7)
Apr 11 #Python
You might like
YII Framework框架教程之使用YIIC快速创建YII应用详解
2016/03/15 PHP
PHP创建word文档的方法(平台无关)
2016/03/29 PHP
如何通过View::first使用Laravel Blade的动态模板详解
2017/09/21 PHP
搜索附近的人PHP实现代码
2018/02/11 PHP
基于PHP+mysql实现新闻发布系统的开发
2020/08/06 PHP
utf-8编码引起js输出中文乱码的解决办法
2010/06/23 Javascript
Javascript new关键字的玄机 以及其它
2010/08/25 Javascript
获取客户端网卡MAC地址和IP地址实现JS代码
2013/03/17 Javascript
基于jquery的simpleValidate简易验证插件
2014/01/31 Javascript
利用JavaScript检测CPU使用率自己写的
2014/03/22 Javascript
JQuery解析XML的方法小结
2016/04/02 Javascript
详解vue + vuex + directives实现权限按钮的思路
2017/10/24 Javascript
解决jQuery使用append添加的元素事件无效的问题
2018/08/30 jQuery
微信小程序开发之左右分栏效果的实例代码
2019/05/20 Javascript
python实现迭代法求方程组的根过程解析
2019/11/25 Javascript
详解ES6 扩展运算符的使用与注意事项
2020/11/12 Javascript
[59:59]EG vs IG 2018国际邀请赛小组赛BO2 第二场 8.16
2018/08/17 DOTA
在Django的视图中使用数据库查询的方法
2015/07/16 Python
Django 生成登陆验证码代码分享
2017/12/12 Python
python hbase读取数据发送kafka的方法
2018/12/27 Python
python BlockingScheduler定时任务及其他方式的实现
2019/09/19 Python
html5的canvas元素使用方法介绍(画矩形、画折线、圆形)
2014/04/14 HTML / CSS
英国领先的露营和露营车品牌之一:OLPRO
2019/08/06 全球购物
英国床垫和床架购物网站:Bedman
2019/11/04 全球购物
给同学的道歉信
2014/01/16 职场文书
大学生自我鉴定评语
2014/01/27 职场文书
如何写好自荐信
2014/04/07 职场文书
小学生读书活动总结
2014/06/30 职场文书
优秀家长自荐材料
2014/08/26 职场文书
家长学校教学计划
2015/01/19 职场文书
教师个人自我评价
2015/03/04 职场文书
联谊活动总结范文
2015/05/09 职场文书
2016大学生社会实践心得体会范文
2016/01/14 职场文书
《葡萄沟》教学反思
2016/02/23 职场文书
MySQL 亿级数据导入导出及迁移笔记
2021/06/18 MySQL
python游戏开发之pygame实现接球小游戏
2022/04/22 Python