python访问抓取网页常用命令总结


Posted in Python onApril 11, 2017

python访问抓取网页常用命令

简单的抓取网页:

import urllib.request  
url="http://google.cn/" 
response=urllib.request.urlopen(url)  #返回文件对象
page=response.read()

直接将URL保存为本地文件:

import urllib.request  
url="http://google.cn/" 
response=urllib.request.urlopen(url)  #返回文件对象
page=response.read()

POST方式:

import urllib.parse 
import urllib.request 
 
url="http://liuxin-blog.appspot.com/messageboard/add" 
 
values={"content":"命令行发出网页请求测试"} 
data=urllib.parse.urlencode(values) 

#创建请求对象 
req=urllib.request.Request(url,data) 
#获得服务器返回的数据 
response=urllib.request.urlopen(req) 
#处理数据 
page=response.read()

GET方式:

import urllib.parse 
import urllib.request 
 
url="http://www.google.cn/webhp" 
 
values={"rls":"ig"} 
data=urllib.parse.urlencode(values) 
 
theurl=url+"?"+data 
#创建请求对象 
req=urllib.request.Request(theurl) 
#获得服务器返回的数据 
response=urllib.request.urlopen(req) 
#处理数据 
page=response.read()

有2个常用的方法,geturl(),info()

geturl()的设置是为了辨别是否有服务器端的网址重定向,而info()则包含了一系列的信息。

中文问题的处理,会用到 encode()编码 dencode()解码:

感谢阅读,希望能帮助到大家,谢谢大家对本站的支持!

Python 相关文章推荐
python中List的sort方法指南
Sep 01 Python
Python3的urllib.parse常用函数小结(urlencode,quote,quote_plus,unquote,unquote_plus等)
Sep 18 Python
python 利用栈和队列模拟递归的过程
May 29 Python
利用python GDAL库读写geotiff格式的遥感影像方法
Nov 29 Python
详解Python 切片语法
Jun 10 Python
ML神器:sklearn的快速使用及入门
Jul 11 Python
python Tcp协议发送和接收信息的例子
Jul 22 Python
Python笔试面试题小结
Sep 07 Python
Django模板之基本的 for 循环 和 List内容的显示方式
Mar 31 Python
Spark处理数据排序问题如何避免OOM
May 21 Python
python自动化测试三部曲之request+django实现接口测试
Oct 07 Python
手把手教你使用TensorFlow2实现RNN
Jul 15 Python
Python 登录网站详解及实例
Apr 11 #Python
python实现FTP服务器服务的方法
Apr 11 #Python
python读写json文件的简单实现
Apr 11 #Python
Python实现Mysql数据库连接池实例详解
Apr 11 #Python
详解Python中类的定义与使用
Apr 11 #Python
python获取指定时间差的时间实例详解
Apr 11 #Python
一个基于flask的web应用诞生 组织结构调整(7)
Apr 11 #Python
You might like
ThinkPHP验证码和分页实例教程
2014/08/22 PHP
PHP获取文件夹内文件数的方法
2015/03/12 PHP
thinkPHP模型初始化实例分析
2015/12/03 PHP
PHP实现防盗链的方法分析
2017/07/25 PHP
微信公众平台开发教程⑥ 微信开发集成类的使用图文详解
2019/04/10 PHP
jquery取子节点及当前节点属性值的方法
2014/09/09 Javascript
canvas实现探照灯效果
2017/02/07 Javascript
jquery实现折叠菜单效果【推荐】
2017/03/08 Javascript
详解使用nodeJs安装Vue-cli
2017/05/17 NodeJs
客户端(vue框架)与服务器(koa框架)通信及服务器跨域配置详解
2017/08/26 Javascript
JS中的多态实例详解
2017/10/15 Javascript
vue + element-ui实现简洁的导入导出功能
2017/12/22 Javascript
手把手教你如何使用nodejs编写cli命令行
2018/11/05 NodeJs
javascript如何实现create方法
2019/11/04 Javascript
vue+Element-ui实现分页效果
2020/11/15 Javascript
[00:09]DOTA2全国高校联赛 精彩活动引爆全场
2018/05/30 DOTA
浅谈python中set使用
2016/06/30 Python
用yum安装MySQLdb模块的步骤方法
2016/12/15 Python
Python爬取网易云音乐上评论火爆的歌曲
2017/01/19 Python
Python操作word常见方法示例【win32com与docx模块】
2018/07/17 Python
关于pytorch处理类别不平衡的问题
2019/12/31 Python
python实现将range()函数生成的数字存储在一个列表中
2020/04/02 Python
Jupyter notebook快速入门教程(推荐)
2020/05/18 Python
亚瑟士美国官网:ASICS美国
2017/02/01 全球购物
viagogo波兰票务平台:演唱会、体育比赛、戏剧门票
2018/04/23 全球购物
Hunkemöller瑞士网上商店:欧洲最大的内衣品牌之一
2018/12/03 全球购物
利达恒信公司.NET笔试题面试题
2016/03/05 面试题
用C#语言写出在本地创建一个UDP接收端口的具体过程
2016/02/22 面试题
中文系学生自荐信范文
2013/11/13 职场文书
竞争与合作演讲稿
2014/05/12 职场文书
安全生产宣传标语
2014/06/06 职场文书
2014年领导班子专项整治整改方案
2014/09/28 职场文书
服务明星事迹材料
2014/12/29 职场文书
中学生思想品德评语
2014/12/31 职场文书
异地恋情人节寄语
2015/02/28 职场文书
2015年关爱留守儿童工作总结
2015/05/22 职场文书