编程 Python

详解Python3网络爬虫(二)：利用urllib.urlopen向有道翻译发送数据获得翻译结果

Posted in Python onMay 07, 2019

上一篇内容，已经学会了使用简单的语句对网页进行抓取。接下来，详细看下urlopen的两个重要参数url和data，学习如何发送数据data

一、urlopen的url参数 Agent

url不仅可以是一个字符串，例如:http://www.baidu.com。url也可以是一个Request对象，这就需要我们先定义一个Request对象，然后将这个Request对象作为urlopen的参数使用，方法如下：

# -*- coding: UTF-8 -*-
from urllib import request

if __name__ == "__main__":
  req = request.Request("http://fanyi.baidu.com/")
  response = request.urlopen(req)
  html = response.read()
  html = html.decode("utf-8")
  print(html)

同样，运行这段代码同样可以得到网页信息。可以看一下这段代码和上个笔记中代码的不同，对比一下就明白了。

urlopen()返回的对象，可以使用read()进行读取，同样也可以使用geturl()方法、info()方法、getcode()方法。

详解Python3网络爬虫(二)：利用urllib.urlopen向有道翻译发送数据获得翻译结果

geturl()返回的是一个url的字符串；

info()返回的是一些meta标记的元信息，包括一些服务器的信息；

getcode()返回的是HTTP的状态码，如果返回200表示请求成功。

关于META标签和HTTP状态码的内容可以自行百度百科，里面有很详细的介绍。

详解Python3网络爬虫(二)：利用urllib.urlopen向有道翻译发送数据获得翻译结果

了解到这些，我们就可以进行新一轮的测试，新建文件名urllib_test04.py，编写如下代码：

# -*- coding: UTF-8 -*-
from urllib import request

if __name__ == "__main__":
  req = request.Request("http://fanyi.baidu.com/")
  response = request.urlopen(req)
  print("geturl打印信息：%s"%(response.geturl()))
  print('**********************************************')
  print("info打印信息：%s"%(response.info()))
  print('**********************************************')
  print("getcode打印信息：%s"%(response.getcode()))

可以得到如下运行结果：

详解Python3网络爬虫(二)：利用urllib.urlopen向有道翻译发送数据获得翻译结果

二、urlopen的data参数

我们可以使用data参数，向服务器发送数据。根据HTTP规范，GET用于信息获取，POST是向服务器提交数据的一种请求，再换句话说：

从客户端向服务器提交数据使用POST；

从服务器获得数据到客户端使用GET(GET也可以提交，暂不考虑)。

如果没有设置urlopen()函数的data参数，HTTP请求采用GET方式，也就是我们从服务器获取信息，如果我们设置data参数，HTTP请求采用POST方式，也就是我们向服务器传递数据。

data参数有自己的格式，它是一个基于application/x-www.form-urlencoded的格式，具体格式我们不用了解，因为我们可以使用urllib.parse.urlencode()函数将字符串自动转换成上面所说的格式。

三、发送data实例

向有道翻译发送data，得到翻译结果。

1.打开有道翻译界面，如下图所示：

详解Python3网络爬虫(二)：利用urllib.urlopen向有道翻译发送数据获得翻译结果

2.鼠标右键检查，也就是审查元素，如下图所示：

详解Python3网络爬虫(二)：利用urllib.urlopen向有道翻译发送数据获得翻译结果

3.选择右侧出现的Network，如下图所示：

详解Python3网络爬虫(二)：利用urllib.urlopen向有道翻译发送数据获得翻译结果

4.在左侧输入翻译内容，输入Jack，如下图所示：

详解Python3网络爬虫(二)：利用urllib.urlopen向有道翻译发送数据获得翻译结果

5.点击自动翻译按钮，我们就可以看到右侧出现的内容，如下图所示：

详解Python3网络爬虫(二)：利用urllib.urlopen向有道翻译发送数据获得翻译结果

6.点击上图红框中的内容，查看它的信息，如下图所示：

详解Python3网络爬虫(二)：利用urllib.urlopen向有道翻译发送数据获得翻译结果

7.记住这些信息，这是我们一会儿写程序需要用到的。

新建文件translate_test.py，编写如下代码：

# -*- coding: UTF-8 -*-
from urllib import request
from urllib import parse
import json

if __name__ == "__main__":
  #对应上图的Request URL
  Request_URL = 'http://fanyi.youdao.com/translate?smartresult=dict&smartresult=rule&smartresult=ugc&sessionFrom=https://www.baidu.com/link'
  #创建Form_Data字典，存储上图的Form Data
  Form_Data = {}
  Form_Data['type'] = 'AUTO'
  Form_Data['i'] = 'Jack'
  Form_Data['doctype'] = 'json'
  Form_Data['xmlVersion'] = '1.8'
  Form_Data['keyfrom'] = 'fanyi.web'
  Form_Data['ue'] = 'ue:UTF-8'
  Form_Data['action'] = 'FY_BY_CLICKBUTTON'
  #使用urlencode方法转换标准格式
  data = parse.urlencode(Form_Data).encode('utf-8')
  #传递Request对象和转换完格式的数据
  response = request.urlopen(Request_URL,data)
  #读取信息并解码
  html = response.read().decode('utf-8')
  #使用JSON
  translate_results = json.loads(html)
  #找到翻译结果
  translate_results = translate_results['translateResult'][0][0]['tgt']
  #打印翻译信息
  print("翻译的结果是：%s" % translate_results)

这样我们就可以查看翻译的结果了，如下图所示：

详解Python3网络爬虫(二)：利用urllib.urlopen向有道翻译发送数据获得翻译结果

JSON是一种轻量级的数据交换格式，我们需要从爬取到的内容中找到JSON格式的数据，这里面保存着我们想要的翻译结果，再将得到的JSON格式的翻译结果进行解析，得到我们最终想要的样子：杰克。

以上所述是小编给大家介绍的Python3网络爬虫(二)：利用urllib.urlopen向有道翻译发送数据获得翻译结果详解整合，希望对大家有所帮助，如果大家有任何疑问请给我留言，小编会及时回复大家的。在此也非常感谢大家对三水点靠木网站的支持！

详解Python3网络爬虫(二)：利用urllib.urlopen向有道翻译发送数据获得翻译结果

- Author -

Jack-Cui

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Python 相关文章推荐

在Python中利用Into包整洁地进行数据迁移的教程

Mar 30 Python

详解Python迭代和迭代器

Mar 28 Python

Python使用sftp实现上传和下载功能(实例代码)

Mar 14 Python

python 数据的清理行为实例详解

Jul 12 Python

Python学习入门之区块链详解

Jul 25 Python

Python实现抢购IPhone手机

Feb 07 Python

python 多维切片之冒号和三个点的用法介绍

Apr 19 Python

python3的数据类型及数据类型转换实例详解

Aug 20 Python

Python3和pyqt5实现控件数据动态显示方式

Dec 13 Python

Python高阶函数、常用内置函数用法实例分析

Dec 26 Python

Python可变对象与不可变对象原理解析

Feb 25 Python

python如何随机生成高强度密码

Aug 19 Python

python对象与json相互转换的方法

May 07 #Python

python使用threading.Condition交替打印两个字符

May 07 #Python

python实现银联支付和支付宝支付接入

May 07 #Python

详解Python 爬取13个旅游城市，告诉你五一大家最爱去哪玩？

May 07 #Python

Scrapy-Redis结合POST请求获取数据的方法示例

May 07 #Python

Python数据类型之Set集合实例详解

May 07 #Python

Python数据类型之Dict字典实例详解

May 07 #Python

You might like

火影忍者：三大瞳力之一的白眼，为什么没有写轮眼那么出色？

2020/03/02 日漫

在win7中搭建Linux+PHP 开发环境

2014/10/08 PHP

基于ThinkPHP5.0实现图片上传插件

2017/09/25 PHP

ThinkPHP 5.x远程命令执行漏洞复现

2019/09/23 PHP

js字符编码函数区别分析

2011/12/28 Javascript

Javascript基础教程之变量

2015/01/18 Javascript

JavaScript必知必会(七)js对象继承

2016/06/08 Javascript

微信小程序 toast 详解及实例代码

2016/11/09 Javascript

使用vue.js2.0 + ElementUI开发后台管理系统详细教程（二）

2017/01/21 Javascript

微信小程序支付后台java实现实例

2017/05/09 Javascript

浅谈从React渲染流程分析Diff算法

2018/09/08 Javascript

Python中用于检查英文字母大写的isupper()方法

2015/05/19 Python

说一说Python logging

2016/04/15 Python

浅析PHP与Python进行数据交互

2018/05/15 Python

python实现验证码识别功能

2018/06/07 Python

Python实现的多叉树寻找最短路径算法示例

2018/07/30 Python

Python 比较文本相似性的方法(difflib,Levenshtein)

2018/10/15 Python

使用python批量读取word文档并整理关键信息到excel表格的实例

2018/11/07 Python

Python中作用域的深入讲解

2018/12/10 Python

pandas 把数据写入txt文件每行固定写入一定数量的值方法

2018/12/28 Python

python实现串口自动触发工作的示例

2019/07/02 Python

对python中基于tcp协议的通信(数据传输)实例讲解

2019/07/22 Python

Python pandas实现excel工作表合并功能详解

2019/08/29 Python

python2 对excel表格操作完整示例

2020/02/23 Python

html5-Canvas可以在web中绘制各种图形

2012/12/26 HTML / CSS

HTML5拖拉上传文件的简单实例

2017/01/11 HTML / CSS

美国最大的珠宝商之一：Littman Jewelers

2016/11/13 全球购物

荷兰家电购物网站：Expert.nl

2020/01/18 全球购物

旅游管理实习自我鉴定

2013/09/29 职场文书

中学教师自我鉴定

2014/02/07 职场文书

离婚协议书标准格式

2014/10/04 职场文书

党风廉政建设调研报告

2015/01/01 职场文书

北京英文导游词

2015/02/12 职场文书

2015年大学班级工作总结

2015/04/28 职场文书

刑事申诉状范文

2015/05/20 职场文书

实战快速定位MySQL的慢SQL

2022/03/22 MySQL