编程 Python

python 调用API接口获取和解析 Json数据

Posted in Python onSeptember 28, 2020

任务背景：

调用API接口数据，抽取我们所需类型的数据，并写入指定mysql数据库。

先从宏观上看这个任务，并对任务进行分解：

step1：需要学习python下的通过url读取数据的方式；

step2：数据解析，也是核心部分，数据格式从python角度去理解，是字典？列表？还是各种嵌套？

step3：连接mysql数据库，将数据写入。

从功能上看，该数据获取程序可以分为3个方法，即step1对应方法request_data()，step2对应方法parse_data()，step3对应data_to_db()。

第一轮，暂不考虑异常，只考虑正常状态下的功能实现。

1、先看request_data():

import requests
 def request_data(url): 
 req = requests.get(url, timeout=30) # 请求连接
 req_jason = req.json() # 获取数据
 return req_jason

入参：url地址；return：获取到的数据。

2、然后看parse_data():

不同的API接口下的数据格式各不相同，需要先理清，打开之后密密麻麻一大串，有的可能连完整的一轮数据间隔在哪都不知道，这时候可以巧用符号{ [ , ] }辅助判断。

梳理之后，发现本接口下的数据格式为，最外层为字典，我们所需的数据在第一个key“data”下，data对应的value为列表，列表中的每个元素为字典，字典中的部分键值

即为我们需要的内容。这样，就明确了我们的数据结构为字典套列表，列表再套字典的格式，最后一层的字典还存在一键多值（比如“weather”）的情况。

当然，还有懒人方法，就是百度json在线解析格式化。

摘取部分数据如下：{"data":[{"timestamp_utc":"2020-08-31T08:00:00","weather":{"icon":"c02d","code":802，
wind_dir":336,"clouds_hi":0,"precip":0.0625},{"timestamp_utc":"2020-08-31T08:00:00","weather":{"icon":"c02d","code":802,}，
wind_dir":336,"clouds_hi":0,"precip":0.0625],"city_name":"Dianbu","lon":117.58,"timezone":"Asia\/Shanghai","lat":31.95,"country_code":"CN"}

def parse_data（req_jason):
 data_trunk = req_jason['data']# 获取data键值下的列表
 time_now = datetime.datetime.now().strftime("%Y-%m-%d %H:%M:%S") #获取当前时刻
 for i in range(len(data_trunk)):
  data_unit = data_trunk[i] # 依次获取列表下第i个元素即字典
  del data_unit['weather'] # 删除该字典中不需要的一键多值的key和value，不删除的话会影响后续的dataframe转换，但是，如果该键值需要的话，需要采取其他处理方式
  df = pd.DataFrame([data_unit]) # 将删除键值后的字典转为datafrme
  list_need = ['timestamp_utc', 'wind_dir', 'precip','clouds_hi'] # 列出我们需要的列
  df_need = df[list_need] # 保留df中需要的列  10  df_need.insert(0, 'update_time', time_now) #表格中还需额外增加获取数据的当前时间，并且需要放在dataframe的第一列

备注：数据插入数据库，有两种方式，一种是采用insert的sql语句，采用字典的形式插入，另一种是采用dataframe的方式，采用pandas中的to_sql方法。本案例选择了后者，所以在数据解析时，将字典数据转成dataframe格式。

入参：获取到的数据；return值：无

运行以后，发现这样的程序存在一些问题：就是这个for循环括起来的过多，导致写数据库时是一条条写入而不是一整块写入，会影响程序效率，所以需要对程序进行如下修改：

def parse_data（req_jason):
 data_trunk = req_jason['data']# 获取data键值下的列表
 time_now = datetime.datetime.now().strftime("%Y-%m-%d %H:%M:%S") #获取当前时刻
 for i in range(len(data_trunk)):
  data_unit = data_trunk[i] # 依次获取列表下第i个元素即字典
  del data_unit['weather'] # 删除该字典中不需要的一键多值的key和value，不删除的话会影响后续的dataframe转换，但是，如果该键值需要的话，需要采取其他处理方式
 df = pd.DataFrame(data_trunk) # 将删除键值后的整个列表套字典转为datafrme
 list_need = ['timestamp_utc', 'wind_dir', 'precip','clouds_hi'] # 列出我们需要的列
 df_need = df[list_need] # 保留df中需要的列
 df_need.insert(0, 'update_time', time_now) #表格中还需额外增加获取数据的当前时间，并且需要放在dataframe的第一列

也就是从第7行之后跳出循环；

如果觉得for循环影响整体美观，也可以用map代替，将代码第4/5/6行改为如下代码，不过性能上来说可能还是for循环更好，具体对比可看其他博主的测试，或者自己测试下运行时间。

map(data_trunk.pop, ['weather'])

3. 最后就是data_to_sql（）：

def data_to_sql(df):
 table = 'request_data_api'
 engine = create_engine("mysql+pymysql://" + 'root' + ":" + '123' + "@" + 'localhost' + ":" + '3306' + "/" + 'test' + "?charset=utf8")
 df.to_sql(name=table, con=engine, if_exists='append',
   index=False, index_label=False)

入参：dataframe类型数据。

当当当，正常部分已完成，就下来就需要想象各种异常以及处理对策。

第二轮，想象各种异常以及异常的记录与处理对策。

1.读取url后，获取不到数据 → 休息几秒，尝试再次重连获取

2.连接数据库异常 → 数据库可能关闭，尝试重新ping，

3.写入数据库的内容为空 → 记录异常，放弃入库

第三轮，让程序定时跑起来。

方法一：在代码中采用apscheduler下的cron功能（trigger='cron‘，类似linux下的crontab）实现定时运行（当然，apscheduler还有另一种trigger=‘interval'模式）；

方法二：在linux下的crontab增加定时任务。

具体可以看别的帖子。

以上就是python 调用API接口获取和解析 Json数据的详细内容，更多关于python 解析数据的资料请关注三水点靠木其它相关文章！

python 调用API接口获取和解析 Json数据

- Author -

虾米堡

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Python 相关文章推荐

Python实现爬取知乎神回复简单爬虫代码分享

Jan 04 Python

python分析nignx访问日志脚本分享

Feb 26 Python

python如何实现远程控制电脑（结合微信）

Dec 21 Python

简单了解Python中的几种函数

Nov 03 Python

matplotlib在python上绘制3D散点图实例详解

Dec 09 Python

pandas中去除指定字符的实例

May 18 Python

Python面向对象程序设计类变量与成员变量、类方法与成员方法用法分析

Apr 12 Python

Python3.5内置模块之os模块、sys模块、shutil模块用法实例分析

Apr 27 Python

python3中pip3安装出错,找不到SSL的解决方式

Dec 12 Python

解决jupyter notebook显示不全出现框框或者乱码问题

Apr 09 Python

python中@contextmanager实例用法

Feb 07 Python

Python 视频画质增强

Apr 28 Python

记录一下scrapy中settings的一些配置小结

Sep 28 #Python

使用scrapy ImagesPipeline爬取图片资源的示例代码

Sep 28 #Python

详解scrapy内置中间件的顺序

Sep 28 #Python

Python爬虫代理池搭建的方法步骤

Sep 28 #Python

浅析python 通⽤爬⾍和聚焦爬⾍

Sep 28 #Python

Scrapy 配置动态代理IP的实现

Sep 28 #Python

Scrapy中如何向Spider传入参数的方法实现

Sep 28 #Python

You might like

php中的观察者模式

2010/03/24 PHP

修改destoon会员公司的伪静态中的com目录的方法

2014/08/21 PHP

Linux平台PHP5.4设置FPM线程数量的方法

2016/11/09 PHP

Yii框架页面渲染操作实例详解

2019/07/19 PHP

实例讲解PHP表单

2020/06/10 PHP

脚本收藏iframe

2006/07/21 Javascript

JavaScript中的View-Model使用介绍

2011/08/11 Javascript

Javascript 中 null、NaN和undefined的区别总结

2013/04/10 Javascript

JavaScript中window、doucment、body的解释

2013/08/14 Javascript

javascript获取元素离文档各边距离的方法

2015/02/13 Javascript

JS实现简单路由器功能的方法

2015/05/27 Javascript

node中使用es5/6以及支持性与性能对比

2017/08/11 Javascript

基于vue实现可搜索下拉框定制组件

2020/03/26 Javascript

基于Angular中ng-controller父子级嵌套的相关属性详解

2018/10/08 Javascript

详解Vue组件之作用域插槽

2018/11/22 Javascript

深入浅析Vue 中 ref 的使用

2019/04/29 Javascript

基于layPage插件实现两种分页方式浅析

2019/07/27 Javascript

微信小程序使用GoEasy实现websocket实时通讯

2020/05/19 Javascript

在NodeJs中使用node-schedule增加定时器任务的方法

2020/06/08 NodeJs

一文读懂vue动态属性数据绑定（v-bind指令）

2020/07/20 Javascript

[22:07]DOTA2-DPC中国联赛正赛 iG vs Magma 选手采访

2021/03/11 DOTA

使用python的chardet库获得文件编码并修改编码

2014/01/22 Python

python3.5 + PyQt5 +Eric6 实现的一个计算器代码

2017/03/11 Python

对Pandas MultiIndex(多重索引)详解

2018/11/16 Python

对Python的多进程锁的使用方法详解

2019/02/18 Python

详解Python list和numpy array的存储和读取方法

2019/11/06 Python

python 实现批量替换文本中的某部分内容

2019/12/13 Python

Gap工厂店：Gap Factory

2017/11/02 全球购物

英国第一职业高尔夫商店：Clickgolf.co.uk

2020/11/18 全球购物

应届生高等护理求职信

2013/10/12 职场文书

门卫岗位安全职责

2013/12/13 职场文书

乒乓球比赛通知

2015/04/27 职场文书

钱学森电影观后感

2015/06/04 职场文书

90条交通安全宣传标语

2019/10/12 职场文书

解决tk mapper 通用mapper的bug问题

2021/06/16 Java/Android

Python 中的 copy()和deepcopy()

2021/11/07 Python

python 调用API接口 获取和解析 Json数据

python 调用API接口获取和解析 Json数据