python 调用API接口 获取和解析 Json数据


Posted in Python onSeptember 28, 2020

任务背景:

调用API接口数据,抽取我们所需类型的数据,并写入指定mysql数据库。

先从宏观上看这个任务,并对任务进行分解:

step1:需要学习python下的通过url读取数据的方式;

step2:数据解析,也是核心部分,数据格式从python角度去理解,是字典?列表?还是各种嵌套?

step3:连接mysql数据库,将数据写入。

从功能上看,该数据获取程序可以分为3个方法,即step1对应方法request_data(),step2对应方法parse_data(),step3对应data_to_db()。

第一轮,暂不考虑异常,只考虑正常状态下的功能实现。

1、先看request_data():

import requests
 def request_data(url): 
 req = requests.get(url, timeout=30) # 请求连接
 req_jason = req.json() # 获取数据
 return req_jason

入参:url地址;return:获取到的数据。

2、然后看parse_data():

不同的API接口下的数据格式各不相同,需要先理清,打开之后密密麻麻一大串,有的可能连完整的一轮数据间隔在哪都不知道,这时候可以巧用符号{ [ , ] }辅助判断。

梳理之后,发现本接口下的数据格式为,最外层为字典,我们所需的数据在第一个key“data”下,data对应的value为列表,列表中的每个元素为字典,字典中的部分键值

即为我们需要的内容。这样,就明确了我们的数据结构为字典套列表,列表再套字典的格式,最后一层的字典还存在一键多值(比如“weather”)的情况。

当然,还有懒人方法,就是百度json在线解析格式化。

摘取部分数据如下:{"data":[{"timestamp_utc":"2020-08-31T08:00:00","weather":{"icon":"c02d","code":802,
wind_dir":336,"clouds_hi":0,"precip":0.0625},{"timestamp_utc":"2020-08-31T08:00:00","weather":{"icon":"c02d","code":802,},
wind_dir":336,"clouds_hi":0,"precip":0.0625],"city_name":"Dianbu","lon":117.58,"timezone":"Asia\/Shanghai","lat":31.95,"country_code":"CN"}

def parse_data(req_jason):
 data_trunk = req_jason['data']# 获取data键值下的列表
 time_now = datetime.datetime.now().strftime("%Y-%m-%d %H:%M:%S") #获取当前时刻
 for i in range(len(data_trunk)):
  data_unit = data_trunk[i] # 依次获取列表下第i个元素即字典
  del data_unit['weather'] # 删除该字典中不需要的一键多值的key和value,不删除的话会影响后续的dataframe转换,但是,如果该键值需要的话,需要采取其他处理方式
  df = pd.DataFrame([data_unit]) # 将删除键值后的字典转为datafrme
  list_need = ['timestamp_utc', 'wind_dir', 'precip','clouds_hi'] # 列出我们需要的列
  df_need = df[list_need] # 保留df中需要的列  10  df_need.insert(0, 'update_time', time_now) #表格中还需额外增加获取数据的当前时间,并且需要放在dataframe的第一列

备注:数据插入数据库,有两种方式,一种是采用insert的sql语句,采用字典的形式插入,另一种是采用dataframe的方式,采用pandas中的to_sql方法。本案例选择了后者,所以在数据解析时,将字典数据转成dataframe格式。

入参:获取到的数据;return值:无

运行以后,发现这样的程序存在一些问题:就是这个for循环括起来的过多,导致写数据库时是一条条写入而不是一整块写入,会影响程序效率,所以需要对程序进行如下修改:

def parse_data(req_jason):
 data_trunk = req_jason['data']# 获取data键值下的列表
 time_now = datetime.datetime.now().strftime("%Y-%m-%d %H:%M:%S") #获取当前时刻
 for i in range(len(data_trunk)):
  data_unit = data_trunk[i] # 依次获取列表下第i个元素即字典
  del data_unit['weather'] # 删除该字典中不需要的一键多值的key和value,不删除的话会影响后续的dataframe转换,但是,如果该键值需要的话,需要采取其他处理方式
 df = pd.DataFrame(data_trunk) # 将删除键值后的整个列表套字典转为datafrme
 list_need = ['timestamp_utc', 'wind_dir', 'precip','clouds_hi'] # 列出我们需要的列
 df_need = df[list_need] # 保留df中需要的列
 df_need.insert(0, 'update_time', time_now) #表格中还需额外增加获取数据的当前时间,并且需要放在dataframe的第一列

也就是从第7行之后跳出循环;

如果觉得for循环影响整体美观,也可以用map代替,将代码第4/5/6行改为如下代码,不过性能上来说可能还是for循环更好,具体对比可看其他博主的测试,或者自己测试下运行时间。

map(data_trunk.pop, ['weather'])

3. 最后就是data_to_sql():

def data_to_sql(df):
 table = 'request_data_api'
 engine = create_engine("mysql+pymysql://" + 'root' + ":" + '123' + "@" + 'localhost' + ":" + '3306' + "/" + 'test' + "?charset=utf8")
 df.to_sql(name=table, con=engine, if_exists='append',
   index=False, index_label=False)

入参:dataframe类型数据。

当当当,正常部分已完成,就下来就需要想象各种异常以及处理对策。

第二轮,想象各种异常以及异常的记录与处理对策。

1.读取url后,获取不到数据 → 休息几秒,尝试再次重连获取

2.连接数据库异常 → 数据库可能关闭,尝试重新ping,

3.写入数据库的内容为空 → 记录异常,放弃入库

第三轮,让程序定时跑起来。

方法一:在代码中采用apscheduler下的cron功能(trigger='cron‘,类似linux下的crontab)实现定时运行(当然,apscheduler还有另一种trigger=‘interval'模式);

方法二:在linux下的crontab增加定时任务。

具体可以看别的帖子。

以上就是python 调用API接口 获取和解析 Json数据的详细内容,更多关于python 解析数据的资料请关注三水点靠木其它相关文章!

Python 相关文章推荐
python基础教程之字典操作详解
Mar 25 Python
Python设计模式之观察者模式实例
Apr 26 Python
简单使用Python自动生成文章
Dec 25 Python
Python切片操作去除字符串首尾的空格
Apr 22 Python
Django如何实现网站注册用户邮箱验证功能
Aug 14 Python
在PyCharm中遇到pip安装 失败问题及解决方案(pip失效时的解决方案)
Mar 10 Python
Python json转字典字符方法实例解析
Apr 13 Python
pycharm远程连接vagrant虚拟机中mariadb数据库
Jun 05 Python
详解查看Python解释器路径的两种方式
Oct 15 Python
Python暴力破解Mysql数据的示例
Nov 09 Python
python 爬虫如何实现百度翻译
Nov 16 Python
Python并发编程实例教程之线程的玩法
Jun 20 Python
记录一下scrapy中settings的一些配置小结
Sep 28 #Python
使用scrapy ImagesPipeline爬取图片资源的示例代码
Sep 28 #Python
详解scrapy内置中间件的顺序
Sep 28 #Python
Python爬虫代理池搭建的方法步骤
Sep 28 #Python
浅析python 通⽤爬⾍和聚焦爬⾍
Sep 28 #Python
Scrapy 配置动态代理IP的实现
Sep 28 #Python
Scrapy中如何向Spider传入参数的方法实现
Sep 28 #Python
You might like
中国站长站 For Dede4.0 采集规则
2007/05/27 PHP
php PDO中文乱码解决办法
2009/07/20 PHP
Smarty变量用法详解
2016/05/11 PHP
php curl中gzip的压缩性能测试实例分析
2016/11/08 PHP
JavaScript中的new的使用方法与注意事项
2007/05/16 Javascript
js 格式化时间日期函数小结
2010/03/20 Javascript
javascript窗口宽高,鼠标位置,滚动高度(详细解析)
2013/11/18 Javascript
jquery实现根据浏览器窗口大小自动缩放图片的方法
2015/07/17 Javascript
jquery获取css的color值返回RGB的方法
2015/12/18 Javascript
jQuery实现页面倒计时并刷新效果
2017/03/13 Javascript
详解angularjs中的隔离作用域理解以及绑定策略
2017/05/31 Javascript
BetterScroll 在移动端滚动场景的应用
2017/09/18 Javascript
详解微信小程序canvas圆角矩形的绘制的方法
2018/08/22 Javascript
vue单页缓存存在的问题及解决方案(小结)
2018/09/25 Javascript
Vue 使用计时器实现跑马灯效果的实例代码
2019/07/11 Javascript
vue+moment实现倒计时效果
2019/08/26 Javascript
vue+ESLint 配置保存 自动格式化代码
2020/03/17 Javascript
[13:38]2015国际邀请赛中国战队出征仪式
2015/05/29 DOTA
[50:22]完美盛典-2018年度红毯走秀
2018/12/16 DOTA
python的tkinter布局之简单的聊天窗口实现方法
2014/09/03 Python
Python的语言类型(详解)
2017/06/24 Python
python+pyqt实现右下角弹出框
2017/10/26 Python
python实现远程通过网络邮件控制计算机重启或关机
2018/02/22 Python
对Python3 goto 语句的使用方法详解
2019/02/16 Python
详解Anconda环境下载python包的教程(图形界面+命令行+pycharm安装)
2019/11/11 Python
matplotlib绘制正余弦曲线图的实现
2021/02/22 Python
HTML5 图片预加载的示例代码
2020/03/25 HTML / CSS
YSL Beauty加拿大官方商城:圣罗兰美妆加拿大
2017/05/15 全球购物
澳洲健康食品网上商店:Aussie Health Products
2018/06/15 全球购物
德国隐形眼镜店:LuckyLens
2018/07/29 全球购物
剪枝的学问教学反思
2014/02/07 职场文书
会走路的树教学反思
2014/02/20 职场文书
民事上诉状范文
2015/05/22 职场文书
2015年校医个人工作总结
2015/07/24 职场文书
Django操作cookie的实现
2021/05/26 Python
分析ZooKeeper分布式锁的实现
2021/06/30 Java/Android