python处理数据,存进hive表的方法


Posted in Python onJuly 04, 2018

首先,公司的小组长给了我一个任务,把一个txt的文件中的部分内容,存进一个在hive中已有的表的相同结构的表中。所以我的流程主要有三个,首先,把数据处理成和hive中表相同结构的数据,然后仿照已有的hive中表的结构再创建一张新的数据表,最后把本地的txt文件上传到hive中新建的数据表中。

1:已有的数据表的结构和在hive表中的结构完全对不上,下面的图是原来hive中表的结构和小组长给我的txt中表的结构:

python处理数据,存进hive表的方法

python处理数据,存进hive表的方法

大家可以看出,我们原来的hive中表的字段一共有17个,而组长给我的表中的字段一共有9个,其中最后一个为json结构,而且顺序还不对,所以我们要进行筛选,把对应上的字段放到相应位置,对应不上的字段写成空。

python处理数据,存进hive表的方法

大家要注意几个地方,原来的数据是按照tab来划分的,所以我们要数好对应的tab的数目,好来计算出来数据的实际的位置信息,然后我们按照原来hive表中的数据顺序,重新排列我们新建表的数据的顺序,下面给大家看看结果:

python处理数据,存进hive表的方法

其中line[0]=null,line[1]=102,大家以此类推。

3:我们把本地的txt文件导入到hive表中。首先我们要新建一个和原来hive表中相同结构的数据表,然后把我们的数据导入到表中,

hive> creat table new_sft(x1 string,x2 string ,...,xn string) partitioned by (d string);

建好表之后,把数据导入到新表之中:

hive> load data local inpath‘/home/opendev/1.txt' into table new_sft;

最后给大家看看我的最终的结果:

python处理数据,存进hive表的方法

以上这篇python处理数据,存进hive表的方法就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持三水点靠木。

Python 相关文章推荐
python用ConfigObj读写配置文件的实现代码
Mar 04 Python
Python模拟登陆实现代码
Jun 14 Python
python 动态加载的实现方法
Dec 22 Python
python的Tqdm模块的使用
Jan 10 Python
PyTorch上搭建简单神经网络实现回归和分类的示例
Apr 28 Python
django1.11.1 models 数据库同步方法
May 30 Python
python pandas实现excel转为html格式的方法
Oct 23 Python
微信公众号token验证失败解决方案
Jul 22 Python
对django 模型 unique together的示例讲解
Aug 06 Python
python实现图像全景拼接
Mar 27 Python
Python 保存加载mat格式文件的示例代码
Aug 04 Python
Python如何把字典写入到CSV文件的方法示例
Aug 23 Python
利用Pandas读取文件路径或文件名称包含中文的csv文件方法
Jul 04 #Python
使用pandas read_table读取csv文件的方法
Jul 04 #Python
使用Numpy读取CSV文件,并进行行列删除的操作方法
Jul 04 #Python
Python读取mat文件,并转为csv文件的实例
Jul 04 #Python
python实现对csv文件的列的内容读取
Jul 04 #Python
Python实现朴素贝叶斯分类器的方法详解
Jul 04 #Python
如何优雅地改进Django中的模板碎片缓存详解
Jul 04 #Python
You might like
php实现斐波那契数列的简单写法
2014/07/19 PHP
PHP使用array_fill定义多维数组的方法
2015/03/18 PHP
PHP ajax 异步执行不等待执行结果的处理方法
2015/05/27 PHP
Thinkphp5结合layer弹窗定制操作结果页面
2017/07/07 PHP
在Laravel中使用MongoDB的方法示例
2019/11/11 PHP
基于Jquery的动态创建DOM元素的代码
2010/12/28 Javascript
浅析webapp框架AngularUI的demo
2014/12/21 Javascript
Jquery动态替换div内容及动态展示的方法
2015/01/23 Javascript
JavaScript实现倒计时跳转页面功能【实用】
2016/12/13 Javascript
JS绘制微信小程序画布时钟
2016/12/24 Javascript
原生JS实现图片轮播效果
2016/12/26 Javascript
Angular 2父子组件数据传递之@Input和@Output详解(下)
2017/07/05 Javascript
SVG实现时钟效果
2018/07/17 Javascript
vue中引入mxGraph的步骤详解
2019/05/17 Javascript
BootStrap前端框架使用方法详解
2020/02/26 Javascript
antd多选下拉框一行展示的实现方式
2020/10/31 Javascript
Python抓取淘宝下拉框关键词的方法
2015/07/08 Python
python解决pandas处理缺失值为空字符串的问题
2018/04/08 Python
详解python--模拟轮盘抽奖游戏
2019/04/12 Python
Python tornado上传文件的功能
2020/03/26 Python
Keras中的两种模型:Sequential和Model用法
2020/06/27 Python
python实现图片转字符画
2021/02/19 Python
CSS3伪类选择器:nth-child()
2009/04/02 HTML / CSS
用JAVA实现一种排序,JAVA类实现序列化的方法(二种)
2014/04/23 面试题
初任培训自我鉴定
2013/10/07 职场文书
大学生毕业求职简历的自我评价
2013/10/24 职场文书
机械设计及其自动化求职推荐信
2014/02/17 职场文书
抗洪救灾先进集体事迹材料
2014/05/26 职场文书
2014年九一八事变演讲稿
2014/09/14 职场文书
三严三实心得体会范文
2014/10/13 职场文书
个人批评与自我批评范文
2014/10/17 职场文书
学校法制宣传日活动总结
2014/11/01 职场文书
介绍信如何写
2015/01/31 职场文书
生产设备维护保养制度
2015/08/06 职场文书
个人工作失误的保证书怎么写?
2019/06/21 职场文书
Go 内联优化让程序员爱不释手
2022/06/21 Golang