python处理数据,存进hive表的方法


Posted in Python onJuly 04, 2018

首先,公司的小组长给了我一个任务,把一个txt的文件中的部分内容,存进一个在hive中已有的表的相同结构的表中。所以我的流程主要有三个,首先,把数据处理成和hive中表相同结构的数据,然后仿照已有的hive中表的结构再创建一张新的数据表,最后把本地的txt文件上传到hive中新建的数据表中。

1:已有的数据表的结构和在hive表中的结构完全对不上,下面的图是原来hive中表的结构和小组长给我的txt中表的结构:

python处理数据,存进hive表的方法

python处理数据,存进hive表的方法

大家可以看出,我们原来的hive中表的字段一共有17个,而组长给我的表中的字段一共有9个,其中最后一个为json结构,而且顺序还不对,所以我们要进行筛选,把对应上的字段放到相应位置,对应不上的字段写成空。

python处理数据,存进hive表的方法

大家要注意几个地方,原来的数据是按照tab来划分的,所以我们要数好对应的tab的数目,好来计算出来数据的实际的位置信息,然后我们按照原来hive表中的数据顺序,重新排列我们新建表的数据的顺序,下面给大家看看结果:

python处理数据,存进hive表的方法

其中line[0]=null,line[1]=102,大家以此类推。

3:我们把本地的txt文件导入到hive表中。首先我们要新建一个和原来hive表中相同结构的数据表,然后把我们的数据导入到表中,

hive> creat table new_sft(x1 string,x2 string ,...,xn string) partitioned by (d string);

建好表之后,把数据导入到新表之中:

hive> load data local inpath‘/home/opendev/1.txt' into table new_sft;

最后给大家看看我的最终的结果:

python处理数据,存进hive表的方法

以上这篇python处理数据,存进hive表的方法就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持三水点靠木。

Python 相关文章推荐
使用Python的Scrapy框架十分钟爬取美女图
Dec 26 Python
浅谈Python基础之I/O模型
May 11 Python
python的staticmethod与classmethod实现实例代码
Feb 11 Python
python实现聚类算法原理
Feb 12 Python
pycharm重置设置,恢复默认设置的方法
Oct 22 Python
PyQt5 QTable插入图片并动态更新的实例
Jun 18 Python
12个Python程序员面试必备问题与答案(小结)
Jun 24 Python
Python 控制终端输出文字的实例
Jul 12 Python
django有哪些好处和优点
Sep 01 Python
Python的flask接收前台的ajax的post数据和get数据的方法
Apr 12 Python
一行Python命令实现批量加水印
Apr 07 Python
Python开发五子棋小游戏
Apr 28 Python
利用Pandas读取文件路径或文件名称包含中文的csv文件方法
Jul 04 #Python
使用pandas read_table读取csv文件的方法
Jul 04 #Python
使用Numpy读取CSV文件,并进行行列删除的操作方法
Jul 04 #Python
Python读取mat文件,并转为csv文件的实例
Jul 04 #Python
python实现对csv文件的列的内容读取
Jul 04 #Python
Python实现朴素贝叶斯分类器的方法详解
Jul 04 #Python
如何优雅地改进Django中的模板碎片缓存详解
Jul 04 #Python
You might like
国外比较好的几个的Php开源建站平台小结
2010/04/22 PHP
基于php 随机数的深入理解
2013/06/05 PHP
PHP编程中的常见漏洞和代码实例
2014/08/06 PHP
CakePHP框架Model函数定义方法示例
2017/08/04 PHP
关于jQuery $.isNumeric vs. $.isNaN vs. isNaN
2013/04/15 Javascript
js判断当页面无法回退时关闭网页否则就history.go(-1)
2014/08/07 Javascript
《JavaScript DOM 编程艺术》读书笔记之DOM基础
2015/01/09 Javascript
indexedDB bootstrap angularjs之 MVC DOMO (应用示例)
2016/06/20 Javascript
js精准的倒计时函数分享
2016/06/29 Javascript
浅析jQuery操作select控件的取值和设值
2016/12/07 Javascript
原生JS实现跑马灯效果
2017/02/20 Javascript
Node.js学习之地址解析模块URL的使用详解
2017/09/28 Javascript
Angular如何在应用初始化时运行代码详解
2018/06/11 Javascript
对Vue- 动态元素属性及v-bind和v-model的区别详解
2018/08/27 Javascript
浅谈HTTP 缓存的那些事儿
2018/10/17 Javascript
JavaScript this指向相关原理及实例解析
2020/07/10 Javascript
Python获取单个程序CPU使用情况趋势图
2015/03/10 Python
python使用多线程不断刷新网页的方法
2015/03/31 Python
Python+Wordpress制作小说站
2017/04/14 Python
Python基础学习之常见的内建函数整理
2017/09/06 Python
python全栈知识点总结
2019/07/01 Python
python命名空间(namespace)简单介绍
2019/08/10 Python
python 遍历pd.Series的index和value
2019/11/26 Python
html5中valid、invalid、required的定义
2014/02/21 HTML / CSS
HTML5实现可缩放时钟代码
2017/08/28 HTML / CSS
英国性感内衣和睡衣品牌:Bluebella
2018/01/26 全球购物
StubHub澳大利亚:购买或出售您的门票
2019/08/01 全球购物
单位法定代表人授权委托书
2014/09/20 职场文书
街道党工委党的群众路线教育实践活动对照检查材料思想汇报
2014/10/05 职场文书
三下乡个人总结
2015/03/04 职场文书
毕业论文致谢范文
2015/05/14 职场文书
尊师重教主题班会
2015/08/14 职场文书
教师远程培训心得体会
2016/01/09 职场文书
2016年国庆节67周年活动总结
2016/04/01 职场文书
python 通过使用Yolact训练数据集
2021/04/06 Python
python图像处理基本操作总结(PIL库、Matplotlib及Numpy)
2021/06/08 Python