python处理数据,存进hive表的方法


Posted in Python onJuly 04, 2018

首先,公司的小组长给了我一个任务,把一个txt的文件中的部分内容,存进一个在hive中已有的表的相同结构的表中。所以我的流程主要有三个,首先,把数据处理成和hive中表相同结构的数据,然后仿照已有的hive中表的结构再创建一张新的数据表,最后把本地的txt文件上传到hive中新建的数据表中。

1:已有的数据表的结构和在hive表中的结构完全对不上,下面的图是原来hive中表的结构和小组长给我的txt中表的结构:

python处理数据,存进hive表的方法

python处理数据,存进hive表的方法

大家可以看出,我们原来的hive中表的字段一共有17个,而组长给我的表中的字段一共有9个,其中最后一个为json结构,而且顺序还不对,所以我们要进行筛选,把对应上的字段放到相应位置,对应不上的字段写成空。

python处理数据,存进hive表的方法

大家要注意几个地方,原来的数据是按照tab来划分的,所以我们要数好对应的tab的数目,好来计算出来数据的实际的位置信息,然后我们按照原来hive表中的数据顺序,重新排列我们新建表的数据的顺序,下面给大家看看结果:

python处理数据,存进hive表的方法

其中line[0]=null,line[1]=102,大家以此类推。

3:我们把本地的txt文件导入到hive表中。首先我们要新建一个和原来hive表中相同结构的数据表,然后把我们的数据导入到表中,

hive> creat table new_sft(x1 string,x2 string ,...,xn string) partitioned by (d string);

建好表之后,把数据导入到新表之中:

hive> load data local inpath‘/home/opendev/1.txt' into table new_sft;

最后给大家看看我的最终的结果:

python处理数据,存进hive表的方法

以上这篇python处理数据,存进hive表的方法就是小编分享给大家的全部内容了,希望能给大家一个参考,也希望大家多多支持三水点靠木。

Python 相关文章推荐
python3实现短网址和数字相互转换的方法
Apr 28 Python
Python编程之Re模块下的函数介绍
Oct 28 Python
浅谈Series和DataFrame中的sort_index方法
Jun 07 Python
Python定义一个跨越多行的字符串的多种方法小结
Jul 19 Python
对python dataframe逻辑取值的方法详解
Jan 30 Python
python使用opencv对图像mask处理的方法
Jul 05 Python
用Python爬取QQ音乐评论并制成词云图的实例
Aug 24 Python
基于python的BP神经网络及异或实现过程解析
Sep 30 Python
Python多线程获取返回值代码实例
Feb 17 Python
Keras SGD 随机梯度下降优化器参数设置方式
Jun 19 Python
为了顺利买到演唱会的票用Python制作了自动抢票的脚本
Oct 16 Python
Python3使用Qt5来实现简易的五子棋小游戏
May 02 Python
利用Pandas读取文件路径或文件名称包含中文的csv文件方法
Jul 04 #Python
使用pandas read_table读取csv文件的方法
Jul 04 #Python
使用Numpy读取CSV文件,并进行行列删除的操作方法
Jul 04 #Python
Python读取mat文件,并转为csv文件的实例
Jul 04 #Python
python实现对csv文件的列的内容读取
Jul 04 #Python
Python实现朴素贝叶斯分类器的方法详解
Jul 04 #Python
如何优雅地改进Django中的模板碎片缓存详解
Jul 04 #Python
You might like
100多行PHP代码实现socks5代理服务器[2]
2016/05/05 PHP
PHP递归实现文件夹的复制、删除、查看大小操作示例
2017/08/11 PHP
对laravel的csrf 防御机制详解,及form中csrf_token()的存在介绍
2019/10/24 PHP
php正则表达式使用方法整理集合
2020/01/31 PHP
js对象数组按属性快速排序
2011/01/31 Javascript
读jQuery之十三 添加事件和删除事件的核心方法
2011/08/23 Javascript
js对象关系图 方便dom操作
2012/03/18 Javascript
JQuery 文本框回车跳到下一个文本框示例代码
2013/08/30 Javascript
js改变鼠标的形状和样式的方法
2014/03/31 Javascript
js通过location.search来获取页面传来的参数
2014/09/11 Javascript
JavaScript中使用concat()方法拼接字符串的教程
2015/06/06 Javascript
详解JavaScript基本类型和引用类型
2015/12/09 Javascript
工作中比较实用的JavaScript验证和数据处理的干货(经典)
2016/08/03 Javascript
详解基于javascript实现的苹果系统底部菜单
2016/12/02 Javascript
ajax图片上传,图片异步上传,更新实例
2016/12/30 Javascript
Bootstrap 过渡效果Transition 模态框(Modal)
2017/03/17 Javascript
Node.js自定义实现文件路由功能
2017/09/22 Javascript
jQuery实现根据身份证号获取生日、年龄、性别等信息的方法
2019/01/09 jQuery
详解微信小程序-扫一扫 wx.scanCode() 扫码大变身
2019/04/30 Javascript
js如何验证密码强度
2020/03/18 Javascript
使用paramiko远程执行命令、下发文件的实例
2017/10/01 Python
Python cookbook(数据结构与算法)实现查找两个字典相同点的方法
2018/02/18 Python
python中struct模块之字节型数据的处理方法
2019/08/27 Python
python实现输入三角形边长自动作图求面积案例
2020/04/12 Python
python_matplotlib改变横坐标和纵坐标上的刻度(ticks)方式
2020/05/16 Python
浅谈PyTorch中in-place operation的含义
2020/06/27 Python
读取nii或nii.gz文件中的信息即输出图像操作
2020/07/01 Python
python dict如何定义
2020/09/02 Python
最新PyCharm 2020.2.3永久激活码(亲测有效)
2020/11/26 Python
骆驼官方商城:CAMEL
2016/11/22 全球购物
星空联盟C# .net笔试题
2014/12/05 面试题
管事部库房保管员岗位职责
2014/02/21 职场文书
解除劳动合同证明书
2014/09/26 职场文书
检讨书范文
2015/01/27 职场文书
涪陵白鹤梁导游词
2015/02/09 职场文书
护士个人年度总结范文
2015/02/13 职场文书