服务器 Servers

Apache Hudi集成Spark SQL操作hide表

Posted in Servers onMarch 31, 2022

1. 摘要

社区小伙伴一直期待的Hudi整合Spark SQL的PR正在积极Review中并已经快接近尾声，Hudi集成Spark SQL预计会在下个版本正式发布，在集成Spark SQL后，会极大方便用户对Hudi表的DDL/DML操作，下面就来看看如何使用Spark SQL操作Hudi表。

2. 环境准备

首先需要将PR拉取到本地打包，生成SPARK_BUNDLE_JAR(hudi-spark-bundle_2.11-0.9.0-SNAPSHOT.jar)包

2.1 启动spark-sql

在配置完spark环境后可通过如下命令启动spark-sql

spark-sql --jars $PATH_TO_SPARK_BUNDLE_JAR  --conf 'spark.serializer=org.apache.spark.serializer.KryoSerializer' --conf 'spark.sql.extensions=org.apache.spark.sql.hudi.HoodieSparkSessionExtension'

2.2 设置并发度

由于Hudi默认upsert/insert/delete的并发度是1500，对于演示的小规模数据集可设置更小的并发度。

set hoodie.upsert.shuffle.parallelism = 1;
set hoodie.insert.shuffle.parallelism = 1;
set hoodie.delete.shuffle.parallelism = 1;

同时设置不同步Hudi表元数据

set hoodie.datasource.meta.sync.enable=false;

3. Create Table

使用如下SQL创建表

create table test_hudi_table (
  id int,
  name string,
  price double,
  ts long,
  dt string
) using hudi
 partitioned by (dt)
 options (
  primaryKey = 'id',
  type = 'mor'
 )
 location 'file:///tmp/test_hudi_table'

说明：表类型为MOR，主键为id，分区字段为dt，合并字段默认为ts。

创建Hudi表后查看创建的Hudi表

show create table test_hudi_table

Apache Hudi集成Spark SQL操作hide表

4. Insert Into

4.1 Insert

使用如下SQL插入一条记录

insert into test_hudi_table select 1 as id, 'hudi' as name, 10 as price, 1000 as ts, '2021-05-05' as dt

insert完成后查看Hudi表本地目录结构，生成的元数据、分区和数据与Spark Datasource写入均相同。

Apache Hudi集成Spark SQL操作hide表

4.2 Select

使用如下SQL查询Hudi表数据

select * from test_hudi_table

查询结果如下

Apache Hudi集成Spark SQL操作hide表

5. Update

5.1 Update

使用如下SQL将id为1的price字段值变更为20

update test_hudi_table set price = 20.0 where id = 1

5.2 Select

再次查询Hudi表数据

select * from test_hudi_table

查询结果如下，可以看到price已经变成了20.0

Apache Hudi集成Spark SQL操作hide表

查看Hudi表的本地目录结构如下，可以看到在update之后又生成了一个deltacommit，同时生成了一个增量log文件。

Apache Hudi集成Spark SQL操作hide表

6. Delete

6.1 Delete

使用如下SQL将id=1的记录删除

delete from test_hudi_table where id = 1

查看Hudi表的本地目录结构如下，可以看到delete之后又生成了一个deltacommit，同时生成了一个增量log文件。

Apache Hudi集成Spark SQL操作hide表

6.2 Select

再次查询Hudi表

select * from test_hudi_table;

查询结果如下，可以看到已经查询不到任何数据了，表明Hudi表中已经不存在任何记录了。

Apache Hudi集成Spark SQL操作hide表

7. Merge Into

7.1 Merge Into Insert

使用如下SQL向test_hudi_table插入数据

merge into test_hudi_table as t0
 using (
  select 1 as id, 'a1' as name, 10 as price, 1000 as ts, '2021-03-21' as dt
 ) as s0
 on t0.id = s0.id
 when not matched and s0.id % 2 = 1 then insert *

7.2 Select

查询Hudi表数据

select * from test_hudi_table

查询结果如下，可以看到Hudi表中存在一条记录

Apache Hudi集成Spark SQL操作hide表

7.4 Merge Into Update

使用如下SQL更新数据

merge into test_hudi_table as t0
 using (
  select 1 as id, 'a1' as name, 12 as price, 1001 as ts, '2021-03-21' as dt
 ) as s0
 on t0.id = s0.id
 when matched and s0.id % 2 = 1 then update set *

7.5 Select

查询Hudi表

select * from test_hudi_table

查询结果如下，可以看到Hudi表中的分区已经更新了

Apache Hudi集成Spark SQL操作hide表

7.6 Merge Into Delete

使用如下SQL删除数据

merge into test_hudi_table t0
 using (
  select 1 as s_id, 'a2' as s_name, 15 as s_price, 1001 as s_ts, '2021-03-21' as dt
 ) s0
 on t0.id = s0.s_id
 when matched and s_ts = 1001 then delete

查询结果如下，可以看到Hudi表中已经没有数据了

Apache Hudi集成Spark SQL操作hide表

8. 删除表

使用如下命令删除Hudi表

drop table test_hudi_table;

使用show tables查看表是否存在

show tables;

可以看到已经没有表了

Apache Hudi集成Spark SQL操作hide表

9. 总结

通过上面示例简单展示了通过Spark SQL Insert/Update/Delete Hudi表数据，通过SQL方式可以非常方便地操作Hudi表，降低了使用Hudi的门槛。另外Hudi集成Spark SQL工作将继续完善语法，尽量对标Snowflake和BigQuery的语法，如插入多张表（INSERT ALL WHEN condition1 INTO t1 WHEN condition2 into t2），变更Schema以及CALL Cleaner、CALL Clustering等Hudi表服务。

以上就是Apache Hudi集成Spark SQL操作hide表的详细内容，更多关于Apache Hudi集成Spark SQL的资料请关注三水点靠木其它相关文章！

Apache Hudi集成Spark SQL操作hide表

- Author -

leesf

- Original Sources -

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Servers 相关文章推荐

Linux安装Nginx步骤详解

Mar 31 Servers

Nginx安装完成没有生成sbin目录的解决方法

Mar 31 Servers

Nginx下配置Https证书详细过程

Apr 01 Servers

教你快速构建一个基于nginx的web集群项目

Nov 27 Servers

Kubernetes关键组件与结构组成介绍

Mar 31 Servers

永中文档在线转换预览基于nginx配置部署方案

Jun 10 Servers

shell进度条追踪指令执行时间的场景分析

Jun 16 Servers

centos环境下nginx高可用集群的搭建指南

Jul 23 Servers

django项目、vue项目部署云服务器的详细过程

Jul 23 Servers

Win10系统搭建ftp文件服务器详细教程

Aug 05 Servers

Zabbix6通过ODBC方式监控Oracle 19C的详细过程

Sep 23 Servers

Elasticsearch6.2服务器升配后的bug(避坑指南)

Sep 23 Servers

Nginx工作模式及代理配置的使用细节

nginx常用配置conf的示例代码详解

Mar 21 #Servers

Nginx设置HTTPS的方法步骤 443证书配置方法

nginx共享内存的机制详解

Nginx的基本概念和原理

解决xampp安装后Apache无法启动

Nginx图片服务器配置之后图片访问404的问题解决

You might like

关于svn冲突的解决方法

2013/06/21 PHP

浅谈Laravel POST,PUT,PATCH 路由的区别

2019/10/15 PHP

基于PHP实现短信验证码发送次数限制

2020/07/11 PHP

基于php解决json_encode中文UNICODE转码问题

2020/11/10 PHP

Document 对象的常用方法

2009/07/31 Javascript

jquery ajax实现下拉框三级无刷新联动,且保存保持选中值状态

2013/10/29 Javascript

PHP结合jQuery实现的评论顶、踩功能

2015/07/22 Javascript

JavaScript实现跨浏览器的添加及删除事件绑定函数实例

2015/08/04 Javascript

js不间断滚动的简单实现

2016/06/03 Javascript

浅谈javascript:两种注释,声明变量,定义函数

2016/09/29 Javascript

jQuery基于ajax实现页面加载后检查用户登录状态的方法

2017/02/10 Javascript

JavaScript实现的XML与JSON互转功能详解

2017/02/16 Javascript

react-router实现按需加载

2017/05/09 Javascript

vue-cli项目如何使用vue-resource获取本地的json数据（模拟服务端返回数据）

2017/08/04 Javascript

浅析TypeScript 命名空间

2020/03/19 Javascript

利用webpack理解CommonJS和ES Modules的差异区别

2020/06/16 Javascript

Tensorflow之构建自己的图片数据集TFrecords的方法

2018/02/07 Python

浅谈python常用程序算法

2019/03/22 Python

python 绘制拟合曲线并加指定点标识的实现

2019/07/10 Python

如何用python批量调整视频声音

2020/12/22 Python

基于MUI框架使用HTML5实现的二维码扫描功能

2018/03/01 HTML / CSS

加拿大国民体育购物网站：National Sports

2018/11/04 全球购物

德国苹果商店：MacTrade

2020/05/18 全球购物

运动会四百米广播稿

2014/01/19 职场文书

鼓励运动员的广播稿

2014/02/08 职场文书

农村婚礼主持词

2014/03/13 职场文书

《花瓣飘香》教学反思

2014/04/15 职场文书

人力资源职位说明书

2014/07/29 职场文书

学党史心得体会

2014/09/05 职场文书

勿忘国耻9.18演讲稿（经典篇）

2014/09/14 职场文书

政风行风评议心得体会

2014/10/21 职场文书

开展党的群众路线教育实践活动情况汇报

2014/11/05 职场文书

酒店圣诞节活动总结

2015/05/06 职场文书

趣味运动会广播稿

2015/08/19 职场文书

pycharm无法导入lxml的解决办法

2021/03/31 Python

vue 把二维或多维数组转一维数组

2022/04/24 Vue.js