服务器 Servers

Apache Hudi数据布局黑科技降低一半查询时间

Posted in Servers onMarch 31, 2022

1. 背景

Apache Hudi将流处理带到大数据，相比传统批处理效率高一个数量级，提供了更新鲜的数据。在数据湖/仓库中，需要在摄取速度和查询性能之间进行权衡，数据摄取通常更喜欢小文件以改善并行性并使数据尽快可用于查询，但很多小文件会导致查询性能下降。在摄取过程中通常会根据时间在同一位置放置数据，但如果把查询频繁的数据放在一起时，查询引擎的性能会更好，大多数系统都倾向于支持独立的优化来提高性能，以解决未优化的数据布局的限制。本博客介绍了一种称为Clustering[RFC-19]的服务，该服务可重新组织数据以提高查询性能，也不会影响摄取速度。

2. Clustering架构

Hudi通过其写入客户端API提供了不同的操作，如insert/upsert/bulk_insert来将数据写入Hudi表。为了能够在文件大小和摄取速度之间进行权衡，Hudi提供了一个hoodie.parquet.small.file.limit配置来设置最小文件大小。用户可以将该配置设置为0以强制新数据写入新的文件组，或设置为更高的值以确保新数据被"填充"到现有小的文件组中，直到达到指定大小为止，但其会增加摄取延迟。

为能够支持快速摄取的同时不影响查询性能，我们引入了Clustering服务来重写数据以优化Hudi数据湖文件的布局。

Clustering服务可以异步或同步运行，Clustering会添加了一种新的REPLACE操作类型，该操作类型将在Hudi元数据时间轴中标记Clustering操作。

总体而言Clustering分为两个部分：

•调度Clustering：使用可插拔的Clustering策略创建Clustering计划。•执行Clustering：使用执行策略处理计划以创建新文件并替换旧文件。

2.1 调度Clustering

调度Clustering会有如下步骤

•识别符合Clustering条件的文件：根据所选的Clustering策略，调度逻辑将识别符合Clustering条件的文件。•根据特定条件对符合Clustering条件的文件进行分组。每个组的数据大小应为targetFileSize的倍数。分组是计划中定义的"策略"的一部分。此外还有一个选项可以限制组大小，以改善并行性并避免混排大量数据。•最后将Clustering计划以avro元数据格式保存到时间线。

2.2 运行Clustering

•读取Clustering计划，并获得clusteringGroups，其标记了需要进行Clustering的文件组。•对于每个组使用strategyParams实例化适当的策略类（例如：sortColumns），然后应用该策略重写数据。•创建一个REPLACE提交，并更新HoodieReplaceCommitMetadata中的元数据。

Clustering服务基于Hudi的MVCC设计，允许继续插入新数据，而Clustering操作在后台运行以重新格式化数据布局，从而确保并发读写者之间的快照隔离。

注意：现在对表进行Clustering时还不支持更新，将来会支持并发更新。

Apache Hudi数据布局黑科技降低一半查询时间

2.3 Clustering配置

使用Spark可以轻松设置内联Clustering，参考如下示例

import org.apache.hudi.QuickstartUtils._</code><code>import scala.collection.JavaConversions._</code><code>import org.apache.spark.sql.SaveMode._</code><code>import org.apache.hudi.DataSourceReadOptions._</code><code>import org.apache.hudi.DataSourceWriteOptions._</code><code>import org.apache.hudi.config.HoodieWriteConfig._</code><code>val df =  //generate data frame</code><code>df.write.format("org.apache.hudi").</code><code>        options(getQuickstartWriteConfigs).</code><code>        option(PRECOMBINE_FIELD_OPT_KEY, "ts").</code><code>        option(RECORDKEY_FIELD_OPT_KEY, "uuid").</code><code>        option(PARTITIONPATH_FIELD_OPT_KEY, "partitionpath").</code><code>        option(TABLE_NAME, "tableName").</code><code>        option("hoodie.parquet.small.file.limit", "0").</code><code>        option("hoodie.clustering.inline", "true").</code><code>        option("hoodie.clustering.inline.max.commits", "4").</code><code>        option("hoodie.clustering.plan.strategy.target.file.max.bytes", "1073741824").</code><code>        option("hoodie.clustering.plan.strategy.small.file.limit", "629145600").</code><code>        option("hoodie.clustering.plan.strategy.sort.columns", "column1,column2"). //optional, if sorting is needed as part of rewriting data</code><code>        mode(Append).</code><code>        save("dfs://location");

对于设置更高级的异步Clustering管道，参考此处示例。

3. 表查询性能

我们使用生产环境表的一个分区创建了一个数据集，该表具有约2000万条记录，约200GB，数据集具有多个session_id的行。用户始终使用会话谓词查询数据，单个会话的数据会分布在多个数据文件中，因为数据摄取会根据到达时间对数据进行分组。下面实验表明通过对会话进行Clustering可以改善数据局部性并将查询执行时间减少50％以上。

查询SQL如下

spark.sql("select  *  from table where session_id=123")

3.1 进行Clustering之前

查询花费了2.2分钟。请注意查询计划的"扫描parquet"部分中的输出行数包括表中的所有2000W行。

Apache Hudi数据布局黑科技降低一半查询时间

3.2 进行Clustering之后

查询计划与上面类似，但由于改进了数据局部性和谓词下推，Spark可以修剪很多行。进行Clustering后，相同的查询在扫描parquet文件时仅输出11万行（2000万行中的），这将查询时间从2.2分钟减少到不到一分钟。

Apache Hudi数据布局黑科技降低一半查询时间

下表总结了使用Spark3运行的实验对查询性能的改进

Table State	Query runtime	Num Records Processed	Num files on disk	Size of each file
Unclustered	130,673 ms	~20M	13642	~150 MB
Clustered	55,963 ms	~110K	294	~600 MB

Clustering后查询运行时间减少了60％，在其他样本数据集上也观察到了类似的结果，请参阅示例查询计划和RFC-19性能评估上的更多详细信息。

我们希望大型表能够大幅度提高速度，与上面的示例不同，查询运行时间几乎完全由实际I/O而不是查询计划决定。

4. 总结

使用Clustering，我们可以通过以下方式提高查询性能：

利用空间填充曲线之类的概念来适应数据湖布局并减少查询读取的数据量。

将小文件合并成较大的文件以减少查询引擎需要扫描的文件总数。

Clustering使得大数据进行流处理，摄取可以写入小文件以满足流处理的延迟要求，可以在后台使用Clustering将这些小文件重写成较大的文件并减少文件数。

除此之外，Clustering框架还提供了根据特定要求异步重写数据的灵活性，我们预见到许多其他用例将采用带有自定义可插拔策略的Clustering框架来按需管理数据湖数据，如可以通过Clustering解决如下一些用例：

重写数据并加密数据。

从表中修剪未使用的列并减少存储空间。

以上就是Apache Hudi数据布局黑科技降低一半查询时间的详细内容，更多关于Apache Hudi数据布局查询的资料请关注三水点靠木其它相关文章！

Apache Hudi数据布局黑科技降低一半查询时间

- Author -

huide

- Original Sources -

声明：登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述。

Servers 相关文章推荐

nginx前后端同域名配置的方法实现

Mar 31 Servers

Nginx访问日志及错误日志参数说明

Mar 31 Servers

apache基于端口创建虚拟主机的示例

Apr 24 Servers

Z-Order加速Hudi大规模数据集方案分析

Mar 31 Servers

配置Kubernetes外网访问集群

Mar 31 Servers

使用Docker容器部署rocketmq单机的全过程

Apr 03 Servers

OpenStack虚拟机快照和增量备份实现方法

Apr 04 Servers

nginx容器方式反向代理实战

Apr 18 Servers

Tomcat项目启动失败的原因和解决办法

Apr 20 Servers

Zabbix对Kafka topic积压数据监控的问题(bug优化)

Jul 07 Servers

在windows server 2012 r2中安装mysql的详细步骤

Jul 23 Servers

Linux在两个服务器直接传文件的操作方法

Aug 05 Servers

Apache Hudi集成Spark SQL操作hide表

Nginx工作模式及代理配置的使用细节

nginx常用配置conf的示例代码详解

Mar 21 #Servers

Nginx设置HTTPS的方法步骤 443证书配置方法

nginx共享内存的机制详解

Nginx的基本概念和原理

解决xampp安装后Apache无法启动

You might like

PHP MemCached高级缓存配置图文教程

2010/08/05 PHP

php中3种方法统计字符串中每种字符的个数并排序

2012/08/27 PHP

PHP动态编译出现Cannot find autoconf的解决方法

2014/11/05 PHP

如何使用jQuery+PHP+MySQL来实现一个在线测试项目

2015/04/26 PHP

php基于session实现数据库交互的类实例

2015/08/03 PHP

javaScript 读取和设置文档元素的样式属性

2009/04/14 Javascript

JS 面向对象的5钟写法

2009/07/31 Javascript

javascript动态改变img的src属性图片不显示的解决方法

2010/10/20 Javascript

JavaScript的代码编写格式规范指南

2015/12/07 Javascript

基于javascript数组实现图片轮播

2016/05/02 Javascript

深入浅析JS是按值传递还是按引用传递(推荐)

2016/09/18 Javascript

javascript代码调试之console.log 用法图文详解

2016/09/30 Javascript

详解AngularJS脏检查机制及$timeout的妙用

2017/06/19 Javascript

基于VUE.JS的移动端框架Mint UI的使用

2017/10/11 Javascript

vue2.0 子组件改变props值,并向父组件传值的方法

2018/03/01 Javascript

详解Vue中watch的高级用法

2018/05/02 Javascript

Angular2之二级路由详解

2018/08/31 Javascript

Vue中使用方法、计算属性或观察者的方法实例详解

2018/10/31 Javascript

JavaScript生成一个不重复的ID的方法示例

2019/09/16 Javascript

微信小程序自定义扫码功能界面的实现代码

2020/07/02 Javascript

[01:03:27]Optic vs VGJ.S 2018国际邀请赛小组赛BO2 第一场 8.17

2018/08/20 DOTA

TensorFlow实现MLP多层感知机模型

2018/03/09 Python

Python运维之获取系统CPU信息的实现方法

2018/06/11 Python

Sanic框架路由用法实例分析

2018/07/16 Python

python 通过类中一个方法获取另一个方法变量的实例

2019/01/22 Python

python ceiling divide 除法向上取整(或小数向上取整)的实例

2019/12/27 Python

Python使用pyyaml模块处理yaml数据

2020/04/14 Python

python实现坦克大战

2020/04/24 Python

Python2及Python3如何实现兼容切换

2020/09/01 Python

Selenium Webdriver元素定位的八种常用方式(小结)

2021/01/13 Python

python日志通过不同的等级打印不同的颜色(示例代码)

2021/01/13 Python

CSS3实现粒子旋转伸缩加载动画

2016/04/22 HTML / CSS

CSS3制作漂亮的照片墙的实现代码

2016/06/08 HTML / CSS

区级文明单位申报材料

2014/05/15 职场文书

在校实习生求职信

2014/06/18 职场文书

会议室标语

2014/06/21 职场文书

Apache Hudi数据布局黑科技降低一半查询时间

目录

1. 背景

2. Clustering架构

2.1 调度Clustering

2.2 运行Clustering

2.3 Clustering配置

3. 表查询性能

3.1 进行Clustering之前

3.2 进行Clustering之后

4. 总结