简单之美

Apache Hudi 是一个 Data Lakes 的开源方案，Hudi 是 Hadoop Updates and Incrementals 的简写，它是由 Uber 开发并开源的 Data Lakes 解决方案。Hudi 具有如下基本特性/能力： Hudi 能够摄入（Ingest）和管理（Manage）基于 HDFS 之上的大型分析数据集，主要目的是高效的减少入库延时。 Hudi 基于 Spark 来对 HDFS 上的数据进行更新、插入、删除等。 Hudi 在 HDFS 数据集上提供如下流原语：插入更新（如何改变数据集）；增量拉取（如何获取变更的数据）。 Hudi 可以对 HDFS 上的 parquet 格式数据进行插入/更新操作。 Hudi 通过自定义 InputFormat 与 Hadoop 生态系统（Spark、Hive、Parquet）集成。 Hudi 通过 Savepoint 来实现数据恢复。目前，Hudi 支持 Spark 2.x 版本，建议使用 2.4.4+ 版本的 Spark。基本架构与 Kudu 相比，Kudu 是一个支持 OLTP workload 的数据存储系统，而 Hudi 的设计目标是基于 Hadoop 兼容的文件系统（如 HDFS、S3 等），重度依赖 Spark 的数据处理能力来实现增量处理和丰富的查询能力，Hudi 支持 Incremental Pulling 而 Kudu 不

生成最佳执行计划，过程比较复杂，我们分成两篇来详细分析：上篇和下篇，本文为上篇。生成最佳执行计划是一个递归计算的过程：正向从 DataSinkNode 开始直到 DataSourceNode，分别计算每个 OptimizerNode 的最佳计划，然后反向逐步将整个 OptimizerNode DAG 图转换为 PlanNode DAG 图，得到一个最优计划。其中，PlanNode 的类继承结构，如下图所示：通过与 OptimizerNode 对应的节点结构类图对比，PlanNode 更加抽象了一个层次，更关注 Operator 之间的数据交换策略。其中，生成最佳执行计划的过程，可以在 Optimizer 类中看到，如下代码所示： // the final step is now to generate the actual plan alternatives List<PlanNode> bestPlan = rootNode.getAlternativePlans(this.costEstimator); 这是一个递归的过程，每个 OptimizerNode 都会通过获取到其孩子节点的最佳执行计划，从而递归地处理，从 OptimizerNode DAG 转换为 PlanNode DAG。后面，我们会对 SourcePlanNode、SinkPlanNode、SingleInputPlanNode、DualInputPlanNode 创建的处理过程

石浩枫: 作者你自己看看你写的通顺吗，图layer一半有颜色一半没颜色，画的啥东西
gsgsgsl: 赞一个，前几年搞过kafka2.x版本的鉴权，几年有这方面需求，发现很多api变了，2.x版本的鉴权配置在3.x版...
dack: GPT-2中的相对位置编码请问有出处吗，在GPT-2的论文& #8221;Language Models are...
zhang: 你好，这一行“前面计算已经得到 QKT 矩阵，n=6，dk=8，则 A 的大小也是 6 x 6。”请问在下面的代码中为什么dk =...
derek: 何时才能出现伴侣Ai
丘比特: 请问博主，如果在窗口中用到广播状态，现在您有什么实现方案吗？
z: 寫的真好
方俊: 大佬好有耐心，从14年回复到19年哈哈
Yanjun: 图是用 Astah 和 OminiGraffle 画的
JacobZheng: 问个题外话，图是用什么工具画的啊
Derek Dekker: 感觉还挺难的
luosijie: 博主你好，请问您知道K距离方法出自哪篇文献吗，我该如何引用？

简单之美，难得简单，享受简单的唯美。

按月份浏览文章: 五月 2020

Apache Hudi 架构设计和基本概念

Flink 批处理生成最佳执行计划（上篇）