<?xml version="1.0" encoding="UTF-8"?>
<rss version="2.0"
	xmlns:content="http://purl.org/rss/1.0/modules/content/"
	xmlns:wfw="http://wellformedweb.org/CommentAPI/"
	xmlns:dc="http://purl.org/dc/elements/1.1/"
	xmlns:atom="http://www.w3.org/2005/Atom"
	xmlns:sy="http://purl.org/rss/1.0/modules/syndication/"
	xmlns:slash="http://purl.org/rss/1.0/modules/slash/"
	>

<channel>
	<title>简单之美 &#187; Category &#187; Impala/Kudu/Hudi</title>
	<atom:link href="http://shiyanjun.cn/archives/category/opensource/impala-kudu-hudi/feed" rel="self" type="application/rss+xml" />
	<link>http://shiyanjun.cn</link>
	<description>简单之美，难得简单，享受简单的唯美。</description>
	<lastBuildDate>Wed, 04 Mar 2026 07:04:53 +0000</lastBuildDate>
	<language>zh-CN</language>
		<sy:updatePeriod>hourly</sy:updatePeriod>
		<sy:updateFrequency>1</sy:updateFrequency>
	<generator>http://wordpress.org/?v=3.9.2</generator>
	<item>
		<title>Apache Hudi 架构设计和基本概念</title>
		<link>http://shiyanjun.cn/archives/2043.html</link>
		<comments>http://shiyanjun.cn/archives/2043.html#comments</comments>
		<pubDate>Thu, 07 May 2020 17:16:39 +0000</pubDate>
		<dc:creator><![CDATA[Yanjun]]></dc:creator>
				<category><![CDATA[Impala/Kudu/Hudi]]></category>
		<category><![CDATA[开源技术]]></category>
		<category><![CDATA[架构]]></category>
		<category><![CDATA[Hudi]]></category>

		<guid isPermaLink="false">http://shiyanjun.cn/?p=2043</guid>
		<description><![CDATA[<p>Apache Hudi 是一个 Data Lakes 的开源方案，Hudi 是 Hadoop Updates and Incrementals 的简写，它是由 Uber 开发并开源的 Data Lakes 解决方案。Hudi 具有如下基本特性/能力：

Hudi 能够摄入（Ingest）和管理（Manage）基于 HDFS 之上的大型分析数据集，主要目的是高效的减少入库延时。
Hudi 基于 Spark 来对 HDFS 上的数据进行更新、插入、删除等。
Hudi 在 HDFS 数据集上提供如下流原语：插入更新（如何改变数据集）；增量拉取（如何获取变更的数据）。
Hudi 可以对 HDFS 上的 parquet 格式数据进行插入/更新操作。
Hudi 通过自定义 InputFormat 与 Hadoop 生态系统（Spark、Hive、Parquet）集成。
Hudi 通过 Savepoint 来实现数据恢复。
目前，Hudi 支持 Spark 2.x 版本，建议使用 2.4.4+ 版本的 Spark。

基本架构
与 Kudu 相比，Kudu 是一个支持 OLTP workload 的数据存储系统，而 Hudi 的设计目标是基于 Hadoop 兼容的文件系统（如 HDFS、S3 等），重度依赖 Spark 的数据处理能力来实现增量处理和丰富的查询能力，Hudi 支持 Incremental Pulling 而 Kudu 不</p>]]></description>
	<p>Apache Hudi 是一个 Data Lakes 的开源方案，Hudi 是 Hadoop Updates and Incrementals 的简写，它是由 Uber 开发并开源的 Data Lakes 解决方案。Hudi 具有如下基本特性/能力：

Hudi 能够摄入（Ingest）和管理（Manage）基于 HDFS 之上的大型分析数据集，主要目的是高效的减少入库延时。
Hudi 基于 Spark 来对 HDFS 上的数据进行更新、插入、删除等。
Hudi 在 HDFS 数据集上提供如下流原语：插入更新（如何改变数据集）；增量拉取（如何获取变更的数据）。
Hudi 可以对 HDFS 上的 parquet 格式数据进行插入/更新操作。
Hudi 通过自定义 InputFormat 与 Hadoop 生态系统（Spark、Hive、Parquet）集成。
Hudi 通过 Savepoint 来实现数据恢复。
目前，Hudi 支持 Spark 2.x 版本，建议使用 2.4.4+ 版本的 Spark。

基本架构
与 Kudu 相比，Kudu 是一个支持 OLTP workload 的数据存储系统，而 Hudi 的设计目标是基于 Hadoop 兼容的文件系统（如 HDFS、S3 等），重度依赖 Spark 的数据处理能力来实现增量处理和丰富的查询能力，Hudi 支持 Incremental Pulling 而 Kudu 不</p>			<content:encoded><![CDATA[<p>Apache Hudi 是一个 Data Lakes 的开源方案，Hudi 是 Hadoop Updates and Incrementals 的简写，它是由 Uber 开发并开源的 Data Lakes 解决方案。Hudi 具有如下基本特性/能力：

Hudi 能够摄入（Ingest）和管理（Manage）基于 HDFS 之上的大型分析数据集，主要目的是高效的减少入库延时。
Hudi 基于 Spark 来对 HDFS 上的数据进行更新、插入、删除等。
Hudi 在 HDFS 数据集上提供如下流原语：插入更新（如何改变数据集）；增量拉取（如何获取变更的数据）。
Hudi 可以对 HDFS 上的 parquet 格式数据进行插入/更新操作。
Hudi 通过自定义 InputFormat 与 Hadoop 生态系统（Spark、Hive、Parquet）集成。
Hudi 通过 Savepoint 来实现数据恢复。
目前，Hudi 支持 Spark 2.x 版本，建议使用 2.4.4+ 版本的 Spark。

基本架构
与 Kudu 相比，Kudu 是一个支持 OLTP workload 的数据存储系统，而 Hudi 的设计目标是基于 Hadoop 兼容的文件系统（如 HDFS、S3 等），重度依赖 Spark 的数据处理能力来实现增量处理和丰富的查询能力，Hudi 支持 Incremental Pulling 而 Kudu 不</p>]]></content:encoded>
			<wfw:commentRss>http://shiyanjun.cn/archives/2043.html/feed</wfw:commentRss>
		<slash:comments>0</slash:comments>
		</item>
		<item>
		<title>Impala与HBase整合实践</title>
		<link>http://shiyanjun.cn/archives/526.html</link>
		<comments>http://shiyanjun.cn/archives/526.html#comments</comments>
		<pubDate>Tue, 12 Nov 2013 08:25:41 +0000</pubDate>
		<dc:creator><![CDATA[Yanjun]]></dc:creator>
				<category><![CDATA[Impala/Kudu/Hudi]]></category>
		<category><![CDATA[开源技术]]></category>
		<category><![CDATA[HBase]]></category>

		<guid isPermaLink="false">http://shiyanjun.cn/?p=526</guid>
		<description><![CDATA[<p>我们知道，HBase是一个基于列的NoSQL数据库，它可以实现的数据的灵活存储。它本身是一个大表，在一些应用中，通过设计RowKey，可以实现对海量数据的快速存储和访问。但是，对于复杂的查询统计类需求，如果直接基于HBase API来实现，性能非常差，或者，可以通过实现MapReduce程序来进行查询分析，这也继承了MapReduce所具备的延迟性。
实现Impala与HBase整合，我们能够获得的好处有如下几个：

可以使用我们熟悉的SQL，像操作传统关系型数据库一样，很容易给出复杂查询、统计分析的SQL设计
Impala查询统计分析，比原生的MapReduce以及Hive的执行速度快很多

Impala与HBase整合，需要将HBase的RowKey和列映射到Impala的Table字段中。Impala使用Hive的Metastore来存储元数据信息，与Hive类似，在于HBase进行整合时，也是通过外部表（EXTERNAL）的方式来实现。
准备工作
首先，我们需要做如下准备工作：

安装配置Hadoop集群（http://www.cloudera.com/content/cloudera-content/cloudera-docs/CDH4/latest/CDH4-Installation-Guide/cdh4ig_topic_4_4.html）
安装配置HB</p>]]></description>
	<p>我们知道，HBase是一个基于列的NoSQL数据库，它可以实现的数据的灵活存储。它本身是一个大表，在一些应用中，通过设计RowKey，可以实现对海量数据的快速存储和访问。但是，对于复杂的查询统计类需求，如果直接基于HBase API来实现，性能非常差，或者，可以通过实现MapReduce程序来进行查询分析，这也继承了MapReduce所具备的延迟性。
实现Impala与HBase整合，我们能够获得的好处有如下几个：

可以使用我们熟悉的SQL，像操作传统关系型数据库一样，很容易给出复杂查询、统计分析的SQL设计
Impala查询统计分析，比原生的MapReduce以及Hive的执行速度快很多

Impala与HBase整合，需要将HBase的RowKey和列映射到Impala的Table字段中。Impala使用Hive的Metastore来存储元数据信息，与Hive类似，在于HBase进行整合时，也是通过外部表（EXTERNAL）的方式来实现。
准备工作
首先，我们需要做如下准备工作：

安装配置Hadoop集群（http://www.cloudera.com/content/cloudera-content/cloudera-docs/CDH4/latest/CDH4-Installation-Guide/cdh4ig_topic_4_4.html）
安装配置HB</p>			<content:encoded><![CDATA[<p>我们知道，HBase是一个基于列的NoSQL数据库，它可以实现的数据的灵活存储。它本身是一个大表，在一些应用中，通过设计RowKey，可以实现对海量数据的快速存储和访问。但是，对于复杂的查询统计类需求，如果直接基于HBase API来实现，性能非常差，或者，可以通过实现MapReduce程序来进行查询分析，这也继承了MapReduce所具备的延迟性。
实现Impala与HBase整合，我们能够获得的好处有如下几个：

可以使用我们熟悉的SQL，像操作传统关系型数据库一样，很容易给出复杂查询、统计分析的SQL设计
Impala查询统计分析，比原生的MapReduce以及Hive的执行速度快很多

Impala与HBase整合，需要将HBase的RowKey和列映射到Impala的Table字段中。Impala使用Hive的Metastore来存储元数据信息，与Hive类似，在于HBase进行整合时，也是通过外部表（EXTERNAL）的方式来实现。
准备工作
首先，我们需要做如下准备工作：

安装配置Hadoop集群（http://www.cloudera.com/content/cloudera-content/cloudera-docs/CDH4/latest/CDH4-Installation-Guide/cdh4ig_topic_4_4.html）
安装配置HB</p>]]></content:encoded>
			<wfw:commentRss>http://shiyanjun.cn/archives/526.html/feed</wfw:commentRss>
		<slash:comments>16</slash:comments>
		</item>
		<item>
		<title>Cloudera Impala架构设计要点</title>
		<link>http://shiyanjun.cn/archives/507.html</link>
		<comments>http://shiyanjun.cn/archives/507.html#comments</comments>
		<pubDate>Sat, 09 Nov 2013 05:35:59 +0000</pubDate>
		<dc:creator><![CDATA[Yanjun]]></dc:creator>
				<category><![CDATA[Impala/Kudu/Hudi]]></category>
		<category><![CDATA[开源技术]]></category>

		<guid isPermaLink="false">http://shiyanjun.cn/?p=507</guid>
		<description><![CDATA[<p>我们知道，在实时性要求不是很高的应用场景中，比如，月度统计报表生成等，我们基于传统的Hadoop MapReduce来处理海量大数据（包括使用Hive），在各方面表现都还不错，只需要离线处理数据，然后存储结果即可。但是如果在一些实时性要求相对较高的应用场景中，哪怕处理时间能够在原有的基础有大幅度地减少，也能很好地提升用户体验。对于大数据的实时性要求，其实是相对的，比如，传统使用MapReduce计算框架处理PB级别的查询分析请求，可能耗时30分钟甚至更多，但是如果能够使这个延迟大大降低，如3分钟计算出结果，这是很令人震撼的。Impala就是基于这样的需求驱动而出现的。
Impala是Cloudera开发的一款用来进行大数据实时查询分析的开源工具，它能够实现通过我们熟悉的传统关系数据库的SQL风格来操作大数据，数据可以是存储到HDFS或HBase中的。
下面，我们从不同的角度来认识和理解Cloudera Impala：
设计目标
官网给出的介绍是，使用Impala来实现SQL on Hadoop，实现对海量数据的实时查询分析，它的优势有如下几点：

快速

可以方便地执行SQL语句，在数秒内返回</p>]]></description>
	<p>我们知道，在实时性要求不是很高的应用场景中，比如，月度统计报表生成等，我们基于传统的Hadoop MapReduce来处理海量大数据（包括使用Hive），在各方面表现都还不错，只需要离线处理数据，然后存储结果即可。但是如果在一些实时性要求相对较高的应用场景中，哪怕处理时间能够在原有的基础有大幅度地减少，也能很好地提升用户体验。对于大数据的实时性要求，其实是相对的，比如，传统使用MapReduce计算框架处理PB级别的查询分析请求，可能耗时30分钟甚至更多，但是如果能够使这个延迟大大降低，如3分钟计算出结果，这是很令人震撼的。Impala就是基于这样的需求驱动而出现的。
Impala是Cloudera开发的一款用来进行大数据实时查询分析的开源工具，它能够实现通过我们熟悉的传统关系数据库的SQL风格来操作大数据，数据可以是存储到HDFS或HBase中的。
下面，我们从不同的角度来认识和理解Cloudera Impala：
设计目标
官网给出的介绍是，使用Impala来实现SQL on Hadoop，实现对海量数据的实时查询分析，它的优势有如下几点：

快速

可以方便地执行SQL语句，在数秒内返回</p>			<content:encoded><![CDATA[<p>我们知道，在实时性要求不是很高的应用场景中，比如，月度统计报表生成等，我们基于传统的Hadoop MapReduce来处理海量大数据（包括使用Hive），在各方面表现都还不错，只需要离线处理数据，然后存储结果即可。但是如果在一些实时性要求相对较高的应用场景中，哪怕处理时间能够在原有的基础有大幅度地减少，也能很好地提升用户体验。对于大数据的实时性要求，其实是相对的，比如，传统使用MapReduce计算框架处理PB级别的查询分析请求，可能耗时30分钟甚至更多，但是如果能够使这个延迟大大降低，如3分钟计算出结果，这是很令人震撼的。Impala就是基于这样的需求驱动而出现的。
Impala是Cloudera开发的一款用来进行大数据实时查询分析的开源工具，它能够实现通过我们熟悉的传统关系数据库的SQL风格来操作大数据，数据可以是存储到HDFS或HBase中的。
下面，我们从不同的角度来认识和理解Cloudera Impala：
设计目标
官网给出的介绍是，使用Impala来实现SQL on Hadoop，实现对海量数据的实时查询分析，它的优势有如下几点：

快速

可以方便地执行SQL语句，在数秒内返回</p>]]></content:encoded>
			<wfw:commentRss>http://shiyanjun.cn/archives/507.html/feed</wfw:commentRss>
		<slash:comments>2</slash:comments>
		</item>
	</channel>
</rss>
