<?xml version="1.0" encoding="UTF-8"?>
<rss version="2.0"
	xmlns:content="http://purl.org/rss/1.0/modules/content/"
	xmlns:wfw="http://wellformedweb.org/CommentAPI/"
	xmlns:dc="http://purl.org/dc/elements/1.1/"
	xmlns:atom="http://www.w3.org/2005/Atom"
	xmlns:sy="http://purl.org/rss/1.0/modules/syndication/"
	xmlns:slash="http://purl.org/rss/1.0/modules/slash/"
	>

<channel>
	<title>简单之美 &#187; Tag &#187; Hadoop2</title>
	<atom:link href="http://shiyanjun.cn/archives/tag/hadoop2/feed" rel="self" type="application/rss+xml" />
	<link>http://shiyanjun.cn</link>
	<description>简单之美，难得简单，享受简单的唯美。</description>
	<lastBuildDate>Wed, 04 Mar 2026 07:04:53 +0000</lastBuildDate>
	<language>zh-CN</language>
		<sy:updatePeriod>hourly</sy:updatePeriod>
		<sy:updateFrequency>1</sy:updateFrequency>
	<generator>http://wordpress.org/?v=3.9.2</generator>
	<item>
		<title>Hadoop YARN架构设计要点</title>
		<link>http://shiyanjun.cn/archives/1119.html</link>
		<comments>http://shiyanjun.cn/archives/1119.html#comments</comments>
		<pubDate>Mon, 01 Jun 2015 14:57:15 +0000</pubDate>
		<dc:creator><![CDATA[Yanjun]]></dc:creator>
				<category><![CDATA[Hadoop/Hive/ZooKeeper]]></category>
		<category><![CDATA[开源技术]]></category>
		<category><![CDATA[Hadoop2]]></category>
		<category><![CDATA[YARN]]></category>

		<guid isPermaLink="false">http://shiyanjun.cn/?p=1119</guid>
		<description><![CDATA[<p>YARN是开源项目Hadoop的一个资源管理系统，最初设计是为了解决Hadoop中MapReduce计算框架中的资源管理问题，但是现在它已经是一个更加通用的资源管理系统，可以把MapReduce计算框架作为一个应用程序运行在YARN系统之上，通过YARN来管理资源。如果你的应用程序也需要借助YARN的资源管理功能，你也可以实现YARN提供的编程API，将你的应用程序运行于YARN之上，将资源的分配与回收统一交给YARN去管理，可以大大简化资源管理功能的开发。当前，也有很多应用程序已经可以构建于YARN之上，如Storm、Spark等计算框架。
YARN整体架构
YARN是基于Master/Slave模式的分布式架构，我们先看一下，YARN的架构设计，如图所示（来自官网文档）：

上图，从逻辑上定义了YARN系统的核心组件和主要交互流程，各个组件说明如下：

YARN Client

YARN Client提交Application到RM，它会首先创建一个Application上下文件对象，并设置AM必需的资源请求信息，然后提交到RM。YARN Client也可以与RM通信，获取到一个已经提交并运行的Application的状态信息等，具体详见后面ApplicationClientPro</p>]]></description>
	<p>YARN是开源项目Hadoop的一个资源管理系统，最初设计是为了解决Hadoop中MapReduce计算框架中的资源管理问题，但是现在它已经是一个更加通用的资源管理系统，可以把MapReduce计算框架作为一个应用程序运行在YARN系统之上，通过YARN来管理资源。如果你的应用程序也需要借助YARN的资源管理功能，你也可以实现YARN提供的编程API，将你的应用程序运行于YARN之上，将资源的分配与回收统一交给YARN去管理，可以大大简化资源管理功能的开发。当前，也有很多应用程序已经可以构建于YARN之上，如Storm、Spark等计算框架。
YARN整体架构
YARN是基于Master/Slave模式的分布式架构，我们先看一下，YARN的架构设计，如图所示（来自官网文档）：

上图，从逻辑上定义了YARN系统的核心组件和主要交互流程，各个组件说明如下：

YARN Client

YARN Client提交Application到RM，它会首先创建一个Application上下文件对象，并设置AM必需的资源请求信息，然后提交到RM。YARN Client也可以与RM通信，获取到一个已经提交并运行的Application的状态信息等，具体详见后面ApplicationClientPro</p>			<content:encoded><![CDATA[<p>YARN是开源项目Hadoop的一个资源管理系统，最初设计是为了解决Hadoop中MapReduce计算框架中的资源管理问题，但是现在它已经是一个更加通用的资源管理系统，可以把MapReduce计算框架作为一个应用程序运行在YARN系统之上，通过YARN来管理资源。如果你的应用程序也需要借助YARN的资源管理功能，你也可以实现YARN提供的编程API，将你的应用程序运行于YARN之上，将资源的分配与回收统一交给YARN去管理，可以大大简化资源管理功能的开发。当前，也有很多应用程序已经可以构建于YARN之上，如Storm、Spark等计算框架。
YARN整体架构
YARN是基于Master/Slave模式的分布式架构，我们先看一下，YARN的架构设计，如图所示（来自官网文档）：

上图，从逻辑上定义了YARN系统的核心组件和主要交互流程，各个组件说明如下：

YARN Client

YARN Client提交Application到RM，它会首先创建一个Application上下文件对象，并设置AM必需的资源请求信息，然后提交到RM。YARN Client也可以与RM通信，获取到一个已经提交并运行的Application的状态信息等，具体详见后面ApplicationClientPro</p>]]></content:encoded>
			<wfw:commentRss>http://shiyanjun.cn/archives/1119.html/feed</wfw:commentRss>
		<slash:comments>5</slash:comments>
		</item>
		<item>
		<title>基于Hadoop SLA认证机制实现权限控制</title>
		<link>http://shiyanjun.cn/archives/994.html</link>
		<comments>http://shiyanjun.cn/archives/994.html#comments</comments>
		<pubDate>Thu, 11 Dec 2014 12:23:50 +0000</pubDate>
		<dc:creator><![CDATA[Yanjun]]></dc:creator>
				<category><![CDATA[Hadoop/Hive/ZooKeeper]]></category>
		<category><![CDATA[开源技术]]></category>
		<category><![CDATA[Hadoop2]]></category>

		<guid isPermaLink="false">http://shiyanjun.cn/?p=994</guid>
		<description><![CDATA[<p>Hadoop集群上存储数据，同时基于MapReduce计算框架可以实现计算任务，那么无论是从数据保护的角度，还是从提交计算任务占用资源的角度来看，都需要存在一种权限管理与分配机制，能够很好地限制哪些人可以在HDFS上存储数据，哪些人可以利用集群的资源来处理特定的计算任务。当然，如果能够非常完美地解决这些问题是最好的。当前Hadoop本身提供的权限管理功能还不能满足普遍的需要，或者我们从Hadoop已有的一些简单或复杂的认证机制选择适合自己所在组织机构需要的，或者我们在外围开发一些权限管理系统与Hadoop整合作为补充。
对比Kerberos认证（Authentication）配置方式与SLA授权（Service Level Authorization）方式，Kerberos配置相当复杂，而且还要依赖于外部的密钥分发中心KDC（Key Distribution Center）服务器，如果KDC出现问题，那么就会导致依赖于KDC认证的整个Hadoop集群无法使用，鉴于此，对于一些相对小的开发团队来说还是更倾向于粗粒度的Hadoop SLA授权机制。
Hadoop SLA基于Hadoop的各种服务（基于协议来划分）与Linux系统的用户、用户组来实现。Had</p>]]></description>
	<p>Hadoop集群上存储数据，同时基于MapReduce计算框架可以实现计算任务，那么无论是从数据保护的角度，还是从提交计算任务占用资源的角度来看，都需要存在一种权限管理与分配机制，能够很好地限制哪些人可以在HDFS上存储数据，哪些人可以利用集群的资源来处理特定的计算任务。当然，如果能够非常完美地解决这些问题是最好的。当前Hadoop本身提供的权限管理功能还不能满足普遍的需要，或者我们从Hadoop已有的一些简单或复杂的认证机制选择适合自己所在组织机构需要的，或者我们在外围开发一些权限管理系统与Hadoop整合作为补充。
对比Kerberos认证（Authentication）配置方式与SLA授权（Service Level Authorization）方式，Kerberos配置相当复杂，而且还要依赖于外部的密钥分发中心KDC（Key Distribution Center）服务器，如果KDC出现问题，那么就会导致依赖于KDC认证的整个Hadoop集群无法使用，鉴于此，对于一些相对小的开发团队来说还是更倾向于粗粒度的Hadoop SLA授权机制。
Hadoop SLA基于Hadoop的各种服务（基于协议来划分）与Linux系统的用户、用户组来实现。Had</p>			<content:encoded><![CDATA[<p>Hadoop集群上存储数据，同时基于MapReduce计算框架可以实现计算任务，那么无论是从数据保护的角度，还是从提交计算任务占用资源的角度来看，都需要存在一种权限管理与分配机制，能够很好地限制哪些人可以在HDFS上存储数据，哪些人可以利用集群的资源来处理特定的计算任务。当然，如果能够非常完美地解决这些问题是最好的。当前Hadoop本身提供的权限管理功能还不能满足普遍的需要，或者我们从Hadoop已有的一些简单或复杂的认证机制选择适合自己所在组织机构需要的，或者我们在外围开发一些权限管理系统与Hadoop整合作为补充。
对比Kerberos认证（Authentication）配置方式与SLA授权（Service Level Authorization）方式，Kerberos配置相当复杂，而且还要依赖于外部的密钥分发中心KDC（Key Distribution Center）服务器，如果KDC出现问题，那么就会导致依赖于KDC认证的整个Hadoop集群无法使用，鉴于此，对于一些相对小的开发团队来说还是更倾向于粗粒度的Hadoop SLA授权机制。
Hadoop SLA基于Hadoop的各种服务（基于协议来划分）与Linux系统的用户、用户组来实现。Had</p>]]></content:encoded>
			<wfw:commentRss>http://shiyanjun.cn/archives/994.html/feed</wfw:commentRss>
		<slash:comments>2</slash:comments>
		</item>
		<item>
		<title>Ubuntu系统下Hadoop 2.0.4集群安装配置</title>
		<link>http://shiyanjun.cn/archives/75.html</link>
		<comments>http://shiyanjun.cn/archives/75.html#comments</comments>
		<pubDate>Wed, 21 Aug 2013 14:15:18 +0000</pubDate>
		<dc:creator><![CDATA[Yanjun]]></dc:creator>
				<category><![CDATA[Hadoop/Hive/ZooKeeper]]></category>
		<category><![CDATA[开源技术]]></category>
		<category><![CDATA[Hadoop2]]></category>

		<guid isPermaLink="false">http://shirdrn.org/?p=75</guid>
		<description><![CDATA[<p>Hadoop 2已经将HDFS和YARN分开管理，这样分开管理，可以是HDFS更方便地进行HA或Federation，实现HDFS的线性扩展（Scale out），从而保证HDFS集群的高可用性。从另一个方面们来说，HDFS可以作为一个通用的分布式存储系统，而为第三方的分布式计算框架提供方便，就像类似YARN的计算框架，其他的如，Spark等等。YARN就是MapReduce V2，将原来Hadoop 1.x中的JobTracker拆分为两部分：一部分是负责资源的管理（Resource Manager），另一部分负责任务的调度（Scheduler）。
安装配置
1、目录结构
下载hadoop-2.0.4软件包，解压缩后，可以看到如下目录结构：

etc目录

HDFS和YARN的配置文件，都存放在etc/hadoop目录下面，可以多各个文件进行配置：

sbin目录

sbin目录下是一些脚本，用来启动或者终止相关服务，如下所示：

bin目录

bin目录下是用来管理HDFS、YARN的工具，如下所示：
下面，对Hadoop进行配置，Hadoop 2.x已经没有了mapred-site.xml配置文件，完全由yarn-site.xml取代。
2、HDFS安装配置
配置etc/hadoop/core-site.xml文件内容：
配置etc/hadoop/hdfs-si</p>]]></description>
	<p>Hadoop 2已经将HDFS和YARN分开管理，这样分开管理，可以是HDFS更方便地进行HA或Federation，实现HDFS的线性扩展（Scale out），从而保证HDFS集群的高可用性。从另一个方面们来说，HDFS可以作为一个通用的分布式存储系统，而为第三方的分布式计算框架提供方便，就像类似YARN的计算框架，其他的如，Spark等等。YARN就是MapReduce V2，将原来Hadoop 1.x中的JobTracker拆分为两部分：一部分是负责资源的管理（Resource Manager），另一部分负责任务的调度（Scheduler）。
安装配置
1、目录结构
下载hadoop-2.0.4软件包，解压缩后，可以看到如下目录结构：

shirdrn@master:~/cloud/hadoop2/hadoop-2.0.4-alpha$ ls
bin  etc  include  lib  libexec  LICENSE.txt  logs  NOTICE.txt  README.txt  sbin  share


etc目录

HDFS和YARN的配置文件，都存放在etc/hadoop目录下面，可以多各个文件进行配置：

shirdrn@master:~/cloud/hadoop2/hadoop-2.0.4-alpha$ ls etc/hadoop/
capacity-scheduler.xml      hadoop-metrics.properties  httpfs-site.xml             s</p>			<content:encoded><![CDATA[<p>Hadoop 2已经将HDFS和YARN分开管理，这样分开管理，可以是HDFS更方便地进行HA或Federation，实现HDFS的线性扩展（Scale out），从而保证HDFS集群的高可用性。从另一个方面们来说，HDFS可以作为一个通用的分布式存储系统，而为第三方的分布式计算框架提供方便，就像类似YARN的计算框架，其他的如，Spark等等。YARN就是MapReduce V2，将原来Hadoop 1.x中的JobTracker拆分为两部分：一部分是负责资源的管理（Resource Manager），另一部分负责任务的调度（Scheduler）。
安装配置
1、目录结构
下载hadoop-2.0.4软件包，解压缩后，可以看到如下目录结构：

etc目录

HDFS和YARN的配置文件，都存放在etc/hadoop目录下面，可以多各个文件进行配置：

sbin目录

sbin目录下是一些脚本，用来启动或者终止相关服务，如下所示：

bin目录

bin目录下是用来管理HDFS、YARN的工具，如下所示：
下面，对Hadoop进行配置，Hadoop 2.x已经没有了mapred-site.xml配置文件，完全由yarn-site.xml取代。
2、HDFS安装配置
配置etc/hadoop/core-site.xml文件内容：
配置etc/hadoop/hdfs-si</p>]]></content:encoded>
			<wfw:commentRss>http://shiyanjun.cn/archives/75.html/feed</wfw:commentRss>
		<slash:comments>4</slash:comments>
		</item>
	</channel>
</rss>
