Hadoop YARN架构设计要点

Yanjun — Mon, 01 Jun 2015 14:57:15 +0000

YARN是开源项目Hadoop的一个资源管理系统，最初设计是为了解决Hadoop中MapReduce计算框架中的资源管理问题，但是现在它已经是一个更加通用的资源管理系统，可以把MapReduce计算框架作为一个应用程序运行在YARN系统之上，通过YARN来管理资源。如果你的应用程序也需要借助YARN的资源管理功能，你也可以实现YARN提供的编程API，将你的应用程序运行于YARN之上，将资源的分配与回收统一交给YARN去管理，可以大大简化资源管理功能的开发。当前，也有很多应用程序已经可以构建于YARN之上，如Storm、Spark等计算框架。 YARN整体架构 YARN是基于Master/Slave模式的分布式架构，我们先看一下，YARN的架构设计，如图所示（来自官网文档）：上图，从逻辑上定义了YARN系统的核心组件和主要交互流程，各个组件说明如下： YARN Client YARN Client提交Application到RM，它会首先创建一个Application上下文件对象，并设置AM必需的资源请求信息，然后提交到RM。YARN Client也可以与RM通信，获取到一个已经提交并运行的Application的状态信息等，具体详见后面ApplicationClientPro

Hadoop-2.2.0集群安装配置实践

Yanjun — Thu, 26 Dec 2013 12:14:42 +0000

Hadoop 2.x和1.x已经大不相同了，应该说对于存储计算都更加通用了。Hadoop 2.x实现了用来管理集群资源的YARN框架，可以面向任何需要使用基于HDFS存储来计算的需要，当然MapReduce现在已经作为外围的插件式的计算框架，你可以根据需要开发或者选择合适的计算框架。目前，貌似对MapReduce支持还是比较好的，毕竟MapReduce框架已经还算成熟。其他一些基于YARN框架的标准也在开发中。 YARN框架的核心是资源的管理和分配调度，它比Hadoop 1.x中的资源分配的粒度更细了，也更加灵活了，它的前景应该不错。由于极大地灵活性，所以在使用过程中由于这些配置的灵活性，可能使用的难度也加大了一些。另外，我个人觉得，YARN毕竟还在发展之中，也有很多不成熟的地方，各种问题频频出现，资料也相对较少，官方文档有时更新也不是很及时，如果我选择做海量数据处理，可能YARN还不能满足生产环境的需要。如果完全使用MapReduce来做计算，还是选择相对更加成熟的Hadoop 1.x版本用于生产环境。下面使用4台机器，操作系统为CentOS 6.4 64位，一台做主节点，另外三台做从节点，实践集

简单之美 » Tag » YARN

Hadoop YARN架构设计要点

Hadoop-2.2.0集群安装配置实践