Apache Crunch：简化编写MapReduce Pipeline程序

Yanjun — Fri, 13 Feb 2015 02:08:28 +0000

Apache Crunch提供了一套Java API，能够简化编写、测试、运行MapReduce Pipeline程序。Crunch的基本思想是隐藏编写MapReduce程序的细节，基于函数式编程的思想，定义了一套函数式编程接口，因为Java并不支持函数式编程，只能通过回调的方式来实现，虽然写起来代码不够美观简洁，但是编写MapReduce程序的思路是非常清晰的，而且比编写原生的MapReduce程序要容易地多。如果直接使用MapReduce API编写一个复杂的Pipeline程序，可能需要考虑好每个Job的细节（Map和Reduce的实现内容），而使用Crunch变成库来编写，只需要清晰地控制好要实现的业务逻辑处理的操作流程，调用Crunch提供的接口（类似函数操作的算子、如union、join、filter、groupBy、sort等等）。下面，我们简单说明一下Crunch提供的一些功能或内容： Crunch集合及操作我们看一下Crunch提供的用来在处理分布式数据集的集合类型的抽象定义，如下面类图所示：上面，我给出了集合类对应的方法签名，其中具有相同名称签名的方法还具有重载的其他方法签名（参数列表不同），Crunch集合类型的高层抽象就包含

简单之美 » Tag » Crunch

Apache Crunch：简化编写MapReduce Pipeline程序