Apache Pig简介与实践

Yanjun — Sat, 25 Jul 2015 07:19:45 +0000

Apache Pig是一个用来分析大数据集的平台，它由两部分组成：一部分是用于表达数据分析程序的高级脚本语言，另一部分是用于评估分析程序的基本工具。目前来看，Pig主要用于离线数据的批量处理应用场景，但是随着Pig的发展处理数据的速度会不断地提升，这可能依赖于Pig底层的执行引擎。比如，Pig通过指定执行模式，可以使用Hadoop的MapReduce计算引擎来实现数据处理，也可以使用基于Tez的计算引擎来实现（Tez是为了绕开MapReduce多阶段Job写磁盘而设计的DAG计算引擎，性能应该比MapReduce要快），看到Pig未来的发展路线图，以后可能会基于Storm或Spark计算平台实现底层计算引擎，那样速度会有极大地提升。我们基于最新的0.15.0版本的Pig（Hadoop使用的是2.2.0版本），通过编写一些例子脚本来实践Pig的语言特性。 Pig安装与执行 Pig安装非常简单，只需要下载Pig包，然后解压缩即可：如果希望直接使用pig命令，可以修改环境变量文件~/.bashrc，增加如下配置：使变量配置生效： Pig支持如下4种执行模式：本地模式本地模式主要是基于本地文件系统，比较适合调试脚本

简单之美 » Tag » Pig

Apache Pig简介与实践