使用Apache Beam实现实时监控统计

2017-11-30 01:18:17 Yanjun

网站使用Apache服务器，对于请求网站资源的事件被记录到日志中，我们需要基于该日志文件的数据进行实时监控统计，通过读取IP库数据可以得到每个访问IP的所属地域（国内按城市，国外按国家，IP库中没有的按未知处理）。其实，整个流程我们可以通过Flume收集聚合多个子站日志文件数据，并写入到下游的Kafka消息中间件集群中，然后可以直接从Kafka中进行消费，实现实时监控统计，最后结果更新到Redis中去。为了简单，我们这里只是通过输入的日志文件作为数据源，下游直接通过Apache Beam来进行实时分析处理，结果输出到多个按时间分组的文件中。我们实现的实时监控功能目标，如下所示：输入事件日志文件，以及IP库文件；基于日志文件中的事件时间，每间隔5分钟输出一个统计文件，结果文件中包含“地域”和“访问次数”。下面是文件格式示例。事件日志文件的格式，示例如下所示： 113.246.155.26 - - [10/Dec/2017:01:03:28 +0800] "GET /wp-content/themes/media-maven/library/images/bg.jpg HTTP/1.1" 200 8113 "http://shiyanjun.cn/archiv

Beam/Crunch, 开源技术 Beam/Crunch 评论(0) 阅读(6,252)

Apache Beam：一个开源的统一的分布式数据处理编程库

2017-01-18 18:16:59 Yanjun

Apache Beam 是一个开源的数据处理编程库，由 Google 贡献给 Apache 的项目，前不久刚刚成为 Apache TLP 项目。它提供了一个高级的、统一的编程模型，允许我们通过构建 Pipeline 的方式实现批量、流数据处理，并且构建好的 Pipeline 能够运行在底层不同的执行引擎上。刚刚接触该开源项目时，我的第一感觉就是：在编程 API 的设计上，数据集及其操作的抽象有点类似Apache Crunch（MapReduce Pipeline编程库）项目；而在支持统一数据处理模型上，能够让人想到 Apache Flink 项目。如果深入了解 Apache Beam，你会发现未来 Apache Beam 很可能成为数据处理领域唯一一个能够将不同的数据应用统一起来的编程库。 Apache Beam 架构概览 Apache Beam 目前最新版本为 0.5.0-SNAPSHOT，最新的 Release 版本为 0.4.0，很多特性还在开发中。在网上找到一个由 Andrew Psaltis 在 2016 年 6 月份演讲的《Apache Beam: The Case for Unifying Streaming API’s》，引用了其中一个 Apache Beam 的架构图，如下图所示：上图中，我们可以看到，Apache Beam 核心的主要有两层：

Beam/Crunch, 开源技术 Beam/Crunch 评论(4) 阅读(23,048)

Apache Crunch：简化编写MapReduce Pipeline程序

2015-02-13 10:08:28 Yanjun

Apache Crunch提供了一套Java API，能够简化编写、测试、运行MapReduce Pipeline程序。Crunch的基本思想是隐藏编写MapReduce程序的细节，基于函数式编程的思想，定义了一套函数式编程接口，因为Java并不支持函数式编程，只能通过回调的方式来实现，虽然写起来代码不够美观简洁，但是编写MapReduce程序的思路是非常清晰的，而且比编写原生的MapReduce程序要容易地多。如果直接使用MapReduce API编写一个复杂的Pipeline程序，可能需要考虑好每个Job的细节（Map和Reduce的实现内容），而使用Crunch变成库来编写，只需要清晰地控制好要实现的业务逻辑处理的操作流程，调用Crunch提供的接口（类似函数操作的算子、如union、join、filter、groupBy、sort等等）。下面，我们简单说明一下Crunch提供的一些功能或内容： Crunch集合及操作我们看一下Crunch提供的用来在处理分布式数据集的集合类型的抽象定义，如下面类图所示：上面，我给出了集合类对应的方法签名，其中具有相同名称签名的方法还具有重载的其他方法签名（参数列表不同），Crunch集合类型的高层抽象就包含

Beam/Crunch, 开源技术 Crunch, Hadoop/Hive/ZooKeeper, MapReduce 评论(0) 阅读(17,396)

石浩枫: 作者你自己看看你写的通顺吗，图layer一半有颜色一半没颜色，画的啥东西
gsgsgsl: 赞一个，前几年搞过kafka2.x版本的鉴权，几年有这方面需求，发现很多api变了，2.x版本的鉴权配置在3.x版...
dack: GPT-2中的相对位置编码请问有出处吗，在GPT-2的论文& #8221;Language Models are...
zhang: 你好，这一行“前面计算已经得到 QKT 矩阵，n=6，dk=8，则 A 的大小也是 6 x 6。”请问在下面的代码中为什么dk =...
derek: 何时才能出现伴侣Ai
丘比特: 请问博主，如果在窗口中用到广播状态，现在您有什么实现方案吗？
z: 寫的真好
方俊: 大佬好有耐心，从14年回复到19年哈哈
Yanjun: 图是用 Astah 和 OminiGraffle 画的
JacobZheng: 问个题外话，图是用什么工具画的啊
Derek Dekker: 感觉还挺难的
luosijie: 博主你好，请问您知道K距离方法出自哪篇文献吗，我该如何引用？

简单之美

简单之美，难得简单，享受简单的唯美。

按分类浏览文章: Beam/Crunch

使用Apache Beam实现实时监控统计

Apache Beam：一个开源的统一的分布式数据处理编程库

Apache Crunch：简化编写MapReduce Pipeline程序