简单之美

Apache Beam 是一个开源的数据处理编程库，由 Google 贡献给 Apache 的项目，前不久刚刚成为 Apache TLP 项目。它提供了一个高级的、统一的编程模型，允许我们通过构建 Pipeline 的方式实现批量、流数据处理，并且构建好的 Pipeline 能够运行在底层不同的执行引擎上。刚刚接触该开源项目时，我的第一感觉就是：在编程 API 的设计上，数据集及其操作的抽象有点类似Apache Crunch（MapReduce Pipeline编程库）项目；而在支持统一数据处理模型上，能够让人想到 Apache Flink 项目。如果深入了解 Apache Beam，你会发现未来 Apache Beam 很可能成为数据处理领域唯一一个能够将不同的数据应用统一起来的编程库。 Apache Beam 架构概览 Apache Beam 目前最新版本为 0.5.0-SNAPSHOT，最新的 Release 版本为 0.4.0，很多特性还在开发中。在网上找到一个由 Andrew Psaltis 在 2016 年 6 月份演讲的《Apache Beam: The Case for Unifying Streaming API’s》，引用了其中一个 Apache Beam 的架构图，如下图所示：上图中，我们可以看到，Apache Beam 核心的主要有两层：

石浩枫: 作者你自己看看你写的通顺吗，图layer一半有颜色一半没颜色，画的啥东西
gsgsgsl: 赞一个，前几年搞过kafka2.x版本的鉴权，几年有这方面需求，发现很多api变了，2.x版本的鉴权配置在3.x版...
dack: GPT-2中的相对位置编码请问有出处吗，在GPT-2的论文& #8221;Language Models are...
zhang: 你好，这一行“前面计算已经得到 QKT 矩阵，n=6，dk=8，则 A 的大小也是 6 x 6。”请问在下面的代码中为什么dk =...
derek: 何时才能出现伴侣Ai
丘比特: 请问博主，如果在窗口中用到广播状态，现在您有什么实现方案吗？
z: 寫的真好
方俊: 大佬好有耐心，从14年回复到19年哈哈
Yanjun: 图是用 Astah 和 OminiGraffle 画的
JacobZheng: 问个题外话，图是用什么工具画的啊
Derek Dekker: 感觉还挺难的
luosijie: 博主你好，请问您知道K距离方法出自哪篇文献吗，我该如何引用？

简单之美，难得简单，享受简单的唯美。

按月份浏览文章: 一月 2017

Apache Beam：一个开源的统一的分布式数据处理编程库