PB 级海量数据服务平台架构设计实践

Yanjun — Tue, 29 Aug 2017 00:10:57 +0000

基于 PB 级海量数据实现数据服务平台，需要从各个不同的角度去权衡，主要包括实践背景、技术选型、架构设计，我们基于这三个方面进行了架构实践，下面分别从这三个方面进行详细分析讨论：实践背景该数据服务平台架构设计之初，实践的背景可以从三个维度来进行说明：当前现状、业务需求、架构需求，分别如下所示：当前现状收集了当前已有数据、分工、团队的一些基本情况，如下所示：数据收集和基础数据加工有专门的 Team 在做，我们是基于收集后并进行过初步加工的基础数据，结合不同行业针对特定数据的需求进行二次加工的。数据二次加工，会集成基础数据之外的其它有业务属性的数据，比如引入第三方 POI 数据等。原始数据每天增量大约 30~40TB 左右。计算集群采用 Spark on YARN 部署模式，大约 400 个节点。所有数据各种属性、行为信息，都是围绕大约 40亿+ 的移动设备 ID 进行很多倍膨胀，比如每天使用微信 App 的设备的行为信息。参与该平台的研发人员，对实际数据业务需求了解不会非常深入，因为跨多个行业及其不同数据需求的变化较快。业务需求另

简单之美 » Tag » 架构

PB 级海量数据服务平台架构设计实践