<?xml version="1.0" encoding="UTF-8"?>
<rss version="2.0"
	xmlns:content="http://purl.org/rss/1.0/modules/content/"
	xmlns:wfw="http://wellformedweb.org/CommentAPI/"
	xmlns:dc="http://purl.org/dc/elements/1.1/"
	xmlns:atom="http://www.w3.org/2005/Atom"
	xmlns:sy="http://purl.org/rss/1.0/modules/syndication/"
	xmlns:slash="http://purl.org/rss/1.0/modules/slash/"
	>

<channel>
	<title>简单之美 &#187; Tag &#187; 架构</title>
	<atom:link href="http://shiyanjun.cn/archives/tag/%e6%9e%b6%e6%9e%84/feed" rel="self" type="application/rss+xml" />
	<link>http://shiyanjun.cn</link>
	<description>简单之美，难得简单，享受简单的唯美。</description>
	<lastBuildDate>Wed, 04 Mar 2026 07:04:53 +0000</lastBuildDate>
	<language>zh-CN</language>
		<sy:updatePeriod>hourly</sy:updatePeriod>
		<sy:updateFrequency>1</sy:updateFrequency>
	<generator>http://wordpress.org/?v=3.9.2</generator>
	<item>
		<title>PB 级海量数据服务平台架构设计实践</title>
		<link>http://shiyanjun.cn/archives/1702.html</link>
		<comments>http://shiyanjun.cn/archives/1702.html#comments</comments>
		<pubDate>Tue, 29 Aug 2017 00:10:57 +0000</pubDate>
		<dc:creator><![CDATA[Yanjun]]></dc:creator>
				<category><![CDATA[开源技术]]></category>
		<category><![CDATA[架构]]></category>
		<category><![CDATA[Hadoop]]></category>
		<category><![CDATA[Spark]]></category>

		<guid isPermaLink="false">http://shiyanjun.cn/?p=1702</guid>
		<description><![CDATA[<p>基于 PB 级海量数据实现数据服务平台，需要从各个不同的角度去权衡，主要包括实践背景、技术选型、架构设计，我们基于这三个方面进行了架构实践，下面分别从这三个方面进行详细分析讨论：
实践背景
该数据服务平台架构设计之初，实践的背景可以从三个维度来进行说明：当前现状、业务需求、架构需求，分别如下所示：
当前现状
收集了当前已有数据、分工、团队的一些基本情况，如下所示：

数据收集和基础数据加工有专门的 Team 在做，我们是基于收集后并进行过初步加工的基础数据，结合不同行业针对特定数据的需求进行二次加工的。
数据二次加工，会集成基础数据之外的其它有业务属性的数据，比如引入第三方 POI 数据等。
原始数据每天增量大约 30~40TB 左右。
计算集群采用 Spark on YARN 部署模式，大约 400 个节点。
所有数据各种属性、行为信息，都是围绕大约 40亿+ 的移动设备 ID 进行很多倍膨胀，比如每天使用微信 App 的设备的行为信息。
参与该平台的研发人员，对实际数据业务需求了解不会非常深入，因为跨多个行业及其不同数据需求的变化较快。

业务需求
另</p>]]></description>
	<p>基于 PB 级海量数据实现数据服务平台，需要从各个不同的角度去权衡，主要包括实践背景、技术选型、架构设计，我们基于这三个方面进行了架构实践，下面分别从这三个方面进行详细分析讨论：
实践背景
该数据服务平台架构设计之初，实践的背景可以从三个维度来进行说明：当前现状、业务需求、架构需求，分别如下所示：
当前现状
收集了当前已有数据、分工、团队的一些基本情况，如下所示：

数据收集和基础数据加工有专门的 Team 在做，我们是基于收集后并进行过初步加工的基础数据，结合不同行业针对特定数据的需求进行二次加工的。
数据二次加工，会集成基础数据之外的其它有业务属性的数据，比如引入第三方 POI 数据等。
原始数据每天增量大约 30~40TB 左右。
计算集群采用 Spark on YARN 部署模式，大约 400 个节点。
所有数据各种属性、行为信息，都是围绕大约 40亿+ 的移动设备 ID 进行很多倍膨胀，比如每天使用微信 App 的设备的行为信息。
参与该平台的研发人员，对实际数据业务需求了解不会非常深入，因为跨多个行业及其不同数据需求的变化较快。

业务需求
另</p>			<content:encoded><![CDATA[<p>基于 PB 级海量数据实现数据服务平台，需要从各个不同的角度去权衡，主要包括实践背景、技术选型、架构设计，我们基于这三个方面进行了架构实践，下面分别从这三个方面进行详细分析讨论：
实践背景
该数据服务平台架构设计之初，实践的背景可以从三个维度来进行说明：当前现状、业务需求、架构需求，分别如下所示：
当前现状
收集了当前已有数据、分工、团队的一些基本情况，如下所示：

数据收集和基础数据加工有专门的 Team 在做，我们是基于收集后并进行过初步加工的基础数据，结合不同行业针对特定数据的需求进行二次加工的。
数据二次加工，会集成基础数据之外的其它有业务属性的数据，比如引入第三方 POI 数据等。
原始数据每天增量大约 30~40TB 左右。
计算集群采用 Spark on YARN 部署模式，大约 400 个节点。
所有数据各种属性、行为信息，都是围绕大约 40亿+ 的移动设备 ID 进行很多倍膨胀，比如每天使用微信 App 的设备的行为信息。
参与该平台的研发人员，对实际数据业务需求了解不会非常深入，因为跨多个行业及其不同数据需求的变化较快。

业务需求
另</p>]]></content:encoded>
			<wfw:commentRss>http://shiyanjun.cn/archives/1702.html/feed</wfw:commentRss>
		<slash:comments>1</slash:comments>
		</item>
	</channel>
</rss>
