内部排序算法：快速排序

2014-03-31 14:35:22 Yanjun

基本思想设当前待排序的数组无序区为R[low..high]，利用分治法可将快速排序的基本思想描述为：分解：在R[low..high]中任选一个记录作为基准（Pivot），以此基准将当前无序区划分为左、右两个较小的子区间R[low..pivotpos-1)和R[pivotpos+1..high]，并使左边子区间中所有记录的关键字均小于等于基准记录（不妨记为pivot）的关键字pivot.key，右边的子区间中所有记录的关键字均大于等于pivot.key，而基准记录pivot则位于正确的位置（pivotpos）上，它无需参加后续的排序。注意：划分的关键是要求出基准记录所在的位置pivotpos，划分的结果可以简单地表示为（注意pivot=R[pivotpos]）： R[low..pivotpos-1].keys ≤ R[pivotpos].key ≤ R[pivotpos+1..high].keys 其中low≤pivotpos≤high。求解：通过递归调用快速排序对左、右子区间R[low..pivotpos-1]和R[pivotpos+1..high] 快速排序。组合：因为当“求解”步骤中的两个递归调用结束时，其左、右两个子区间已有序。对快速排序而言， “组合”步骤不需要做什么，可看作是空操作。算法实现快速排序算法

算法评论(0) 阅读(15,178)

内部排序算法：希尔排序

2014-03-31 13:27:46 Yanjun

基本思想先取一个小于n的整数d1作为第一个增量，把待排序的全部记录分成dx个组。所有距离为d1的倍数的记录放在同一个组中。先在各组内进行直接插人排序。然后，取第二个增量d2<d1重复上述的分组和排序。直至所取的增量dt=1(dt<dt-x<…<d2<d1)，即所有记录放在同一组中进行直接插入排序为止。算法实现希尔排序算法，Java实现，代码如下所示： public abstract class Sorter { public abstract void sort(int[] array); } public class ShellSorter extends Sorter { @Override public void sort(int[] array) { int d = array.length; do { d /= 2; shellPass(array, d); // 根据逐渐减小的间隔增量，循环调用一趟排序 } while (d > 1); } /** * 希尔一趟排序 * @param d 间隔增量 */ private void shellPass(int[] array, int d) { Integer tmp; for (int i = d; i <

算法评论(0) 阅读(4,368)

内部排序算法：冒泡排序

2014-03-28 21:33:26 Yanjun

基本思想将被排序的记录数组R[0..n-1]垂直排列，每个记录R[i]看作是重量为R[i].key的气泡。根据轻气泡不能在重气泡之下的原则，从下往上扫描数组R：凡扫描到违反本原则的轻气泡，就使其向上”飘浮”。如此反复进行，直到最后任何两个气泡都是轻者在上，重者在下为止。具体过程，如下所示：初始状态：R[0..n-1]为无序区。第一趟扫描：从无序区底部向上依次比较相邻的两个气泡的重量，若发现轻者在下、重者在上，则交换二者的位置，即依次比较(R[n-1], R[n-2])、(R[n-2], R[n-3])、…、(R[1], R[0])；对于每对气泡(R[j+1], R[j])，若R[j+1].key第一趟扫描完毕时，”最轻”的气泡就飘浮到该区间的顶部，即关键字最小的记录被放在最高位置R[0]上。第二趟扫描：扫描R[1..n-1]。扫描完毕时，”次轻”的气泡飘浮到R[1]的位置上……最后，经过n-1趟扫描可得到有序区R[0..n-1]。注意：第i趟扫描时，R[0..i-1]和R[i..n-1]分别为当前的有序区和无序区。扫描仍是从无序区底部向上直至该区顶部。扫描完毕时，该区中最轻气泡飘浮到顶部

算法评论(2) 阅读(13,881)

内部排序算法：直接选择排序

2014-03-28 17:42:37 Yanjun

基本思想 n个记录的文件的直接选择排序可经过n-1趟直接选择排序得到有序结果：初始状态：无序区为R[1..n]，有序区为空。第1趟排序：在无序区R[1..n]中选出关键字最小的记录R[k]，将它与无序区的第1个记录R[1] 交换，使R[1..1]和R[2..n]分别变为记录个数增加1个的新有序区和记录个数减少1个的新无序区。 …… 第i趟排序：第i趟排序开始时，当前有序区和无序区分别为R[1..i-1]和R[i..n](1≤i≤n-1)。该趟排序从当前无序区中选出关键字最小的记录R[k]，将它与无序区的第1个记录R[i]交换，使R[1..i] 和R[i+1..n]分别变为记录个数增加1个的新有序区和记录个数减少1个的新无序区。这样，n个记录的文件的直接选择排序可经过n-1趟直接选择排序得到有序结果。算法实现直接选择排序算法，Java实现，代码如下所示： public abstract class Sorter { public abstract void sort(int[] array); } public class StraightSelectionSorter extends Sorter { @Override public void sort(int[] array) { int tmp; // 用于交换数据的暂存

算法评论(0) 阅读(12,028)

内部排序算法：直接插入排序

2014-03-28 17:11:23 Yanjun

基本思想假设待排序的记录存放在数组R[0..n-1]中。初始时，R[0]自成1个有序区，无序区为R[1..n-1]。从i=1起直至i=n-1为止，依次将R[i]插入当前的有序区R[0..i-1]中，生成含n个记录的有序区。算法实现直接插入排序算法，Java实现，代码如下所示： public abstract class Sorter { public abstract void sort(int[] array); } public class StraightInsertionSorter extends Sorter { @Override public void sort(int[] array) { int tmp; for (int i = 1; i < array.length; i++) { tmp = array[i]; // array[i]的拷贝 // 如果右侧无序区第一个元素array[i] < 左侧有序区最大的array[i-1]， // 需要将有序区比array[i]大的元素向后移动。 if (array[i] < array[i - 1]) { int j = i - 1; while (j >= 0 && tmp < array[j]) { // 从右到左扫描有序区

算法评论(0) 阅读(12,633)

Shark-0.9.0安装配置运行实践

2014-03-16 22:12:15 Yanjun

Shark（Hive on Spark）是UC Lab为Spark设计并开源的一款数据仓库系统，提供了分布式SQL查询引擎，它能够完全兼容Hive。首先，我们通过下面的图，看一下Shark与Hive的关系（http://shark.cs.berkeley.edu/img/shark-hive-integration.png）：以前我们使用Hive分析HDFS中数据时，通过将HQL翻译成MapReduce作业（Job）在Hadoop集群上运行；而使用Shark可以像使用Hive一样容易，如HQL、Metastore、序列化格式、UDF等Shark都支持，不同的是Shark运行在Spark集群上执行计算，基于Spark系统所使用的RDD模型。官方文档给出的性能方面的数据是，使用Shark查询分析HDFS数据，能比Hive快30多倍，如图所示（http://shark.cs.berkeley.edu/img/perf.png）：下面，我们通过安装配置Shark来简单地体验一下。准备软件包 jdk-7u25-linux-x64.tar.gz scala-2.10.3.tgz apache-maven-3.2.1-bin.tar.gz hadoop-1.2.1.tar.gz spark-0.9.0-incubating-bin-hadoop1.tgz hive-0.11-shark-0.9.0.tar.gz 环境变量配置针对上述准备软件包，我们需要安装配置好JDK、Scala环境，保证Hado

Spark, 开源技术 Spark 评论(2) 阅读(24,699)

RDD：基于内存的集群计算容错抽象

2014-03-13 21:39:32 Yanjun

该论文来自Berkeley实验室，英文标题为：Resilient Distributed Datasets: A Fault-Tolerant Abstraction for In-Memory Cluster Computing。下面的翻译，我是基于科学网翻译基础上进行优化、修改、补充，这篇译文翻译得很不错。在此基础上，我增加了来自英文原文的图和表格数据，以及译文中缺少的未翻译的部分。如果翻译措辞或逻辑有误，欢迎批评指正。摘要本文提出了分布式内存抽象的概念——弹性分布式数据集（RDD，Resilient Distributed Datasets），它具备像MapReduce等数据流模型的容错特性，并且允许开发人员在大型集群上执行基于内存的计算。现有的数据流系统对两种应用的处理并不高效：一是迭代式算法，这在图应用和机器学习领域很常见；二是交互式数据挖掘工具。这两种情况下，将数据保存在内存中能够极大地提高性能。为了有效地实现容错，RDD提供了一种高度受限的共享内存，即RDD是只读的，并且只能通过其他RDD上的批量操作来创建。尽管如此，RDD仍然足以表示很多类型的计算，包括MapReduce和专用的迭代编程模型（如Pregel）等。我们实现的RDD在迭代计

Spark Spark 评论(22) 阅读(129,658)

使用Java编写并运行Spark应用程序

2014-03-11 14:24:22 Yanjun

我们首先提出这样一个简单的需求：现在要分析某网站的访问日志信息，统计来自不同IP的用户访问的次数，从而通过Geo信息来获得来访用户所在国家地区分布状况。这里我拿我网站的日志记录行示例，如下所示： 121.205.198.92 - - [21/Feb/2014:00:00:07 +0800] "GET /archives/417.html HTTP/1.1" 200 11465 "http://shiyanjun.cn/archives/417.html/" "Mozilla/5.0 (Windows NT 5.1; rv:11.0) Gecko/20100101 Firefox/11.0" 121.205.198.92 - - [21/Feb/2014:00:00:11 +0800] "POST /wp-comments-post.php HTTP/1.1" 302 26 "http://shiyanjun.cn/archives/417.html/" "Mozilla/5.0 (Windows NT 5.1; rv:23.0) Gecko/20100101 Firefox/23.0" 121.205.198.92 - - [21/Feb/2014:00:00:12 +0800] "GET /archives/417.html/ HTTP/1.1" 301 26 "http://shiyanjun.cn/archives/417.html/" "Mozilla/5.0 (Windows NT 5.1; rv:11.0) Gecko/20100101 Firefox/11.0" 121.205.1

Spark, 开源技术 Spark 评论(2) 阅读(64,800)

CentOS 6.4下安装配置Spark-0.9集群

2014-03-07 19:25:42 Yanjun

Spark是一个快速、通用的计算集群框架，它的内核使用Scala语言编写，它提供了Scala、Java和Python编程语言high-level API，使用这些API能够非常容易地开发并行处理的应用程序。下面，我们通过搭建Spark集群计算环境，并进行简单地验证，来体验一下使用Spark计算的特点。无论从安装运行环境还是从编写处理程序（用Scala，Spark默认提供的Shell环境可以直接输入Scala代码进行数据处理），我们都会觉得比Hadoop MapReduce计算框架要简单得多，而且，Spark可以很好地与HDFS进行交互（从HDFS读取数据，以及写数据到HDFS中）。安装配置下载安装配置Scala wget http://www.scala-lang.org/files/archive/scala-2.10.3.tgz tar xvzf scala-2.10.3.tgz 在~/.bashrc中增加环境变量SCALA_HOME，并使之生效： export SCALA_HOME=/usr/scala/scala-2.10.3 export PATH=$PATH:$SCALA_HOME/bin 下载安装配置Spark 我们首先在主节点m1上配置Spark程序，然后将配置好的程序文件复制分发到集群的各个从结点上。下载解压缩： wget http://d3kbcqa49mib13.cloudfront

Spark, 开源技术 Spark 评论(0) 阅读(16,141)

Oozie Coordinator使用及详解

2014-03-05 23:39:29 Yanjun

Oozie所支持工作流，工作流定义通过将多个Hadoop Job的定义按照一定的顺序组织起来，然后作为一个整体按照既定的路径运行。一个工作流已经定义了，通过启动该工作流Job，就会执行该工作流中包含的多个Hadoop Job，直到完成，这就是工作流Job的生命周期。那么，现在我们有一个工作流Job，希望每天半夜00:00启动运行，我们能够想到的就是通过写一个定时脚本来调度程序运行。如果我们有多个工作流Job，使用crontab的方式调用可能需要编写大量的脚本，还要通过脚本来控制好各个工作流Job的执行时序问题，不但脚本不好维护，而且监控也不方便。基于这样的背景，Oozie提出了Coordinator的概念，他们能够将每个工作流Job作为一个动作（Action）来运行，相当于工作流定义中的一个执行节点（我们可以理解为工作流的工作流），这样就能够将多个工作流Job组织起来，称为Coordinator Job，并指定触发时间和频率，还可以配置数据集、并发数等。一个Coordinator Job包含了在Job外部设置执行周期和频率的语义，类似于在工作流外部增加了一个协调器来管理这些工作流的工作流Job的运

Azkaban/Oozie, 开源技术 Oozie 评论(12) 阅读(66,570)

Oozie工作流程定义详解

2014-03-04 19:21:02 Yanjun

Oozie工作流程定义是一个DAG（Directed Acyclical Graphs）图，它由控制流节点（Control Flow Nodes）或动作节点（Action Nodes）组成，各个节点又是通过表征转移的箭线（transitions arrows）互相连通。对于工作流一般对应存在流程定义语言，例如jBPM是jPDL，大多数都是基于XML定义的，Oozie流程定义语言也是基于XML定义的，称为hPDL（Hadoop Process Definition Language）。下面，我们详细说明工作流定义相关的内容：工作流生命周期在Oozie中，工作流的状态可能存在如下几种：状态含义说明 PREP 一个工作流Job第一次创建将处于PREP状态，表示工作流Job已经定义，但是没有运行。 RUNNING 当一个已经被创建的工作流Job开始执行的时候，就处于RUNNING状态。它不会达到结束状态，只能因为出错而结束，或者被挂起。 SUSPENDED 一个RUNNING状态的工作流Job会变成SUSPENDED状态，而且它会一直处于该状态，除非这个工作流Job被重新开始执行或者被杀死。 SUCCEEDED

Azkaban/Oozie, 开源技术 Oozie 评论(1) 阅读(42,823)

Oozie-3.3.2安装配置运行实践

2014-03-01 20:24:30 Yanjun

Oozie是一个开源的工作流调度系统，它能够管理逻辑复杂的多个Hadoop作业，按照指定的顺序将其协同运行起来。例如，我们可能有这样一个需求，某个业务系统每天产生20G原始数据，我们每天都要对其进行处理，处理步骤如下所示：通过Hadoop先将原始数据同步到HDFS上；借助MapReduce计算框架对原始数据进行转换，生成的数据以分区表的形式存储到多张Hive表中；需要对Hive中多个表的数据进行JOIN处理，得到一个明细数据Hive大表；将明细数据进行复杂的统计分析，得到排序后的报表信息；需要将统计分析得到的结果数据同步到业务系统中，供业务调用使用。上述过程可以通过工作流系统来编排任务，最终生成一个工作流实例，然后每天定时启动运行这个实例即可。在这种依赖于Hadoop存储和处理能力要求的应用场景下，Oozie可能能够简化任务调度和执行。这里，我们在CentOS 6.2系统下安装Oozie-3.3.2，需要安装相关的依赖软件包，下面我们一步一步地进行安装，包括安装配置依赖软件包。这里，我们使用MySQL数据库存储Oozie数据，Hadoop使用的是1.2.1版本。安装Oozie Ser

Azkaban/Oozie, 开源技术 Oozie 评论(47) 阅读(60,111)

第 10 页, 共 15 页« 首页 ‹ 上页 6 7 8 91011 12 13 14 下页 ›末页 »

简单之美

简单之美，难得简单，享受简单的唯美。