Apache Storm内部原理分析

2016-02-17 21:42:58 Yanjun

本文算是个人对Storm应用和学习的一个总结，由于不太懂Clojure语言，所以无法更多地从源码分析，但是参考了官网、好多朋友的文章，以及《Storm Applied: Strategies for real-time event processing》这本书，以及结合自己使用Storm的经历，希望对于想深入一点了解Storm原理的朋友能有所帮助，有不足之处欢迎拍砖交流。 Storm集群架构 Storm集群采用主从架构方式，主节点是Nimbus，从节点是Supervisor，有关调度相关的信息存储到ZooKeeper集群中，架构如下图所示：具体描述，如下所示： Nimbus Storm集群的Master节点，负责分发用户代码，指派给具体的Supervisor节点上的Worker节点，去运行Topology对应的组件（Spout/Bolt）的Task。 Supervisor Storm集群的从节点，负责管理运行在Supervisor节点上的每一个Worker进程的启动和终止。通过Storm的配置文件中的supervisor.slots.ports配置项，可以指定在一个Supervisor上最大允许多少个Slot，每个Slot通过端口号来唯一标识，一个端口号对应一个Worker进程（如果该Worker进程被启动）。 ZooKeeper 用来协调Nimb

Storm, 开源技术 Storm 评论(11) 阅读(36,287)

JStorm-0.9.6.2安装配置

2015-01-24 12:07:37 Yanjun

JStorm是由Alibaba开源的实时计算系统，它使用Java重写了Apache Storm（使用Clojure+Java混编），而且在原来的基础上做了很多改进的地方。使用Java重写，对于使用Java的开发人员来说，可以通过阅读源码来了解JStorm内部的原理和实现，而且可以根据运行错误日志来排查错误。下面通过安装配置，以及简单使用的验证，来说明JStorm宏观上与Apache Storm的不同之处。安装配置JStorm Server 首先，要保证JDK成功安装配置，然后在一个节点上下载、安装、配置JStorm。例如，我在hadoop1节点上，下载并解压缩： wget http://42.121.19.155/jstorm/jstorm-0.9.6.2.zip unzip jstorm-0.9.6.2.zip cd jstorm-0.9.6.2 修改配置文件conf/storm.yaml，内容修改如下： ########### These MUST be filled in for a storm configuration storm.zookeeper.servers: - "10.10.4.128" - "10.10.4.129" - "10.10.4.130" storm.zookeeper.root: "/jstorm" # %JSTORM_HOME% is the jstorm home directory s

Storm, 开源技术 JStorm, Storm 评论(0) 阅读(37,087)

Storm实时计算：流操作入门编程实践

2014-11-28 13:16:10 Yanjun

Storm是一个分布式是实时计算系统，它设计了一种对流和计算的抽象，概念比较简单，实际编程开发起来相对容易。下面，简单介绍编程实践过程中需要理解的Storm中的几个概念： Topology Storm中Topology的概念类似于Hadoop中的MapReduce Job，是一个用来编排、容纳一组计算逻辑组件（Spout、Bolt）的对象（Hadoop MapReduce中一个Job包含一组Map Task、Reduce Task），这一组计算组件可以按照DAG图的方式编排起来（通过选择Stream Groupings来控制数据流分发流向），从而组合成一个计算逻辑更加负责的对象，那就是Topology。一个Topology运行以后就不能停止，它会无限地运行下去，除非手动干预（显式执行bin/storm kill ）或意外故障（如停机、整个Storm集群挂掉）让它终止。 Spout Storm中Spout是一个Topology的消息生产的源头，Spout应该是一个持续不断生产消息的组件，例如，它可以是一个Socket Server在监听外部Client连接并发送消息，可以是一个消息队列（MQ）的消费者、可以是用来接收Flume Agent的Sink所发送消息的服务，等等。Spout生产的消息在Storm中被抽

Storm, 开源技术 Storm 评论(8) 阅读(45,726)

Kafka+Storm+HDFS整合实践

2014-10-21 19:24:19 Yanjun

在基于Hadoop平台的很多应用场景中，我们需要对数据进行离线和实时分析，离线分析可以很容易地借助于Hive来实现统计分析，但是对于实时的需求Hive就不合适了。实时应用场景可以使用Storm，它是一个实时处理系统，它为实时处理类应用提供了一个计算模型，可以很容易地进行编程处理。为了统一离线和实时计算，一般情况下，我们都希望将离线和实时计算的数据源的集合统一起来作为输入，然后将数据的流向分别经由实时系统和离线分析系统，分别进行分析处理，这时我们可以考虑将数据源（如使用Flume收集日志）直接连接一个消息中间件，如Kafka，可以整合Flume+Kafka，Flume作为消息的Producer，生产的消息数据（日志数据、业务请求数据等等）发布到Kafka中，然后通过订阅的方式，使用Storm的Topology作为消息的Consumer，在Storm集群中分别进行如下两个需求场景的处理：直接使用Storm的Topology对数据进行实时分析处理整合Storm+HDFS，将消息处理后写入HDFS进行离线分析处理实时处理，只要开发满足业务需要的Topology即可，不做过多说明。这里，我们主要从安装配置K

Hadoop/Hive/ZooKeeper, Storm, 开源技术 HDFS, Kafka, Storm 评论(156) 阅读(858,690)

CentOS 6.4单机环境下安装配置Storm

2013-08-31 05:03:41 Yanjun

Storm是一个分布式的、高容错的实时计算系统，在实时性要求比较强的应用场景下，可以用它来处理海量数据。我们尝试着搭建Storm平台，来实现实时计算。下面，我们在CentOS 6.4上安装配置Storm系统。安装配置安装配置过程，按照如下步骤进行： 1、安装配置sunjdk 下载sunjdk，并安装Java运行环境： wget http://download.oracle.com/otn/java/jdk/6u45-b06/jdk-6u45-linux-x64.bin chmod +x jdk-6u45-linux-x64-rpm.bin ./jdk-6u45-linux-x64.bin 配置Java运行时环境： vi ~/.bashrc export JAVA_HOME=/usr/java/jdk1.6.0_45/ export PATH=$PATH:$JAVA_HOME/bin export CLASSPATH=$JAVA_HOME/lib/*.jar:$JAVA_HOME/jre/lib/*.jar . ~/.bashrc java -version 2、安装zeromq 执行如下命令，进行下载配置安装： wget http://download.zeromq.org/zeromq-2.2.0.tar.gz tar -zvxf zeromq-2.2.0.tar.gz cd zeromq-2.2.0/ ./configure sudo make sudo make install 3、安装jzmq 安装jzmq需要使用Git下载源码，从源代码编译安装： sudo yum insta

Storm, 开源技术 Storm 评论(0) 阅读(23,759)

石浩枫: 作者你自己看看你写的通顺吗，图layer一半有颜色一半没颜色，画的啥东西
gsgsgsl: 赞一个，前几年搞过kafka2.x版本的鉴权，几年有这方面需求，发现很多api变了，2.x版本的鉴权配置在3.x版...
dack: GPT-2中的相对位置编码请问有出处吗，在GPT-2的论文& #8221;Language Models are...
zhang: 你好，这一行“前面计算已经得到 QKT 矩阵，n=6，dk=8，则 A 的大小也是 6 x 6。”请问在下面的代码中为什么dk =...
derek: 何时才能出现伴侣Ai
丘比特: 请问博主，如果在窗口中用到广播状态，现在您有什么实现方案吗？
z: 寫的真好
方俊: 大佬好有耐心，从14年回复到19年哈哈
Yanjun: 图是用 Astah 和 OminiGraffle 画的
JacobZheng: 问个题外话，图是用什么工具画的啊
Derek Dekker: 感觉还挺难的
luosijie: 博主你好，请问您知道K距离方法出自哪篇文献吗，我该如何引用？

简单之美

简单之美，难得简单，享受简单的唯美。

按分类浏览文章: Storm

Apache Storm内部原理分析

JStorm-0.9.6.2安装配置

Storm实时计算：流操作入门编程实践

Kafka+Storm+HDFS整合实践

CentOS 6.4单机环境下安装配置Storm