ZooKeeper-3.3.4集群安装配置

2013-10-31 10:46:14 Yanjun

ZooKeeper是一个分布式开源框架，提供了协调分布式应用的基本服务，它向外部应用暴露一组通用服务——分布式同步（Distributed Synchronization）、命名服务（Naming Service）、集群维护（Group Maintenance）等，简化分布式应用协调及其管理的难度，提供高性能的分布式服务。ZooKeeper本身可以以Standalone模式安装运行，不过它的长处在于通过分布式ZooKeeper集群（一个Leader，多个Follower），基于一定的策略来保证ZooKeeper集群的稳定性和可用性，从而实现分布式应用的可靠性。有关ZooKeeper的介绍，网上很多，也可以参考文章后面，我整理的一些相关链接。 ZooKeeper的安装配置还算比较容易的，下面，我们简单说明一下ZooKeeper的配置。 ZooKeeper Standalone模式从Apache网站上（zookeeper.apache.org）下载ZooKeeper软件包，我选择了3.3.4版本的（zookeeper-3.3.4.tar.gz），在一台Linux机器上安装非常容易，只需要解压缩后，简单配置一下即可以启动ZooKeeper服务器进程。将zookeeper-3.3.4/conf目录下面的 zoo_sample.cfg修改为zoo.cfg，配置文件内容如下

Hadoop/Hive/ZooKeeper, 开源技术 ZooKeeper 评论(3) 阅读(18,703)

基于Thrift实现跨语言服务

2013-10-18 17:26:21 Yanjun

假设，现在我们有这样一个需求：要通过一个代理平台，将查询请求转发到后端服务器进行查询。后端存在多种查询服务器，查询方式也不同，比如，有基于SQL的关系数据库查询，也有基于搜索引擎Solr的查询。通过代理平台，将服务暴露给具有任何编程语言技能的开发人员进行调用。我们可以选择Thrift来定义语言中性的服务接口，然后通过Thrift编译器将定义生成多种编程语言的客户端代码框架，服务器端使用指定语言进行开发，如Java，最后通过连接Thrift服务器来进行查询调用。根据我们的需求，后端服务使用Java实现，而外部使用C#进行调用返回结果，再执行进一步的处理。 Thrift服务定义首先，看一下，我们给出的示例服务定义，文件命名为queryproxy.thrift，内容如下所示： namespace java org.shirdrn.queryproxy.thrift.protocol namespace csharp Query.Proxy.Thrift.Protocol namespace py queryproxy.thrift.protocol typedef i16 short typedef i32 int typedef i64 long enum QueryType { SOLR = 1, SQL = 2 } struct QueryPara

Dubbo/Akka/Thrift, 开源技术 Thrift 评论(0) 阅读(21,612)

基于Solr DIH实现MySQL表数据全量索引和增量索引

2013-10-15 00:06:49 Yanjun

实现MySQL表数据全量索引和增量索引，基于Solr DIH组件实现起来比较简单，只需要重复使用Solr的DIH（Data Import Handler）组件，对data-config.xml进行简单的修改即可。Solr DIH组件的实现类为org.apache.solr.handler.dataimport.DataImportHandler，在Solr的solrconfig.xml中配置两个handler，配置分别说明如下。全量索引 solrconfig.xml配置如下： <requestHandler name="/dataimport" class="org.apache.solr.handler.dataimport.DataImportHandler"> <lst name="defaults"> <str name="config">data-config.xml</str> </lst> </requestHandler> 上面这个是针对全量索引的，主要是配置data-config.xml文件，示例如下所示： <dataConfig> <dataSource name="jdbc" driver="com.mysql.jdbc.Driver" url="jdbc:mysql://172.0.8.249:5606/marketing_db_saved

Solr/ElasticSearch, 开源技术 Solr/ElasticSearch 评论(5) 阅读(41,997)

分类算法：决策树（C4.5）

2013-10-13 20:46:49 Yanjun

C4.5是机器学习算法中的另一个分类决策树算法，它是基于ID3算法进行改进后的一种重要算法，相比于ID3算法，改进有如下几个要点：用信息增益率来选择属性。ID3选择属性用的是子树的信息增益，这里可以用很多方法来定义信息，ID3使用的是熵（entropy，熵是一种不纯度度量准则），也就是熵的变化值，而C4.5用的是信息增益率。在决策树构造过程中进行剪枝，因为某些具有很少元素的结点可能会使构造的决策树过适应（Overfitting），如果不考虑这些结点可能会更好。对非离散数据也能处理。能够对不完整数据进行处理。首先，说明一下如何计算信息增益率。熟悉了ID3算法后，已经知道如何计算信息增益，计算公式如下所示（来自Wikipedia）：或者，用另一个更加直观容易理解的公式计算：按照类标签对训练数据集D的属性集A进行划分，得到信息熵：按照属性集A中每个属性进行划分，得到一组信息熵：计算信息增益然后计算信息增益，即前者对后者做差，得到属性集合A一组信息增益：这样，信息增益就计算出来了。计算信息增益率下面看，计算信息增益率

人工智能 C4.5, 决策树, 分类评论(3) 阅读(29,614)

Solr DIH: 基于MySQL表数据建立索引

2013-10-12 15:48:43 Yanjun

选择使用Solr，对数据库中数据进行索引，可以单独写程序将数据库中的数据导出并建立索引，这个过程可能对于数据处理的控制更灵活一些，但是却可能带来很大的工作量。选择使用Solr的DIH组件，可以很方便的对数据库表中数据进行索引，下面基于MySQL数据库实现建立索引。首先，需要设计你的schema，最主要的工作是，将数据库表中字段映射为Lucene索引（Solr直接使用Lucene的索引格式和数据）的Field，从而将数据表中的一条记录映射为Lucene中的Document，然后进行索引。另外，在schema.xml配置文件中，还需要指定各个字段在索引数据中的属性信息（如是否索引、是否存储、是否分词、排序规则等），以及Field所使用的分析器、过滤器等。在schema.xml文件进行配置，下面是配置实例： <?xml version="1.0" ?> <schema name="example core zero" version="1.1"> <types> <fieldtype name="int" class="solr.IntField" omitNorms="true" /> <fieldtype name="stri

Solr/ElasticSearch, 开源技术 Solr/ElasticSearch 评论(0) 阅读(14,344)

分类算法：决策树（ID3）

2013-10-11 10:42:53 Yanjun

决策树是以实例为基础的归纳学习算法。它从一组无次序、无规则的元组中推理出决策树表示形式的分类规则。它采用自顶向下的递归方式，在决策树的内部结点进行属性值的比较，并根据不同的属性值从该结点向下分支，叶结点是要学习划分的类。从根到叶结点的一条路径就对应着一条合取规则，整个决策树就对应着一组析取表达式规则。一棵决策树由以下3类结点构成：根结点内部结点（决策结点）叶结点其中，根结点和内部结点都对应着我们要进行分类的属性集中的一个属性，而叶结点是分类中的类标签的集合。如果一棵决策树构建起来，其分类精度满足我们的实际需要，我们就可以使用它来进行分类新的数据集。这棵决策树就是我们根据已有的训练数据集训练出来的分类模型，可以通过使用测试数据集来对分类模型进行验证，经过调整模型直到达到我们所期望的分类精度，然后就可以使用该模型来预测实际应用中的新数据，对新的数据进行分类。通过上面描述，我们已经能够感觉出，在构建决策树的过程中，如果选择其中的内部结点（决策结点），才能够使我们的决策树得到较高的分

人工智能 ID3, 决策树, 分类评论(5) 阅读(528,558)

简单之美

简单之美，难得简单，享受简单的唯美。

按月份浏览文章: 十月 2013