SolrCloud 4.3.1+Tomcat 7安装配置实践

2013-08-22 22:54:58 Yanjun

我们使用Solr Replication可以实现Solr服务器的可用性，即使某一个索引副本由于磁盘介质故障或者误操作删除等，其他的多个复制副本仍然可以提供服务。如果只是单纯的基于Solr Replication技术，只能对一个索引进行管理维护，当索引数据达到一定规模，搜索的性能成了瓶颈，除了重新规划设计索引，实现逻辑划分以外，没有更好地方法实现查询服务器的可扩展性。 SolrCloud就是为了解决这个问题而提出的。SolrCloud通过ZooKeeper集群来进行协调，使一个索引（SolrCloud中叫做一个Collection）进行分片，各个分片可以分布在不同的物理节点上，而且，对于同一个Collection的多个分片（Shard）之间没有交集，亦即，多个物理分片组成一个完成的索引Collection。为了保证分片数据的可用性，SolrCloud自动支持Solr Replication，可以同时对分片进行复制，冗余存储。下面，我们基于Solr最新的4.3.1版本进行安装配置SolrCloud集群，通过实践来实现索引数据的分布存储和检索。准备工作服务器信息三台服务器： 10.95.3.61 master 10.95.3.62 slave1 10

Solr/ElasticSearch, 开源技术 Solr/ElasticSearch, SolrCloud, Tomcat 评论(1) 阅读(37,944)

Solr实现SQL的查询与统计

2013-08-21 22:51:38 Yanjun

Cloudera公司已经推出了基于Hadoop平台的查询统计分析工具Impala，只要熟悉SQL，就可以熟练地使用Impala来执行查询与分析的功能。不过Impala的SQL和关系数据库的SQL还是有一点微妙地不同的。下面，我们设计一个表，通过该表中的数据，来将SQL查询与统计的语句，使用Solr查询的方式来与SQL查询对应。这个翻译的过程，是非常有趣的，你可以看到Solr一些很不错的功能。用来示例的表结构设计，如图所示：下面，我们通过给出一些SQL查询统计语句，然后对应翻译成Solr查询语句，然后对比结果。查询对比条件组合查询 SQL查询语句： SELECT log_id,start_time,end_time,prov_id,city_id,area_id,idt_id,cnt,net_type FROM v_i_event WHERE prov_id = 1 AND net_type = 1 AND area_id = 10304 AND time_type = 1 AND time_id >= 20130801 AND time_id <= 20130815 ORDER BY log_id LIMIT 10; 查询结果，如图所示： Solr查询URL： http://slave1:8888/solr-cloud/i_event/select?q=*:*&fl=log_id,start_time,end_time,prov_id,city_id,area_id,id

Solr/ElasticSearch, 开源技术 Solr/ElasticSearch, SQL 评论(0) 阅读(19,087)

Ubuntu系统下Hadoop 2.0.4集群安装配置

2013-08-21 22:15:18 Yanjun

Hadoop 2已经将HDFS和YARN分开管理，这样分开管理，可以是HDFS更方便地进行HA或Federation，实现HDFS的线性扩展（Scale out），从而保证HDFS集群的高可用性。从另一个方面们来说，HDFS可以作为一个通用的分布式存储系统，而为第三方的分布式计算框架提供方便，就像类似YARN的计算框架，其他的如，Spark等等。YARN就是MapReduce V2，将原来Hadoop 1.x中的JobTracker拆分为两部分：一部分是负责资源的管理（Resource Manager），另一部分负责任务的调度（Scheduler）。安装配置 1、目录结构下载hadoop-2.0.4软件包，解压缩后，可以看到如下目录结构： shirdrn@master:~/cloud/hadoop2/hadoop-2.0.4-alpha$ ls bin etc include lib libexec LICENSE.txt logs NOTICE.txt README.txt sbin share etc目录 HDFS和YARN的配置文件，都存放在etc/hadoop目录下面，可以多各个文件进行配置： shirdrn@master:~/cloud/hadoop2/hadoop-2.0.4-alpha$ ls etc/hadoop/ capacity-scheduler.xml hadoop-metrics.properties httpfs-site.xml s

Hadoop/Hive/ZooKeeper, 开源技术 Hadoop/Hive/ZooKeeper, Hadoop2 评论(4) 阅读(18,095)

Solr自动生成ID配置实践

2013-08-21 21:00:05 Yanjun

Solr基于Lucene的索引，而索引中的最基本的单元式Document，在Solr中，管理每一个Document（更新、删除、查询），基本都会用到对应的ID，类似关系数据表中的主键。但是，如果我希望Solr能够自动生成这个唯一的ID，有时候也省去了不少的工作，而只需要在Solr中进行配置即可。下面，通过实例来说明，如何配置Solr支持的UUID。首先，示例的schema.xml对应的表结构，如图所示：在Solr中配置生成唯一UUID，需要修改两个配置文件： schema.xml schema.xml文件的配置内容，增加如下类型配置： <fieldType name="uuid" class="solr.UUIDField" indexed="true" /> 再增加ID字段的类型，如下所示： <field name="id" type="uuid" indexed="true" stored="true" multiValued="false" required="true" /> 这样还不够，还需要指定在更新索引的时候，使用这个更新策略，即配置一个requestHandler元素。 solrconfig.xml 配置solrconfig.xml文件，修改更新索

Solr/ElasticSearch, 开源技术 Solr/ElasticSearch 评论(0) 阅读(17,311)

Oozie简介与快速入门

2013-08-21 20:39:25 Yanjun

Oozie是一个基于工作流引擎的开源框架，是由Cloudera公司贡献给Apache的，它能够提供对Hadoop MapReduce和Pig Jobs的任务调度与协调。Oozie需要部署到Java Servlet容器中运行。 Oozie工作流定义，同JBoss jBPM提供的jPDL一样，也提供了类似的流程定义语言hPDL，通过XML文件格式来实现流程的定义。对于工作流系统，一般都会有很多不同功能的节点，比如分支、并发、汇合等等，Oozie也有类似的一些概念，不做过多解释，更多信息可以参考相关文档。这里，简单描述一下，Oozie定义了控制流节点（Control Flow Nodes）和动作节点（Action Nodes），其中控制流节点定义了流程的开始和结束，以及控制流程的执行路径（Execution Path），如decision、fork、join等；而动作节点包括Hadoop map-reduce、Hadoop文件系统、Pig、SSH、HTTP、eMail和Oozie子流程。下面我们看一下，官方文档中给出的定义流程的例子，流程定义示例如图所示：这个流程图表达了WordCount统计词频的流程编排功能，非常简单，启动执行一个MapReduce任务，如果成功则正常结束，如果失败则取消该任务。

Azkaban/Oozie, 开源技术 Hadoop/Hive/ZooKeeper, Oozie 评论(8) 阅读(25,437)

第 10 页, 共 10 页« 首页 ‹ 上页 6 7 8 910

石浩枫: 作者你自己看看你写的通顺吗，图layer一半有颜色一半没颜色，画的啥东西
gsgsgsl: 赞一个，前几年搞过kafka2.x版本的鉴权，几年有这方面需求，发现很多api变了，2.x版本的鉴权配置在3.x版...
dack: GPT-2中的相对位置编码请问有出处吗，在GPT-2的论文& #8221;Language Models are...
zhang: 你好，这一行“前面计算已经得到 QKT 矩阵，n=6，dk=8，则 A 的大小也是 6 x 6。”请问在下面的代码中为什么dk =...
derek: 何时才能出现伴侣Ai
丘比特: 请问博主，如果在窗口中用到广播状态，现在您有什么实现方案吗？
z: 寫的真好
方俊: 大佬好有耐心，从14年回复到19年哈哈
Yanjun: 图是用 Astah 和 OminiGraffle 画的
JacobZheng: 问个题外话，图是用什么工具画的啊
Derek Dekker: 感觉还挺难的
luosijie: 博主你好，请问您知道K距离方法出自哪篇文献吗，我该如何引用？

简单之美

简单之美，难得简单，享受简单的唯美。

按分类浏览文章: 开源技术

SolrCloud 4.3.1+Tomcat 7安装配置实践

Solr实现SQL的查询与统计

Ubuntu系统下Hadoop 2.0.4集群安装配置

Solr自动生成ID配置实践

Oozie简介与快速入门