《Impala与HBase整合实践》的评论

作者：stars_dba

stars_dba — Fri, 17 Nov 2017 09:32:31 +0000

那个impala是否可以跟hive server共用一台机器？它需要的内存大吗？

作者：胖哥

胖哥 — Sun, 22 Jan 2017 09:54:05 +0000

有个问题，如果我Hbase的群集与Impala的群集不在一起，这个要怎么配置？

作者：Yanjun

Yanjun — Tue, 08 Mar 2016 13:56:52 +0000

要说简单查询，如果数据量超大，那么肯定是ES查询速度更快。至于复杂的聚合查询，我还真么有实践过，简单说下，使用ES构造负责查询也相对复杂，而且ES你需要预先对数据进行索引，还要实现客户端的一套调用解析逻辑，代价高一些；而Impala可以直接基于已有的Hive相关元数据，提供类似SQL的查询语法，构造复杂聚合SQL语句也相对容易一些。复杂聚合，建议使用Impala吧。

作者：Xigua

Xigua — Mon, 07 Mar 2016 01:33:53 +0000

博主你好，对于Hive存储的数据，使用Impala和Elasticsearch分别进行聚合查询以及单项查询，哪一个效率要高些？

作者：Yanjun

Yanjun — Tue, 20 Oct 2015 05:39:51 +0000

这个…要么你等新的支持多个distinct子句特性的版本，要么你就变通地分多步计算，实现与你那个一个查询等价的多个查询。

作者：dana

dana — Mon, 03 Aug 2015 13:31:11 +0000

请问博主：我们现在使用impala用来做olap，但是impala在一条查询中本身不支持多个distinct子句，有没有什么好的解决方案？

作者：Yanjun

Yanjun — Tue, 21 Jul 2015 02:47:18 +0000

理论上是都可以用的，用Cloudera的版本兼容性会更好一些，用其他的可能会出现各种兼容性的问题。

作者：夏天

夏天 — Mon, 20 Jul 2015 03:39:41 +0000

hadoop版本之类的只能用Cloudera的版本吗？

作者：ljucas

ljucas — Mon, 18 May 2015 06:10:52 +0000

恩，好的，谢谢您~

作者：Yanjun

Yanjun — Mon, 18 May 2015 03:30:02 +0000

看你的实际需求了，如果你没有类似需要操作大表的需求，那完全可以存储到HDFS上，实际上Impala也是需要读取Hive元数据，而且是处理结构化数据，所以你还是要存储成Hive表。如果存储你的这些数据还需要实时访问，比如用户在线的数据的随机查询，一些状态的实时更新，这样的数据应该存放在一张大表中（HBase表），这时可以整合Impala+HBase，即可以对用户数据进行实时统计，同时又能满足在线访问数据的需求。