Sqoop-1.4.4工具import和export使用详解

2014-02-27 21:30:01 Yanjun

Sqoop可以在HDFS/Hive和关系型数据库之间进行数据的导入导出，其中主要使用了import和export这两个工具。这两个工具非常强大，提供了很多选项帮助我们完成数据的迁移和同步。比如，下面两个潜在的需求：业务数据存放在关系数据库中，如果数据量达到一定规模后需要对其进行分析或同统计，单纯使用关系数据库可能会成为瓶颈，这时可以将数据从业务数据库数据导入（import）到Hadoop平台进行离线分析。对大规模的数据在Hadoop平台上进行分析以后，可能需要将结果同步到关系数据库中作为业务的辅助数据，这时候需要将Hadoop平台分析后的数据导出（export）到关系数据库。这里，我们介绍Sqoop完成上述基本应用场景所使用的import和export工具，通过一些简单的例子来说明这两个工具是如何做到的。工具通用选项 import和export工具有些通用的选项，如下表所示：选项含义说明 --connect <jdbc-uri> 指定JDBC连接字符串 --connection-manager <class-name> 指定要使用的连接管理器类 --driver <class-name

Flume/Sqoop, 开源技术 Sqoop 评论(3) 阅读(48,047)

使用Sqoop job工具同步数据

2014-02-27 19:41:08 Yanjun

我们使用的是Sqoop-1.4.4，在进行关系型数据库与Hadoop/Hive数据同步的时候，如果使用--incremental选项，如使用append模式，我们需要记录一个--last-value的值，如果每次执行同步脚本的时候，都需要从日志中解析出来这个--last-value的值，然后重新设置脚本参数，才能正确同步，保证从关系型数据库同步到Hadoop/Hive的数据不发生重复的问题。而且，我们我们需要管理我们使用的这些脚本，每次执行之前可能要获取指定参数值，或者修改参数。Sqoop也提供了一种比较方面的方式，那就是直接创建一个Sqoop job，通过job来管理特定的同步任务。就像我们前面提到的增量同步问题，通过创建sqoop job可以保存上一次同步时记录的--last-value的值，也就不用再费劲去解析获取了，每次想要同步，这个job会自动从job保存的数据中获取到。 sqoop job命令使用 Sqoop job相关的命令有两个： bin/sqoop job bin/sqoop-job 使用这两个都可以。我们先看看sqoop job命令的基本用法：创建job：--create 删除job：--delete 执行job：--exec 显示job：--show 列出job：--list 下面

Flume/Sqoop, 开源技术 Sqoop 评论(10) 阅读(38,471)

Sqoop-1.4.4安装配置及基本使用

2014-02-26 19:08:01 Yanjun

Sqoop是Apache旗下的开源项目，能够在Hadoop和结构化存储系统之间进行数据传输（导入、导出），尤其是当下应用非常广泛的关系型数据库。通常，可能很多业务数据都存储在关系型数据库中，当数据规模达到一定程度后，使用关系型数据对数据进行分析可能会存在一定的瓶颈，如上亿级别记录的复杂统计分析等。将关系型数据库中的数据同步到Hadoop平台上，借助Hadoop平台的可扩展的优势，可以进行复杂的统计分析，处理效率会有一定程度的提升。下面，我们通过安装配置Sqoop，来体验一下Sqoop在Hadoop和MySQL之间进行数据同步的特性。准备和配置我们在使用的主机及其应用进程部署情况，如下所示：节点m1（10.95.3.56）：Sqoop-1.4.4，Hive-0.12.0，Namenode、JobTracker MySQL节点（10.95.3.49）：MySQL数据库我们先验证Sqoop能够成功连接MySQL数据库，然后验证将MySQL数据库表中的数据，同步到Hive中。首先，在CentOS 6.4下安装MySQL数据库（服务器IP为：10.95.3.49）： rpm -qa | grep mysql sudo rpm -e --nodeps mysql yum list | grep mysql sudo yum ins

Flume/Sqoop, 开源技术 Hadoop/Hive/ZooKeeper, Sqoop 评论(0) 阅读(24,993)

Hive JOIN使用详解

2014-02-25 15:23:13 Yanjun

Hive是基于Hadoop平台的，它提供了类似SQL一样的查询语言HQL。有了Hive，如果使用过SQL语言，并且不理解Hadoop MapReduce运行原理，也就无法通过编程来实现MR，但是你仍然可以很容易地编写出特定查询分析的HQL语句，通过使用类似SQL的语法，将HQL查询语句提交Hive系统执行查询分析，最终Hive会帮你转换成底层Hadoop能够理解的MR Job。对于最基本的HQL查询我们不再累述，这里主要说明Hive中进行统计分析时使用到的JOIN操作。在说明Hive JOIN之前，我们先简单说明一下，Hadoop执行MR Job的基本过程（运行机制），能更好的帮助我们理解HQL转换到底层的MR Job后是如何执行的。我们重点说明MapReduce执行过程中，从Map端到Reduce端这个过程（Shuffle）的执行情况，如图所示（来自《Hadoop: The Definitive Guide》）：基本执行过程，描述如下：一个InputSplit输入到map，会运行我们实现的Mapper的处理逻辑，对数据进行映射操作。 map输出时，会首先将输出中间结果写入到map自带的buffer中（buffer默认大小为100M，可以通过io.sort.mb配置）。 map自带的buffer使用容

Hadoop/Hive/ZooKeeper, 开源技术 Hadoop/Hive/ZooKeeper, Hive 评论(10) 阅读(83,282)

CentOS 6.4系统MySQL主从复制基本配置实践

2014-01-11 10:35:46 Yanjun

对于MySQL数据库一般用途的主从复制，可以实现数据的备份（如果希望在主节点失效后，能够使从节点自动接管，就需要更加复杂的配置，这里暂时先不考虑），如果主节点出现硬件故障，数据库服务器可以直接手动切换成备份节点（从节点），继续提供服务。基本的主从复制配置起来非常容易，这里我们做个简单的记录总结。我们选择两台服务器来进行MySQL的主从复制实践，一台m1作为主节点，另一台nn作为从节点。两台机器上都需要安装MySQL数据库，如果想要卸掉默认安装的，可以执行如下命令： sudo rpm -e --nodeps mysql yum list | grep mysql 现在可以在CentOS 6.4上直接执行如下命令进行安装： sudo yum install -y mysql-server mysql mysql-deve 为root用户设置密码： mysqladmin -u root password 'shiyanjun' 然后可以直接通过MySQL客户端登录： mysql -u root -p 主节点配置首先，考虑到数据库的安全，以及便于管理，我们需要在主节点m1上增加一个专用的复制用户，使得任意想要从主节点进行复制从节点都必须使用这个账号： CREATE USER repl

MySQL MySQL 评论(2) 阅读(19,389)

Hadoop-2.2.0集群安装配置实践

2013-12-26 20:14:42 Yanjun

Hadoop 2.x和1.x已经大不相同了，应该说对于存储计算都更加通用了。Hadoop 2.x实现了用来管理集群资源的YARN框架，可以面向任何需要使用基于HDFS存储来计算的需要，当然MapReduce现在已经作为外围的插件式的计算框架，你可以根据需要开发或者选择合适的计算框架。目前，貌似对MapReduce支持还是比较好的，毕竟MapReduce框架已经还算成熟。其他一些基于YARN框架的标准也在开发中。 YARN框架的核心是资源的管理和分配调度，它比Hadoop 1.x中的资源分配的粒度更细了，也更加灵活了，它的前景应该不错。由于极大地灵活性，所以在使用过程中由于这些配置的灵活性，可能使用的难度也加大了一些。另外，我个人觉得，YARN毕竟还在发展之中，也有很多不成熟的地方，各种问题频频出现，资料也相对较少，官方文档有时更新也不是很及时，如果我选择做海量数据处理，可能YARN还不能满足生产环境的需要。如果完全使用MapReduce来做计算，还是选择相对更加成熟的Hadoop 1.x版本用于生产环境。下面使用4台机器，操作系统为CentOS 6.4 64位，一台做主节点，另外三台做从节点，实践集

Hadoop/Hive/ZooKeeper, 开源技术 Hadoop/Hive/ZooKeeper, YARN 评论(14) 阅读(49,556)

使用libsvm实现文本分类

2013-12-13 23:43:05 Yanjun

文本分类，首先它是分类问题，应该对应着分类过程的两个重要的步骤，一个是使用训练数据集训练分类器，另一个就是使用测试数据集来评价分类器的分类精度。然而，作为文本分类，它还具有文本这样的约束，所以对于文本来说，需要额外的处理过程，我们结合使用libsvm从宏观上总结一下，基于libsvm实现文本分类实现的基本过程，如下所示：选择文本训练数据集和测试数据集：训练集和测试集都是类标签已知的；训练集文本预处理：这里主要包括分词、去停用词、建立词袋模型（倒排表）；选择文本分类使用的特征向量（词向量）：最终的目标是使得最终选出的特征向量在多个类别之间具有一定的类别区分度，可以使用相关有效的技术去实现特征向量的选择，由于分词后得到大量的词，通过选择降维技术能很好地减少计算量，还能维持分类的精度；输出libsvm支持的量化的训练样本集文件：类别名称、特征向量中每个词元素分别到数字编号的映射转换，以及基于类别和特征向量来量化文本训练集，能够满足使用libsvm训练所需要的数据格式；测试数据集预处理：同样包括分词（需要和训练

人工智能 libsvm, 分类评论(260) 阅读(421,888)

聚类算法：K-means

2013-12-13 20:00:58 Yanjun

K-means算法是很典型的基于距离的聚类算法，采用距离作为相似性的评价指标，即认为两个对象的距离越近，其相似度就越大。该算法认为簇是由距离靠近的对象组成的，因此把得到紧凑且独立的簇作为最终目标。对于聚类问题，我们事先并不知道给定的一个训练数据集到底具有哪些类别（即没有指定类标签），而是根据需要设置指定个数类标签的数量（但不知道具体的类标签是什么），然后通过K-means算法将具有相同特征，或者基于一定规则认为某一些对象相似，与其它一些组明显的不同的数据聚集到一起，自然形成分组。之后，我们可以根据每一组的数据的特点，给定一个合适的类标签（当然，可能给出类标签对实际应用没有实际意义，例如可能我们就想看一下聚类得到的各个数据集的相似性）。首先说明一个概念：质心（Centroid）。质心可以认为就是一个样本点，或者可以认为是数据集中的一个数据点P，它是具有相似性的一组数据的中心，即该组中每个数据点到P的距离都比到其他质心的距离近（与其他质心相似性比较低）。 k个初始类聚类质心（Centroid）的选取对聚类结果具有较大的影

人工智能 K-means, 聚类评论(0) 阅读(27,778)

Impala与HBase整合实践

2013-11-12 16:25:41 Yanjun

我们知道，HBase是一个基于列的NoSQL数据库，它可以实现的数据的灵活存储。它本身是一个大表，在一些应用中，通过设计RowKey，可以实现对海量数据的快速存储和访问。但是，对于复杂的查询统计类需求，如果直接基于HBase API来实现，性能非常差，或者，可以通过实现MapReduce程序来进行查询分析，这也继承了MapReduce所具备的延迟性。实现Impala与HBase整合，我们能够获得的好处有如下几个：可以使用我们熟悉的SQL，像操作传统关系型数据库一样，很容易给出复杂查询、统计分析的SQL设计 Impala查询统计分析，比原生的MapReduce以及Hive的执行速度快很多 Impala与HBase整合，需要将HBase的RowKey和列映射到Impala的Table字段中。Impala使用Hive的Metastore来存储元数据信息，与Hive类似，在于HBase进行整合时，也是通过外部表（EXTERNAL）的方式来实现。准备工作首先，我们需要做如下准备工作：安装配置Hadoop集群（http://www.cloudera.com/content/cloudera-content/cloudera-docs/CDH4/latest/CDH4-Installation-Guide/cdh4ig_topic_4_4.html）安装配置HB

Impala/Kudu/Hudi, 开源技术 HBase, Impala/Kudu/Hudi 评论(16) 阅读(88,359)

Cloudera Impala架构设计要点

2013-11-09 13:35:59 Yanjun

我们知道，在实时性要求不是很高的应用场景中，比如，月度统计报表生成等，我们基于传统的Hadoop MapReduce来处理海量大数据（包括使用Hive），在各方面表现都还不错，只需要离线处理数据，然后存储结果即可。但是如果在一些实时性要求相对较高的应用场景中，哪怕处理时间能够在原有的基础有大幅度地减少，也能很好地提升用户体验。对于大数据的实时性要求，其实是相对的，比如，传统使用MapReduce计算框架处理PB级别的查询分析请求，可能耗时30分钟甚至更多，但是如果能够使这个延迟大大降低，如3分钟计算出结果，这是很令人震撼的。Impala就是基于这样的需求驱动而出现的。 Impala是Cloudera开发的一款用来进行大数据实时查询分析的开源工具，它能够实现通过我们熟悉的传统关系数据库的SQL风格来操作大数据，数据可以是存储到HDFS或HBase中的。下面，我们从不同的角度来认识和理解Cloudera Impala：设计目标官网给出的介绍是，使用Impala来实现SQL on Hadoop，实现对海量数据的实时查询分析，它的优势有如下几点：快速可以方便地执行SQL语句，在数秒内返回

Impala/Kudu/Hudi, 开源技术 Impala/Kudu/Hudi 评论(2) 阅读(27,415)

基于C#+Thrift操作HBase实践

2013-11-07 17:38:49 Yanjun

在基于HBase数据库的开发中，对应Java语言来说，可以直接使用HBase的原生API来操作HBase表数据，当然你要是不嫌麻烦可以使用Thrift客户端Java API，这里有我曾经使用过的 HBase Thrift客户端Java API实践，可以参考。对于具有其他编程语言背景的开发人员，为了获取HBase带来的好处，那么就可以选择使用HBase Thrift客户端对应编程语言的API，来实现与HBase的交互。这里，我们使用C#客户端来操作HBase。HBase的Thrift接口的定义，可以通过链接http://svn.apache.org/viewvc/hbase/trunk/hbase-server/src/main/resources/org/apache/hadoop/hbase/thrift/Hbase.thrift?view=markup看到，我们需要安装Thrift编译器，才能生成HBase跨语言的API，这里，我使用的版本是0.9.0。需要注意的是，一定要保证，安装了某个版本Thrift的Thrift编译器，在导入对应语言库的时候，版本一定要统一，否则就会出现各种各样的问题，因为不同Thrift版本，对应编程语言的库API可能有变化。首先，下载上面链接的内容，保存为Hbase.thrift。然后，执行如下命令，生成C#编程语言的HBase Th

HBase, 开源技术, 数据库 HBase, Thrift 评论(0) 阅读(24,692)

ZooKeeper应用案例

2013-11-04 23:47:19 Yanjun

我们通过学习借鉴，哪些项目或应用都使用了ZooKeeper，可以了解我们的应用使用ZooKeeper是否能真正地带来价值，当然，有些项目可能也未必非常适合使用ZooKeeper，我们要批判地学习、借鉴和吸收。下面是一些使用了ZooKeeper实现的案例： HDFS HA(QJM) Hadoop 2.x之前的版本，HDFS集群中Namenode是整个集群的中央元数据存储和服务节点，它存在SPOF的问题。在2.x版本中，提出了各种HA方案，避免Namenode的SPOF问题，其中基于QJM（Quorum Journal Manager）的方案可以解决这个问题：使用QJM的方案中，HDFS集群中存在两类节点，一类是Namenode节点（包括Active状态的Namenode，和Standby状态的Namenode），另一类是JournalNode，进行容错。当Active状态的Namenode元数据发生改变时，通过JournalNode进程（ZooKeeper集群中）来监视这种变化，然后同步到Standby状态的Namenode节点（实际上同步的是EditLog镜像文件内容的变更）。当Active状态的节点发生故障后，Standby节点的Namenode自动切换，并接管HDFS集群中Active状态Namenode的服务，用来向客户端提供元数据服务。

Hadoop/Hive/ZooKeeper, 开源技术 ZooKeeper 评论(1) 阅读(31,685)

第 11 页, 共 15 页« 首页 ‹ 上页 7 8 9 101112 13 14 15 下页 ›末页 »

简单之美

简单之美，难得简单，享受简单的唯美。

按作者浏览文章: Yanjun