Sqoop-1.4.4工具import和export使用详解

2014-02-27 21:30:01 Yanjun

Sqoop可以在HDFS/Hive和关系型数据库之间进行数据的导入导出，其中主要使用了import和export这两个工具。这两个工具非常强大，提供了很多选项帮助我们完成数据的迁移和同步。比如，下面两个潜在的需求：业务数据存放在关系数据库中，如果数据量达到一定规模后需要对其进行分析或同统计，单纯使用关系数据库可能会成为瓶颈，这时可以将数据从业务数据库数据导入（import）到Hadoop平台进行离线分析。对大规模的数据在Hadoop平台上进行分析以后，可能需要将结果同步到关系数据库中作为业务的辅助数据，这时候需要将Hadoop平台分析后的数据导出（export）到关系数据库。这里，我们介绍Sqoop完成上述基本应用场景所使用的import和export工具，通过一些简单的例子来说明这两个工具是如何做到的。工具通用选项 import和export工具有些通用的选项，如下表所示：选项含义说明 --connect <jdbc-uri> 指定JDBC连接字符串 --connection-manager <class-name> 指定要使用的连接管理器类 --driver <class-name

Flume/Sqoop, 开源技术 Sqoop 评论(3) 阅读(48,291)

使用Sqoop job工具同步数据

2014-02-27 19:41:08 Yanjun

我们使用的是Sqoop-1.4.4，在进行关系型数据库与Hadoop/Hive数据同步的时候，如果使用--incremental选项，如使用append模式，我们需要记录一个--last-value的值，如果每次执行同步脚本的时候，都需要从日志中解析出来这个--last-value的值，然后重新设置脚本参数，才能正确同步，保证从关系型数据库同步到Hadoop/Hive的数据不发生重复的问题。而且，我们我们需要管理我们使用的这些脚本，每次执行之前可能要获取指定参数值，或者修改参数。Sqoop也提供了一种比较方面的方式，那就是直接创建一个Sqoop job，通过job来管理特定的同步任务。就像我们前面提到的增量同步问题，通过创建sqoop job可以保存上一次同步时记录的--last-value的值，也就不用再费劲去解析获取了，每次想要同步，这个job会自动从job保存的数据中获取到。 sqoop job命令使用 Sqoop job相关的命令有两个： bin/sqoop job bin/sqoop-job 使用这两个都可以。我们先看看sqoop job命令的基本用法：创建job：--create 删除job：--delete 执行job：--exec 显示job：--show 列出job：--list 下面

Flume/Sqoop, 开源技术 Sqoop 评论(10) 阅读(38,857)

Sqoop-1.4.4安装配置及基本使用

2014-02-26 19:08:01 Yanjun

Sqoop是Apache旗下的开源项目，能够在Hadoop和结构化存储系统之间进行数据传输（导入、导出），尤其是当下应用非常广泛的关系型数据库。通常，可能很多业务数据都存储在关系型数据库中，当数据规模达到一定程度后，使用关系型数据对数据进行分析可能会存在一定的瓶颈，如上亿级别记录的复杂统计分析等。将关系型数据库中的数据同步到Hadoop平台上，借助Hadoop平台的可扩展的优势，可以进行复杂的统计分析，处理效率会有一定程度的提升。下面，我们通过安装配置Sqoop，来体验一下Sqoop在Hadoop和MySQL之间进行数据同步的特性。准备和配置我们在使用的主机及其应用进程部署情况，如下所示：节点m1（10.95.3.56）：Sqoop-1.4.4，Hive-0.12.0，Namenode、JobTracker MySQL节点（10.95.3.49）：MySQL数据库我们先验证Sqoop能够成功连接MySQL数据库，然后验证将MySQL数据库表中的数据，同步到Hive中。首先，在CentOS 6.4下安装MySQL数据库（服务器IP为：10.95.3.49）： rpm -qa | grep mysql sudo rpm -e --nodeps mysql yum list | grep mysql sudo yum ins

Flume/Sqoop, 开源技术 Hadoop/Hive/ZooKeeper, Sqoop 评论(0) 阅读(25,086)

Hive JOIN使用详解

2014-02-25 15:23:13 Yanjun

Hive是基于Hadoop平台的，它提供了类似SQL一样的查询语言HQL。有了Hive，如果使用过SQL语言，并且不理解Hadoop MapReduce运行原理，也就无法通过编程来实现MR，但是你仍然可以很容易地编写出特定查询分析的HQL语句，通过使用类似SQL的语法，将HQL查询语句提交Hive系统执行查询分析，最终Hive会帮你转换成底层Hadoop能够理解的MR Job。对于最基本的HQL查询我们不再累述，这里主要说明Hive中进行统计分析时使用到的JOIN操作。在说明Hive JOIN之前，我们先简单说明一下，Hadoop执行MR Job的基本过程（运行机制），能更好的帮助我们理解HQL转换到底层的MR Job后是如何执行的。我们重点说明MapReduce执行过程中，从Map端到Reduce端这个过程（Shuffle）的执行情况，如图所示（来自《Hadoop: The Definitive Guide》）：基本执行过程，描述如下：一个InputSplit输入到map，会运行我们实现的Mapper的处理逻辑，对数据进行映射操作。 map输出时，会首先将输出中间结果写入到map自带的buffer中（buffer默认大小为100M，可以通过io.sort.mb配置）。 map自带的buffer使用容

Hadoop/Hive/ZooKeeper, 开源技术 Hadoop/Hive/ZooKeeper, Hive 评论(10) 阅读(83,828)

石浩枫: 作者你自己看看你写的通顺吗，图layer一半有颜色一半没颜色，画的啥东西
gsgsgsl: 赞一个，前几年搞过kafka2.x版本的鉴权，几年有这方面需求，发现很多api变了，2.x版本的鉴权配置在3.x版...
dack: GPT-2中的相对位置编码请问有出处吗，在GPT-2的论文& #8221;Language Models are...
zhang: 你好，这一行“前面计算已经得到 QKT 矩阵，n=6，dk=8，则 A 的大小也是 6 x 6。”请问在下面的代码中为什么dk =...
derek: 何时才能出现伴侣Ai
丘比特: 请问博主，如果在窗口中用到广播状态，现在您有什么实现方案吗？
z: 寫的真好
方俊: 大佬好有耐心，从14年回复到19年哈哈
Yanjun: 图是用 Astah 和 OminiGraffle 画的
JacobZheng: 问个题外话，图是用什么工具画的啊
Derek Dekker: 感觉还挺难的
luosijie: 博主你好，请问您知道K距离方法出自哪篇文献吗，我该如何引用？

简单之美

简单之美，难得简单，享受简单的唯美。

按月份浏览文章: 二月 2014

Sqoop-1.4.4工具import和export使用详解

使用Sqoop job工具同步数据

Sqoop-1.4.4安装配置及基本使用

Hive JOIN使用详解