什么是Apache Sqoop,以及如何使用Hadoop分布式文件系统导入/导出数据?

Apache的Sqoop是一个工具,用于将数据从/到Hadoop分布式文件系统. Hadoop架构可以处理大数据,并将其存储在HDFS. 但是,如果我们要使用的数据,那么我们就需要使用一些工具,它有效地导入/导出. Apache的Sqoop可以方便的导入和导出数据,如关系数据库的结构化数据存储, 企业级数据仓库, 和NoSQL系统.

Apache的Sqoop是非常重要的,当我们考虑使用Hadoop分析和数据石材加工主要有两个方面的Sqoop地址

一) 装载散装(生产) 到Hadoop的数据.
b) 访问大量的数据从map / reduce的大型集群上运行的应用程序.

之前,我们使用/写使用的脚本导入/导出数据之间不同的systems.But这个过程是低效的,并不保证数据的一致性, 精度等关键点.

Sqoop采用直线前进的机制来传输数据。整个数据集被分裂成片,每片是每个地图的工作是负责传送一个数据集切片的地图只job.Now.

正如我们已经讨论, Sqoop can be used to import data from a RDBMS into HDFS.The input to the import process is a database table and Sqoop reads table row by row into HDFS.The input process is performed in parallel so the output will be multiple files.These output files can be text files or other type of files containing serialized data.

是一个产品的的Sqoop进口process.It是一个Java类,它可以封装一个Java类的进口table.This行使用Sqoop自身durng进口过程的源代码Java类产品.

在处理导入的数据, 它可以出口到任何关系型数据库使用Sqoop. Sqoop将带分隔符的文本文件中读取一组从HDFS (并联) 然后将它们插入新行的
目标table.Now这些数据是可用于单耗由外部应用程序.

Sqoop命令还提供了一些实用工具获取信息的databaes,其中它是working.The的名单数据库架构, 表也​​可以被视为使用Sqoop commands.Sqoop还提供了原始的SQL执行的shell.

Sqoop操作,如进口,出口,代码生成等,可以customized.For的进口, 行范围内/列可以specified.The的分隔符, 基于文件的表示转义字符,也可以修改生成的代码根据requirement.The包/类名,也可以进行定制,以满足应用的要求.

Sqoop连接器的tool.Connectors的另一个重要组成部分,是对Sqoop的的扩展framework.These连接器内置的插件组件可以添加到任何Sqoop安装,然后可以Hadoop和外部存储之间传输数据.

Sqoop各种流行的数据库,如MySQL的默认连接器, PostgreSQL的, 神谕, SQL Server和DB2.Sqoop“还包括一个通用的JDBC连接器,可用于连接到任何通过JDBC访问数据库.

要结束这个讨论,我们可以说,,Sqoop可以使用Hadoop和外部数据存储之间传输大型数据集efficiently.Beyond这, Sqoop还提供了许多先进的功能,如不同的数据格式,压缩,客制化,查询等工作.

Tagged on:
============================================= ============================================== 在亚马逊上购买最佳技术书籍,en,电工CT Chestnutelectric,en
============================================== ---------------------------------------------------------------- electrician ct chestnutelectric
error

Enjoy this blog? Please spread the word :)

Follow by Email
LinkedIn
LinkedIn
Share