什麼是Apache Sqoop,以及如何使用Hadoop分佈式文件系統導入/導出數據?

Apache的Sqoop是一個工具,用於將數據從/到Hadoop分佈式文件系統. Hadoop架構可以處理大數據,並將其存儲在HDFS. 但是,如果我們要使用的數據,那麼我們就需要使用一些工具,它有效地導入/導出. Apache的Sqoop可以方便的導入和導出數據,如關係數據庫的結構化數據存儲, 企業級數據倉庫, 和NoSQL系統.

Apache的Sqoop是非常重要的,當我們考慮使用Hadoop分析和數據石材加工主要有兩個方面的Sqoop地址

一) 裝載散裝(生產) 到Hadoop的數據.
b) 訪問大量的數據從map / reduce的大型集群上運行的應用程序.

之前,我們使用/寫使用的腳本導入/導出數據之間不同的systems.But這個過程是低效的,並不保證數據的一致性, 精度等關鍵點.

Sqoop採用直線前進的機制來傳輸數據。整個數據集被分裂成片,每片是每個地圖的工作是負責傳送一個數據集切片的地圖只job.Now.

正如我們已經討論, Sqoop can be used to import data from a RDBMS into HDFS.The input to the import process is a database table and Sqoop reads table row by row into HDFS.The input process is performed in parallel so the output will be multiple files.These output files can be text files or other type of files containing serialized data.

是一個產品的的Sqoop進口process.It是一個Java類,它可以封裝一個Java類的進口table.This行使用Sqoop自身durng進口過程的源代碼Java類產品.

在處理導入的數據, 它可以出口到任何關係型數據庫使用Sqoop. Sqoop將帶分隔符的文本文件中讀取一組從HDFS (並聯) 然後將它們插入新行的
目標table.Now這些數據是可用於單耗由外部應用程序.

Sqoop命令還提供了一些實用工具獲取信息的databaes,其中它是working.The的名單數據庫架構, 表也​​可以被視為使用Sqoop commands.Sqoop還提供了原始的SQL執行的shell.

Sqoop操作,如進口,出口,代碼生成等,可以customized.For的進口, 行範圍內/列可以specified.The的分隔符, 基於文件的表示轉義字符,也可以修改生成的代碼根據requirement.The包/類名,也可以進行定制,以滿足應用的要求.

Sqoop連接器的tool.Connectors的另一個重要組成部分,是對Sqoop的的擴展framework.These連接器內置的插件組件可以添加到任何Sqoop安裝,然後可以Hadoop和外部存儲之間傳輸數據.

Sqoop各種流行的數據庫,如MySQL的默認連接器, PostgreSQL的, 神諭, SQL Server和DB2.Sqoop“還包括一個通用的JDBC連接器,可用於連接到任何通過JDBC​​訪問數據庫.

要結束這個討論,我們可以說,,Sqoop可以使用Hadoop和外部數據存儲之間傳輸大型數據集efficiently.Beyond這, Sqoop還提供了許多先進的功能,如不同的數據格式,壓縮,客制化,查詢等工作.

標籤:
============================================= ============================================== 在亞馬遜上購買最佳技術書籍,en,電工CT Chestnutelectric,en
============================================== ---------------------------------------------------------------- electrician ct chestnutelectric
error

Enjoy this blog? Please spread the word :)

Follow by Email
LinkedIn
LinkedIn
Share