Ce este Apache Sqoop și cum să-l utilizați pentru a importa / exporta date din Hadoop Distributed File System?

Apache Sqoop este un instrument folosit pentru transferul de date de la / la sistemul de fișiere distribuit Hadoop. Hadoop arhitectura poate procesa date mari și depozitați-l în HDFS. Dar dacă vrem să utilizeze aceste date, atunci avem nevoie de a utiliza unele instrument pentru a importa / exporta în mod eficient. Apache Sqoop permite importul usor si exportul de date de la magazine de top structurate de date, cum ar fi bazele de date relaționale, Enterprise Data depozite, și sisteme de NoSQL.

Apache Sqoop este foarte important atunci când ne gândim folosind aproximativ Hadoop pentru analiză de date și processing.The două aspecte principale, care sunt adresă Sqoop

o) Încărcarea în vrac(producere) date în Hadoop.
b) Accesarea datelor în vrac de la hartă / reduce aplicațiile care rulează pe grupe mari.

Mai devreme am folosit pentru a scrie / script utiliza pentru a importa / exporta date între diferite systems.But acest proces este ineficient și nu asigură coerența datelor, exactitatea și alte puncte critice.

Sqoop utilizează mecanismul de drept înainte de a transfera întregul set de date data.The este împartita în felii și fiecare felie este o hartă job.Now-doar fiecare loc de muncă harta-doar este responsabil pentru transferul o felie de set de date.

Așa cum am discutat, Sqoop can be used to import data from a RDBMS into HDFS.The input to the import process is a database table and Sqoop reads table row by row into HDFS.The input process is performed in parallel so the output will be multiple files.These output files can be text files or other type of files containing serialized data.

Există un produs al process.It de import Sqoop este o clasa Java care poate îngloba un rând de importat table.This Java clasă este utilizat de sine Sqoop durng codul sursă de import process.The a acestui produs Java clasa .

După prelucrarea datelor importate, acesta poate fi exportat la orice bază de date relațională folosind Sqoop. Sqoop va citi un set de fișiere text delimitate din HDFS (în paralel) și le introduce ca rânduri noi
țintă table.Now aceste date sunt disponibile pentru Consum de aplicații externe.

Sqoop prevede, de asemenea, unele utilitare de comandă pentru a obține informații cu privire la databaes pe care este lista de scheme de baze de date working.The, Tabelele pot fi, de asemenea, vizualizate cu ajutorul Sqoop commands.Sqoop prevede, de asemenea, primitiv de execuție SQL coajă.

Operațiuni de import, cum ar fi Sqoop,export,etc generare a codului poate fi customized.For de import, variază de rând / coloane pot fi delimitatori specified.The, scăpa de caractere pentru reprezentarea pe bază de fișiere pot fi, de asemenea, schimbări ca pe pachetul de requirement.The / numele clasei a codului generat poate fi, de asemenea, personalizate pentru a satisface cerința de aplicare.

Conectori Sqoop sunt o altă parte importantă a tool.Connectors sunt componente plugin construite pe conectori Sqoop lui framework.These de extensie poate fi adăugat la orice instalare Sqoop și apoi datele pot fi transferate între Hadoop și magazin de externe.

Sqoop vine cu conectori implicite pentru diferite baze de date MySQL populare, cum ar fi, PostgreSQL, Oracol, SQL Server și DB2.Sqoop include, de asemenea un conector generic JDBC, care poate fi folosit pentru conectarea la orice bază de date accesibilă prin intermediul JDBC.

Pentru a încheia această discuție, putem spune că Sqoop pot fi utilizate pentru a transfera seturi de date mari între Hadoop și datastores externe efficiently.Beyond acest, Sqoop oferă, de asemenea, multe caracteristici avansate, cum ar fi diferite formate de date,comprimare,personalizare,lucrul cu interogări, etc.

Tagged on:
============================================= ============================================== Buy best TechAlpine Books on Amazon
============================================== ---------------------------------------------------------------- electrician ct chestnutelectric
error

Enjoy this blog? Please spread the word :)

Follow by Email
LinkedIn
LinkedIn
Share