Hva er Apache Sqoop og hvordan du bruker den til å importere / eksportere data fra Hadoop Distributed File System?

Apache Sqoop er et verktøy som brukes for å overføre data til / fra Hadoop distribuert filsystem. Hadoop arkitektur kan behandle store datamengder og lagre den i HDFS. Men hvis vi ønsker å bruke disse dataene da må vi bruke noen verktøy for å importere / eksportere den effektivt. Apache Sqoop gir enkel import og eksport av data fra strukturerte data butikker som relasjonsdatabaser, enterprise datavarehus, og NoSQL systemer.

Apache Sqoop er svært viktig når vi tenker på å bruke Hadoop for analyse og data processing.The to viktigste aspektene som Sqoop adresse er

en) Lasting bulk(produksjon) data til Hadoop.
b) Tilgang bulk data fra kart / redusere programmer som kjører på store klynger.

Tidligere pleide vi å skrive / bruke skript til å importere / eksportere data mellom ulike systems.But denne prosessen er ineffektiv og sikrer ikke data konsistens, nøyaktighet og andre kritiske punkter.

Sqoop bruker rett frem mekanisme for å overføre data.The hele datasettet er delt i skiver og hver skive er et kart-bare job.Now hvert kart-eneste jobb er ansvarlig for overføring av en bit av data-set.

Som vi har diskutert, Sqoop can be used to import data from a RDBMS into HDFS.The input to the import process is a database table and Sqoop reads table row by row into HDFS.The input process is performed in parallel so the output will be multiple files.These output files can be text files or other type of files containing serialized data.

Det er et biprodukt av Sqoop import process.It er en Java-klasse som kan kapsle en rad av de importerte table.This Java-klassen brukes av Sqoop selv durng import process.The kildekoden dette biprodukt Java-klassen .

Etter bearbeiding av importerte data, det kan eksporteres til en relasjonsdatabase ved hjelp Sqoop. Sqoop vil lese et sett med tekstfiler fra HDFS (parallelt) og sett dem som nye rader til
Målet table.Now disse data er tilgjengelig for consumtion av eksterne programmer.

Sqoop gir også noen kommando verktøy for å få informasjon om de databaes som den er working.The liste over databaseskjemaer, tabeller kan også vises ved hjelp Sqoop commands.Sqoop gir også primitive SQL gjennomføring shell.

Sqoop operasjoner som import,eksportere,kodegenerering etc kan være customized.For import, rad serier / søyler kan være specified.The skilletegn, unnslippe tegn for fil basert representasjon kan også være endringer som per requirement.The pakke / klasse navnet den genererte koden kan også tilpasses for å møte søknaden kravet.

Sqoop kontakter er en annen viktig del av tool.Connectors er plugin-komponenter bygget på Sqoop internnummer framework.These kontakter kan legges til noen Sqoop installasjon og deretter data kan overføres mellom Hadoop og ekstern butikken.

Sqoop kommer med standard kontakter for ulike populære databaser som MySQL, PostgreSQL, Oracle, SQL Server og DB2.Sqoop inkluderer også en generisk JDBC kontakt som kan brukes til å koble til en database tilgjengelig via JDBC.

For å avslutte denne diskusjonen kan vi si at Sqoop kan brukes til å overføre store datasett mellom Hadoop og eksterne datalagre efficiently.Beyond dette, Sqoop tilbyr også mange avanserte funksjoner som forskjellige dataformater,kompresjon,tilpasning,arbeider med spørringer etc.

Tagged on:
============================================= ============================================== Buy best TechAlpine Books on Amazon
============================================== ---------------------------------------------------------------- electrician ct chestnutelectric
error

Enjoy this blog? Please spread the word :)

Follow by Email
LinkedIn
LinkedIn
Share