Hvad er Apache Sqoop og hvordan man bruger det til at importere / eksportere data fra Hadoop Distributed File System?

Apache Sqoop er et værktøj, der anvendes til overførsel af data fra / til Hadoop distribueret filsystem. Hadoop arkitektur kan behandle BIG data og gemme det i HDFS. Men hvis vi ønsker at bruge disse data så er vi nødt til at bruge nogle værktøj til at importere / eksportere den effektivt. Apache Sqoop tillader nem import og eksport af data fra strukturerede datalagre, såsom relationsdatabaser, virksomhedens data warehouses, og NoSQL-systemer.

Apache Sqoop er meget vigtigt, når vi tænker på ved hjælp af Hadoop for analytics og data behandles.Som to vigtigste aspekter, som Sqoop adresse er

a) Ilægning hovedparten(produktion) data i Hadoop.
b) Adgang bulk data fra kort / reducere applikationer, der kører på store klynger.

Tidligere plejede vi at skrive / bruge scripts til at importere / eksportere data mellem forskellige systems.But denne proces er ineffektiv og ikke sikrer dataenes konsistens, nøjagtighed og andre kritiske punkter.

Sqoop bruger ligetil mekanisme til at overføre data.The hele datasættet er splittet i skiver, og hver skive er et kort, der kun job.Now hvert kort kun job er ansvarlig for at overføre ét udsnit af data-sæt.

Som vi har diskuteret, Sqoop can be used to import data from a RDBMS into HDFS.The input to the import process is a database table and Sqoop reads table row by row into HDFS.The input process is performed in parallel so the output will be multiple files.These output files can be text files or other type of files containing serialized data.

Der er et biprodukt af Sqoop import process.It er en Java-klasse, som kan indkapsle en række af det indførte table.This Java-klasse anvendes af Sqoop selv durng import proces.Det kildekode af dette biprodukt Java-klasse .

Efter behandling af importerede data, det kan eksporteres til enhver relationel database ved hjælp Sqoop. Sqoop vil læse et sæt afgrænsede tekstfiler fra HDFS (parallelt) og indsætte dem som nye rækker til
target table.Now disse data er tilgængelige for consumtion af de eksterne applikationer.

Sqoop også nogle kommando værktøjer til at få oplysninger om de databaes, som den er working.The liste over databaseskemaer, tabeller kan også ses ved hjælp af Sqoop commands.Sqoop giver også primitive SQL udførelse shell.

Sqoop operationer som import,eksportere,kodegenerering osv kan være customized.For import, række områder / kolonner kan være specified.The afgrænsere, flygte tegn for fil baseret repræsentation kan også være ændringer som pr requirement.The pakke / klasse navn genererede kode kan også tilpasses til at opfylde ansøgningen kravet.

Sqoop stik er en anden vigtig del af tool.Connectors er plugin-komponenter bygget på Sqoop lokalnummer framework.These stik kan tilføjes til enhver Sqoop installation og derefter data kan overføres mellem Hadoop og ekstern butik.

Sqoop leveres med standard stik til forskellige populære databaser som MySQL, PostgreSQL, Oracle, SQL Server og DB2.Sqoop også en generisk JDBC-stik, der kan bruges til at forbinde til enhver database tilgængelig via JDBC.

Som afslutning på denne diskussion, vi kan sige, at Sqoop kan bruges til at overføre store datamængder mellem Hadoop og ekstern datastores efficiently.Beyond dette, Sqoop byder også på mange avancerede funktioner som forskellige dataformater,kompression,tilpasning,arbejde med forespørgsler osv.

Tagged on:
============================================= ============================================== Buy best TechAlpine Books on Amazon
============================================== ---------------------------------------------------------------- electrician ct chestnutelectric
error

Enjoy this blog? Please spread the word :)

Follow by Email
LinkedIn
LinkedIn
Share