Vad är Apache Sqoop och hur man använder det för att importera / exportera data från Hadoop Distributed File System?

Apache Sqoop är ett verktyg som används för att överföra data från / till Hadoop distribuerat filsystem. Hadoop arkitektur kan behandla BIG data och lagra den i HDFS. Men om vi vill använda dessa data då måste vi använda en del verktyg för att importera / exportera den effektivt. Apache Sqoop gör det lätt import och export av data från strukturerade data butiker som relationsdatabaser, företag datalager, och nosql system.

Apache Sqoop är mycket viktigt när vi tänker på att använda Hadoop för analyser och data processing.The två huvudaspekter som Sqoop adress är

en) Laddar bulk(produktion) data till Hadoop.
b) Åtkomst bulk data från karta / minska program som körs på stora kluster.

Tidigare brukade vi skriva / använda skript för att importera / exportera data mellan olika systems.But denna process är ineffektiv och inte säkerställa uppgifternas enhetlighet, noggrannhet och andra kritiska punkter.

Sqoop använder rakt fram mekanism för att överföra data.The hela dataset är spjälkas i skivor och varje skiva är en karta som endast job.Now varje karta, enda uppgift är ansvarig för att överföra en del av data-set.

Som vi har diskuterat, Sqoop kan användas för att importera data från en RDBMS i HDFS.The bidrag till importprocessen är en databastabell och Sqoop läser tabellen rad för rad i HDFS.The ingångsprocessen utförs parallellt så att produktionen kommer att vara flera files.These utgång filer kan vara textfiler eller andra typer av filer som innehåller serie uppgifter.

Det finns en biprodukt av Sqoop import process.It är en Java-klass som kan kapsla in en rad av det importerade table.This Java klass används av Sqoop själv durng import process.The källkod detta biprodukt Java-klass .

Efter bearbetning av importerade data, Det kan exporteras till en relationsdatabas med hjälp Sqoop. Sqoop läser en uppsättning avgränsade textfiler från HDFS (parallellt) och infoga dem som nya rader till
mål table.Now dessa uppgifter är tillgängliga för konsumtion av de externa applikationer.

Sqoop ger också några kommando verktyg för att få information om databaes där det är working.The lista över databasscheman, tabeller kan också ses med Sqoop commands.Sqoop också primitiva SQL utförande skal.

Sqoop operationer som import,export,kodgenerering etc kan vara customized.For import, rad områden / kolumner kan specified.The avgränsare, fly tecken för fil baserade representationen kan också vara förändringar per den requirement.The paket / klassnamn på den genererade koden kan också anpassas för att möta applikationskrav.

Sqoop kontakter är en annan viktig del av tool.Connectors är plugin-komponenter byggda på Sqoop s kontakter förlängning framework.These kan läggas till varje Sqoop installation och sedan data kan överföras mellan Hadoop och extern butik.

Sqoop levereras med standard anslutningar för olika populära databaser som MySQL, PostgreSQL, Oracle, SQL Server och DB2.Sqoop innehåller också en generisk JDBC-kontakt som kan användas för att ansluta till någon databas som är tillgänglig via JDBC.

För att avsluta denna diskussion kan vi säga att Sqoop kan användas för att överföra stora datamängder mellan Hadoop och extern datastores efficiently.Beyond detta, Sqoop erbjuder också många avancerade funktioner som olika dataformat,kompression,anpassning,arbetar med frågor mm.

Tagged on:
============================================= ============================================== Buy best TechAlpine Books on Amazon
============================================== ---------------------------------------------------------------- electrician ct chestnutelectric
error

Enjoy this blog? Please spread the word :)

Follow by Email
LinkedIn
LinkedIn
Share