Čo je Apache Sqoop a ako ho používať pre import / export dát z Hadoop Distributed File System?

Apache Sqoop je nástroj používaný pre prenos dát z / do Hadoop distribuovaného súborového systému. Hadoop architektúra môže spracovávať veľkých objemov dát a uložiť ich v HDFS. Ale ak chceme použiť tieto dáta potom musíme použiť nejaký nástroj pre import / export efektívne. Apache Sqoop umožňuje jednoduchý import a export dát z štruktúrovaných dátových úložísk, ako sú relačné databázy, podnikových dátových skladov, a NoSQL systémy.

Apache Sqoop je veľmi dôležité, keď sa nad tým zamyslíme pomocou Hadoop pre analytikov a dát spracovaniu.Jednoduché dva hlavné aspekty, ktoré Sqoop adresa sú

a) Nahrávanie časť(produkcia) dáta do Hadoop.
b) Prístup hromadných dát z mapy / zníženie aplikácie bežiace na veľké zhluky.

Predtým sme boli zvyknutí písať / použitie skriptov pre import / export dát medzi rôznymi systems.But tento proces je neefektívna a nemá zabezpečenie konzistencie dát, presnosť a iných kritických bodov.

Sqoop využíva priamočiarom mechanizmus pre prenos data.The celý súbor dát je rozdelená na plátky a každý plátok je mapa len job.Now každá mapa-jedinou úlohou je zodpovedný za prevod jeden plátok dát-súboru.

Ako sme už diskutovali, Sqoop možno použiť na import dát z RDBMS do HDFS.The vstup do procesu importu je tabuľka databázy a Sqoop číta tabuľku riadok po riadku do HDFS.The vstupného procesu sa vykonávajú súbežne, takže výstup bude násobkom files.These výstup súbory môžu byť textové súbory alebo iné typy súborov, ktoré obsahujú údaje serializované.

Tam je vedľajší produkt process.It Sqoop dovozné je trieda Java, ktorý môže zapouzdřit jeden riadok importovaného table.This Java triedy sa používa Sqoop sám durng dovozné process.The zdrojový kód tohto vedľajšieho produktu Java triedy .

Po spracovaní importovaných dát, to môže byť exportované do iných relačnej databázy pomocou Sqoop. Sqoop bude čítať súbor textových súborov s oddeľovačmi z HDFS (paralelne) a vložiť je ako nové riadky pre
Cieľ table.Now tieto údaje sú k dispozícii pre spotreby zo externými aplikáciami.

Sqoop tiež poskytuje niektoré príkazov nástroje pre získanie informácií o databaes, na ktoré je working.The zoznam databázových schém, Tabuľky možno tiež sledovať pomocou Sqoop commands.Sqoop tiež primitívne SQL prevedenie shell.

Sqoop operácie, ako dovoz,vyvážať,generovanie kódu atď môžu byť customized.For import, rad rozsahy / stĺpce možno specified.The oddeľovače, escape znaky pre tento súbor založený zastúpenie môže byť tiež mení podľa requirement.The balenia / trieda názov generovaného kódu môže byť tiež prispôsobené aplikácie požiadavku.

Sqoop konektory sú ďalšie dôležitou súčasťou tool.Connectors sú zásuvné komponenty postavené na konektoroch Sqoop tieto rozširujúce framework.These môžu byť pridané do akejkoľvek Sqoop inštaláciu a potom dáta môžu byť prenášané medzi Hadoop a vonkajší obchod.

Sqoop prichádza s východiskovými konektory pre rôzne populárnych databáz, ako je MySQL, PostgreSQL, Veštec, SQL Server a DB2.Sqoop tiež obsahuje generické JDBC konektor, ktorý možno použiť na pripojenie k ľubovoľnej databáze prístupné cez JDBC.

Na záver tejto diskusie môžeme povedať, že Sqoop možno použiť na prenos veľkých súborov dát medzi Hadoop a vonkajšie datastores efficiently.Beyond tento, Sqoop tiež ponúka mnoho pokročilých funkcií, ako je rôznych dátových formátov,kompresia,prispôsobenie,práce s otázky atď.

Štítky na:
============================================= ============================================== Buy best TechAlpine Books on Amazon
============================================== ---------------------------------------------------------------- electrician ct chestnutelectric
error

Enjoy this blog? Please spread the word :)

Follow by Email
LinkedIn
LinkedIn
Share