Co je Apache Sqoop a jak jej používat pro import / export dat z Hadoop Distributed File System?

Apache Sqoop je nástroj používaný pro přenos dat z / do Hadoop distribuovaného souborového systému. Hadoop architektura může zpracovávat velkých objemů dat a uložit je v HDFS. Ale chceme-li použít tato data pak musíme použít nějaký nástroj pro import / export efektivně. Apache Sqoop umožňuje snadný import a export dat z strukturovaných datových úložišť, jako jsou relační databáze, podnikových datových skladů, a NoSQL systémy.

Apache Sqoop je velmi důležité, když se nad tím zamyslíme pomocí Hadoop pro analytiky a dat zpracování.Pouhé dva hlavní aspekty, které Sqoop adresa jsou

A) Nahrávání část(výroba) data do Hadoop.
b) Přístup hromadných dat z mapy / snížení aplikace běžící na velké shluky.

Dříve jsme byli zvyklí psát / použití skriptů pro import / export dat mezi různými systems.But tento proces je neefektivní a nemá zajištění konzistence dat, přesnost a jiných kritických bodů.

Sqoop využívá přímočarém mechanismus pro přenos data.The celý soubor dat je rozdělena na plátky a každý plátek je mapa pouze job.Now každá mapa-jediným úkolem je odpovědný za převod jeden plátek dat-souboru.

Jak jsme již diskutovali, Sqoop mohou být použity pro import dat z RDBMS do HDFS.The vstup do procesu importu je tabulka databáze a Sqoop čte tabulku řádek po řádku do HDFS.The vstupního procesu se provádí souběžně, takže výstup bude násobkem files.These výstup soubory mohou být textové soubory nebo jiné typy souborů, které obsahují údaje serializovaný.

Tam je vedlejší produkt process.It Sqoop dovozní je třída Java, který může zapouzdřit jeden řádek importovaného table.This Java třídy se používá Sqoop sám durng dovozní process.The zdrojový kód tohoto vedlejšího produktu Java třídy .

Po zpracování importovaných dat, to může být exportovány do jiných relační databázi pomocí Sqoop. Sqoop bude číst soubor textových souborů s oddělovači z HDFS (paralelně) a vložit je jako nové řádky pro
Cíl table.Now tyto údaje jsou k dispozici pro spotřeby ze externími aplikacemi.

Sqoop také poskytuje některé příkazů nástroje pro získání informací o databaes, na které je working.The seznam databázových schémat, Tabulky lze také sledovat pomocí Sqoop commands.Sqoop také primitivní SQL provedení shell.

Sqoop operace, jako dovoz,export,generování kódu atd. mohou být customized.For import, řada rozsahy / sloupce lze specified.The oddělovače, escape znaky pro tento soubor založený zastoupení může být také mění dle requirement.The balení / třída název generovaného kódu může být také přizpůsobeny aplikace požadavek.

Sqoop konektory jsou další důležitou součástí tool.Connectors jsou zásuvné komponenty postavené na konektorech Sqoop tyto rozšiřující framework.These mohou být přidány do jakékoliv Sqoop instalaci a pak data mohou být přenášena mezi Hadoop a vnější obchod.

Sqoop přichází s výchozími konektory pro různé populárních databází, jako je MySQL, PostgreSQL, Věštec, SQL Server a DB2.Sqoop také obsahuje generické JDBC konektor, který lze použít pro připojení k libovolné databázi přístupné přes JDBC.

Na závěr této diskuse můžeme říci, že Sqoop lze použít pro přenos velkých souborů dat mezi Hadoop a vnější datastores efficiently.Beyond tento, Sqoop rovněž nabízí mnoho pokročilých funkcí, jako je různých datových formátů,komprese,přizpůsobení,práce s dotazy atd.

Tagged on:
============================================= ============================================== Buy best TechAlpine Books on Amazon
============================================== ---------------------------------------------------------------- electrician ct chestnutelectric
error

Enjoy this blog? Please spread the word :)

Follow by Email
LinkedIn
LinkedIn
Share