Co to jest Apache Sqoop i jak go używać do importowania / eksportowania danych z Hadoop Distributed File System?

Apache Sqoop jest narzędziem służącym do przesyłania danych z / do Hadoop rozproszonego systemu plików. Hadoop architektura może przetwarzać danych BIG i przechowywać go w HDFS. Ale jeśli chcemy wykorzystać te dane, a następnie musimy użyć jakiegoś narzędzia do importowania / eksportowania to skutecznie. Apache Sqoop umożliwia łatwy import i eksport danych z danych strukturalnych sklepach takich jak relacyjne bazy danych, hurtownie danych przedsiębiorstw, i systemów NoSQL.

Apache Sqoop jest bardzo ważne, gdy myślimy o użyciu Hadoop dla analityków i dane procesowi dwa główne aspekty, które mają adres Sqoop

za) Ładowanie większość(produkcja) danych do Hadoop.
b) Dostęp do danych masowych z mapy / zmniejszyć aplikacje na dużych klastrach.

Wcześniej używane do pisania / używać skryptów do import / eksport danych pomiędzy różnymi systems.But proces ten jest nieskuteczny i nie gwarantuje spójność danych, Dokładność i innych krytycznych punktów.

Sqoop wykorzystuje prosty mechanizm przeniesienia data.The cały zestaw danych jest podzielony na plastry i każdy plaster jest mapa tylko job.Now każda mapa tylko praca jest odpowiedzialna za przekazanie jeden kawałek zestawu danych.

Jak mówiliśmy, Sqoop can be used to import data from a RDBMS into HDFS.The input to the import process is a database table and Sqoop reads table row by row into HDFS.The input process is performed in parallel so the output will be multiple files.These output files can be text files or other type of files containing serialized data.

Jest produktem ubocznym w process.It importu Sqoop jest klasą Java, które mogą symbolizować jeden wiersz przywożonego table.This klasy Java jest używany przez Sqoop samej durng importu proces.Rada kod źródłowy Ten produkt uboczny klasy Java .

Po przetworzeniu importowanych danych, mogą być eksportowane do dowolnej relacyjnej bazy danych za pomocą Sqoop. Sqoop przeczyta zbiór plików tekstowych rozdzielanych z HDFS (równolegle) i wstawić je jako nowe wierszy
target table.Now te dane są dostępne dla pobór przez zewnętrznych aplikacji.

Sqoop również kilka narzędzi poleceń, aby uzyskać informacje na temat databaes na których nie jest working.The lista schematów bazy danych, Tabele mogą być przeglądane za pomocą Sqoop commands.Sqoop również prymitywne wykonanie powłoki SQL.

Operacje Sqoop jak import,eksportować,etc generowania kodu może być import customized.For, zakresy wierszy / kolumn można specified.The ograniczniki, uciec znaków dla pliku opartego reprezentacji mogą być zmiany, jak na requirement.The opakowania / nazwa klasy wygenerowanego kodu mogą być dostosowane do wymagań aplikacji.

Złącza Sqoop są kolejnym ważnym elementem tool.Connectors są elementy wtyczki zbudowane na złączach rozszerzeń Sqoop w framework.These mogą być dodane do każdej instalacji, a następnie dane Sqoop mogą być przenoszone między Hadoop i przechowywać zewnętrznego.

Sqoop pochodzi ze złączami domyślnych dla różnych popularnych baz danych takich jak MySQL, PostgreSQL, Wyrocznia, SQL Server i DB2.Sqoop również uniwersalne złącze JDBC, które mogą być używane do podłączenia do dowolnej bazy danych dostępnej przez JDBC.

Na zakończenie tej dyskusji możemy powiedzieć, że Sqoop może być używany do przesyłania dużych zbiorów danych pomiędzy Hadoop i zewnętrznego datastores efficiently.Beyond ta, Sqoop oferuje również wiele zaawansowanych funkcji, takich jak różnych formatów danych,kompresja,dostosowywanie,praca z etc zapytaniami.

Tagged on:
============================================= ============================================== Buy best TechAlpine Books on Amazon
============================================== ---------------------------------------------------------------- electrician ct chestnutelectric
error

Enjoy this blog? Please spread the word :)

Follow by Email
LinkedIn
LinkedIn
Share