Какво е Apache Sqoop и как да го използвате, за да импортирате / експортирате данни от Hadoop разпределената файлова система?

Apache Sqoop е инструмент, който се използва за прехвърляне на данни от / до Hadoop разпределена файлова система. Hadoop архитектура може да обработва голямо количество от данни и да го съхранява в HDFS. Но ако искаме да използва тези данни и след това ние трябва да използваме някакъв инструмент за внос / износ Той ефективно. Apache Sqoop позволява лесно внос и износ на данни от структурирани съхранява данни като релационни бази данни, корпоративни хранилища на данни, и NoSQL системи.

Apache Sqoop е много важно, когато мислим за използването на Hadoop за анализ и данни processing.The два основни аспекта, които Sqoop адрес

на) Зареждане на насипни(производство) данни в Hadoop.
б) Достъп до масиви от данни от картата / намаляване на приложенията, които работят на големи клъстери.

По-рано ние да напишете / използването на скриптове за внос / износ на данни между различните systems.But този процес е неефективен и не гарантира съпоставимост на данните, точността и други критични точки.

, Sqoop използва право напред механизъм за прехвърляне се splitted data.The целия масив от данни на филийки и всяко парче е карта само job.Now всяка карта само за работа е отговорен за прехвърляне на едно парче на набор от данни.

Както сме обсъждали, Sqoop може да се използва, за да импортирате данни от RDBMS в HDFS.The принос към процеса на внос е таблица, база данни и Sqoop гласи маса ред по ред в HDFS.The процес вход се извършва паралелно така че изходът ще бъде многоизходна files.These файловете могат да са текстови файлове или друг тип файлове, съдържащи сериализирани данни.

Налице е страничен продукт на process.It Sqoop внос е един клас на Java, които могат да се оформят един ред на внесения table.This Java клас се използва от самата Sqoop durng внос process.The изходния код на този продукт Java клас .

След обработка на импортираните данни, могат да бъдат изнасяни релационна база данни с помощта на Sqoop. От HDFS sqoop ще прочетете набор от ограничена текстови файлове (паралелно) и ги поставете като нови редове към
целевата table.Now тези данни е на разположение за консумация на алкохол от външни приложения.

Sqoop предоставя също така някои командни комунални услуги, за да получите информация за databaes, върху които е working.The списък на схеми на бази данни, таблици могат да се виждат с помощта Sqoop commands.Sqoop примитивен SQL изпълнение черупки.

Sqoop операции като внос,износ,и т.н. поколение код може да бъде customized.For внос, ред варира / колони могат да бъдат specified.The разделители, избяга символи за файлово базирана представителство също може да се промени по requirement.The пакет / клас името на генерирания код могат да бъдат персонализирани да отговарят на изискването за кандидатстване.

Са друга важна част от tool.Connectors sqoop конектори плъгин компоненти, изградени върху конектори Sqoop разширяване framework.These могат да се добавят на всеки Sqoop инсталация и след това данните могат да се прехвърлят между Hadoop и външни магазин.

Sqoop идва по подразбиране конектори за различни популярни бази данни като MySQL, PostgreSQL, Оракул, SQL Server и DB2.Sqoop включва общ конектор JDBC, които могат да бъдат използвани, за да се свърже с всяка база данни, достъпна чрез JDBC.

В заключение на тази дискусия можем да кажем, че Sqoop може да се използва за прехвърляне на големи масиви от данни между Hadoop и външни хранилища за данни efficiently.Beyond това, Sqoop също разполага с много разширени функции, като различни формати на данни,компресия,персонализиране,работа със запитвания и т.н..

Tagged on:
============================================= ============================================== Buy best TechAlpine Books on Amazon
============================================== ---------------------------------------------------------------- electrician ct chestnutelectric
error

Enjoy this blog? Please spread the word :)

Follow by Email
LinkedIn
LinkedIn
Share