Що таке Apache Sqoop і як використовувати його для імпорту / експорту даних з Hadoop розподіленої файлової системи?

Apache Sqoop це інструмент, який використовується для передачі даних з / в Hadoop розподілена файлова система. Hadoop архітектура може обробляти великі дані і зберігати його в HDFS. Але якщо ми хочемо використовувати ці дані, то ми повинні використовувати якийсь інструмент для імпорту / експорту це ефективно. Apache Sqoop дозволяє легко імпорту та експорту даних із структурованого сховища даних, таких як реляційні бази даних, Підприємство сховищ даних, і NoSQL систем.

Apache Sqoop дуже важливо, коли ми думаємо про використання Hadoop для аналізу та даних processing.The два основних аспекти, які Sqoop-адрес

a) Вантаження сипких(виробництво) даних в Hadoop.
б) Доступ великих обсягів даних з карти / зменшити додатків, що працюють на великих кластерах.

Раніше ми використовували для запису / використовувати скрипти для імпорту / експорту даних між різними systems.But цього процесу є неефективною і не забезпечує цілісність даних, Точність і інших критичних точок.

Sqoop використовує прямий механізм передачі data.The весь набір даних розбитий на шматочки і кожен шматочок являє собою карту тільки для job.Now кожній карті тільки робота відповідає за передачу одна скибочка набір даних.

Як ми вже говорили, Sqoop can be used to import data from a RDBMS into HDFS.The input to the import process is a database table and Sqoop reads table row by row into HDFS.The input process is performed in parallel so the output will be multiple files.These output files can be text files or other type of files containing serialized data.

Існує побічний продукт process.It імпорт Sqoop це клас Java, який може інкапсулювати один ряд імпортних table.This Java клас використовується Sqoop себе durng імпорт process.The вихідний код цього побічного продукту Java клас .

Після обробки імпортованих даних, це можуть бути експортовані в будь-якої реляційної бази даних за допомогою Sqoop. Sqoop буде читати набір текстових файлів з HDFS (паралельно) і вставити їх в якості нових рядків
цільової table.Now ці дані доступні для Споживання зовнішніми програмами.

Sqoop також надає деякі утиліти командного отримати інформацію про databaes, на якому working.The список схем баз даних, Таблиці також можуть бути переглянуті за допомогою Sqoop commands.Sqoop також забезпечує примітивне виконання SQL оболонки.

Sqoop операцій, таких як імпорт,експортувати,і т.д. генерації коду може бути customized.For імпорт, ряд діапазонів / стовпців може бути specified.The роздільники, уникнути символів для імен файлів на основі подання також можуть бути зміни відповідно до requirement.The пакет / ім'я класу згенерований код також може бути налаштований для задоволення вимог додатків.

Sqoop роз'єми є ще однією важливою частиною tool.Connectors є плагіна компоненти побудовані на роз'єми Sqoop в розширенні framework.These може бути доданий до будь Sqoop установки, а потім дані можуть передаватися між Hadoop і зовнішніх магазині.

Sqoop за замовчуванням поставляється з роз'ємами для різних популярних баз даних, таких як MySQL, PostgreSQL, Храм, де пророкували оракули, SQL Server і DB2.Sqoop також включає в себе загальний роз'єм JDBC, який може бути використаний для підключення до будь базі даних, доступній через JDBC.

На закінчення цього обговорення ми можемо сказати, що Sqoop може бути використаний для передачі великих обсягів даних між Hadoop і зовнішніх сховищ даних efficiently.Beyond цьому, Sqoop також пропонує безліч додаткових функцій, таких як різні формати даних,стискання,настройка,робота із запитами і т.д..

============================================= ============================================== Buy best TechAlpine Books on Amazon
============================================== ---------------------------------------------------------------- electrician ct chestnutelectric
error

Enjoy this blog? Please spread the word :)

Follow by Email
LinkedIn
LinkedIn
Share