Qu'est-ce qu'Apache Sqoop et comment l'utiliser pour importer / exporter des données de système Hadoop Distributed File?

Apache Sqoop est un outil utilisé pour transférer des données depuis / vers le système de fichiers distribués Hadoop. Hadoop architecture peut traiter les données BIG et le stocker dans HDFS. Mais si l'on veut utiliser ces données alors nous avons besoin d'utiliser un autre outil pour importer / exporter efficacement. Apache Sqoop permet d'importer facilement et l'exportation de données à partir de banques de données structurées telles que des bases de données relationnelles, entrepôts de données, et des systèmes NoSQL.

Apache Sqoop est très important lorsque nous pensons à l'aide Hadoop pour l'analyse et les données processing.The deux aspects principaux qui sont l'adresse Sqoop

un) Chargement en vrac(production) données dans Hadoop.
b) Accès aux données en vrac à partir de map / reduce applications exécutées sur de grandes grappes.

Précédemment, nous avons l'habitude d'écrire / utiliser des scripts pour importer / exporter des données entre les différents systems.But ce processus est inefficace et n'assure pas la cohérence des données, exactitude et autres points critiques.

Sqoop utilise un mécanisme simple pour transférer data.The ensemble de données est découpé en tranches et chaque tranche est une carte seule job.Now chaque travail carte seule est responsable du transfert d'une tranche de l'ensemble de données.

Comme nous l'avons discuté, Sqoop can be used to import data from a RDBMS into HDFS.The input to the import process is a database table and Sqoop reads table row by row into HDFS.The input process is performed in parallel so the output will be multiple files.These output files can be text files or other type of files containing serialized data.

Il ya un sous-produit de l'importation process.It Sqoop est une classe Java qui peut encapsuler une ligne de la classe importée table.This Java est utilisé par le Sqoop se durng code source des importations processus.Les de ce sous-produit de classe Java .

Après traitement des données importées, il peut être exporté vers une base de données relationnelle à l'aide Sqoop. Sqoop lira un ensemble de fichiers texte délimités de HDFS (en parallèle) et les insérer autant de lignes nouvelles à l'
cible table.Now ces données est disponible pour conso par les applications externes.

Sqoop fournit également des services de commande pour obtenir des informations sur les databaes sur lequel il est working.The liste de schémas de bases de données, tables peuvent également être visualisés à l'aide Sqoop commands.Sqoop fournit aussi primitive exécution script SQL.

Opérations comme Sqoop importation,exporter,etc génération de code peut être customized.For importation, gammes de lignes / colonnes peuvent être délimiteurs specified.The, échapper les caractères pour le fichier de représentation peut aussi être basée sur les changements que par le paquet requirement.The / nom de la classe du code généré peut également être personnalisé pour répondre aux besoins de l'application.

Connecteurs Sqoop sont un autre élément important des tool.Connectors plugins sont des composants construits sur des connecteurs Sqoop de framework.These d'extension peuvent être ajoutés à n'importe quelle installation Sqoop puis les données peuvent être transférées entre Hadoop et magasin externe.

Sqoop est livré avec des connecteurs par défaut pour différentes bases de données comme MySQL populaires, PostgreSQL, Oracle, SQL Server et DB2.Sqoop comprend également un connecteur JDBC générique qui peut être utilisé pour se connecter à une base de données accessible via JDBC.

Pour conclure cette discussion, nous pouvons dire que Sqoop peut être utilisé pour transférer des jeux de données volumineux entre Hadoop et banques de données externe efficiently.Beyond cette, Sqoop offre également de nombreuses fonctions avancées telles que différents formats de données,compression,personnalisation,travailler avec les requêtes, etc.

Tagged on:
============================================= ============================================== Buy best TechAlpine Books on Amazon
============================================== ---------------------------------------------------------------- electrician ct chestnutelectric
error

Enjoy this blog? Please spread the word :)

Follow by Email
LinkedIn
LinkedIn
Share