Wat is Apache Sqoop en hoe om dit te gebruik vir die invoer / uitvoer van data uit Hadoop Distributed File System?

Apache Sqoop is 'n instrument wat gebruik word vir die oordrag van data vanaf / na Hadoop verspreide lêer stelsel. Hadoop argitektuur BIG data kan verwerk en stoor dit in HDFS. Maar as ons wil hê dat die data te gebruik dan moet ons n paar instrument te gebruik om die invoer / uitvoer dit doeltreffend. Apache Sqoop kan maklik die invoer en uitvoer van data vanaf gestruktureerde data winkels soos relasionele databasisse, onderneming datapakhuise, en NoSQL stelsels.

Apache Sqoop is baie belangrik wanneer ons dink die gebruik van Hadoop vir analise en data processing.The twee belangrikste aspekte wat Sqoop adres is

'n) Loading grootmaat(produksie) data in Hadoop.
b) Toegang tot grootmaat data van die kaart / verminder programme wat op groot trosse.

Vroeër het ons gebruik om te skryf / scripts gebruik om die invoer / uitvoer van data tussen verskillende systems.But hierdie proses is ondoeltreffend en nie data konsekwentheid te verseker, akkuraatheid en ander kritieke punte.

Sqoop reguit vorentoe meganisme gebruik om te dra data.The hele datastel is gesplitste in skywe en elke sny is 'n kaart-net job.Now elke kaart enigste werk is wat verantwoordelik is vir die oordrag van een sny van die data-set.

Soos ons bespreek het, Sqoop can be used to import data from a RDBMS into HDFS.The input to the import process is a database table and Sqoop reads table row by row into HDFS.The input process is performed in parallel so the output will be multiple files.These output files can be text files or other type of files containing serialized data.

Daar is 'n deur-produk van die Sqoop invoer process.It is 'n Java klas wat kan 'n mens ry van die ingevoerde table.This Java klas omsluit is wat gebruik word deur die Sqoop self lydens invoer process.The bronkode van hierdie deur-produk Java klas .

Na die verwerking van die ingevoerde data, dit kan uitgevoer word om enige relasionele databasis met behulp van Sqoop. Sqoop sal 'n stel van geskei teks lêers te lees HDFS (in parallel) en plaas hulle as nuwe rye aan die
teiken table.Now hierdie data is beskikbaar vir consumtion deur die eksterne programme.

Sqoop bied ook 'n paar opdrag utilities inligting oor die databaes te kry waarop dit working.The lys van databasis skedule, tabelle kan ook besigtig word deur gebruik te maak van Sqoop commands.Sqoop bied ook primitiewe SQL uitvoering dop.

Sqoop bedrywighede soos invoer,uitvoer,kodegenerasie ens kan customized.For invoer, ry reekse / kolomme kan specified.The delimiters, ontsnap karakters vir lêer gebaseerde verteenwoordiging kan ook verander soos per die requirement.The pakket / klas naam van die gegenereerde kode kan ook aangepas word om die aansoek vereistes te voldoen.

Sqoop connectors is nog 'n belangrike deel van die tool.Connectors plugin komponente gebou op Sqoop se uitbreiding framework.These connectors kan bygevoeg word om enige Sqoop installasie en dan data kan oorgedra word tussen Hadoop en eksterne stoor.

Sqoop kom met die standaard connectors vir verskeie gewilde databasisse soos MySQL, PostgreSQL, Oracle, SQL Server en DB2.Sqoop sluit ook 'n generiese JDBC connector wat gebruik kan word om aan te sluit op 'n databasis wat toeganklik is via JDBC.

Hierdie bespreking te sluit kan ons sê dat Sqoop kan gebruik word om groot datastelle te dra tussen Hadoop en eksterne argiewe efficiently.Beyond hierdie, Sqoop bied ook baie gevorderde funksies, soos die verskillende data formate,kompressie,aanpassing,werk met navrae, ens..

Tagged on:
============================================= ============================================== Buy best TechAlpine Books on Amazon
============================================== ---------------------------------------------------------------- electrician ct chestnutelectric
error

Enjoy this blog? Please spread the word :)

Follow by Email
LinkedIn
LinkedIn
Share