Што е Апачи Sqoop и како да го користам за увоз / извоз на податоци од Hadoop Дистрибутер на датотечниот систем?

Apache-то Sqoop е алатка која се користи за пренос на податоци од / до Hadoop Дистрибутер на датотечниот систем. Hadoop архитектура може да процесира ГОЛЕМО податоци и складирање во HDFS. Но, ако сакаме да ги користат тие податоци, тогаш ние треба да користите некои алатка за увоз / извоз тоа ефикасно. Apache-то Sqoop овозможува лесно увоз и извоз на податоци од структурирани податоци продавници како што релациони бази на податоци, претпријатие податоци склад, и NoSQL системи.

Apache-то Sqoop е многу важно кога ќе се размислува за користење Hadoop за аналитика и податоци processing.The два главни аспекти кои Sqoop адреса се

на) Loading дел(производство) податоци во Hadoop.
б) Пристап до масовно податоци од сајтот / намалување на апликациите да работат на големи кластери.

Понапред се користи за пишување / користат скрипти за увоз / извоз на податоци помеѓу различни системи.Но овој процес е неефикасен и не обезбеди конзистентност на податоците, точноста и други критични точки.

Sqoop користи јасен механизам за пренос на data.The целата базата е splitted во парчиња и секој парче е карта само за job.Now секоја мапа само работа е одговорен за пренесување на еден парче на податоци-сет.

Како што имаме дискутирано, Sqoop can be used to import data from a RDBMS into HDFS.The input to the import process is a database table and Sqoop reads table row by row into HDFS.The input process is performed in parallel so the output will be multiple files.These output files can be text files or other type of files containing serialized data.

Постои нус-производ на Sqoop увоз process.It е Јава класа која може да капсулирало еден ред на увезените table.This Јава класа се користи од страна на Sqoop себе durng увоз process.The изворниот код на оваа нус-производ Java класа .

По обработката на увезените податоци, може да се извезуваат во било релациона база на податоци користејќи Sqoop. Sqoop ќе прочитате збир на одвоени текстуални датотеки од HDFS (во паралела) и ги вметнете како нови редови на
цел table.Now овие податоци се достапни за потрошувачка од страна на надворешни апликации.

Sqoop исто така, обезбедува некои команда комуналии да добиете информации за databaes на кој е working.The листа на базата на податоци шеми, маси, исто така, може да се гледа со користење Sqoop commands.Sqoop исто така, обезбедува примитивни SQL извршување школка.

Sqoop операции како увоз,извоз,кодот генерација итн може да биде customized.For увоз, ред се движи / колони може да биде specified.The Раздели, избега карактери за датотеката базирани застапеност исто така, може да се промени, како на requirement.The пакет / класа име на генерираниот код, исто така, може да се прилагоди за да се исполнат барањето барања.

Sqoop конектори се уште еден важен дел од tool.Connectors се додаток компоненти изграден на продолжување Sqoop е framework.These конектори може да биде додаден на било Sqoop инсталација, а потоа на податоци може да се пренесе меѓу Hadoop и надворешни продавница.

Sqoop доаѓа со стандардно конектори за разни популарни бази на податоци како MySQL, PostgreSQL, Oracle, SQL Server и DB2.Sqoop исто така вклучува генерички JDBC конектор кој може да се користи за да се поврзете на било база на податоци достапни преку JDBC.

Да се ​​заклучи оваа дискусија, можеме да кажеме дека Sqoop може да се користи за пренос на големи бази на податоци помеѓу Hadoop и надворешни datastores efficiently.Beyond овој, Sqoop исто така, нуди многу напредни функции како различни формати на податоци,компресија,прилагодување,работи со прашања итн.

Tagged on:
============================================= ============================================== Buy best TechAlpine Books on Amazon
============================================== ---------------------------------------------------------------- electrician ct chestnutelectric
error

Enjoy this blog? Please spread the word :)

Follow by Email
LinkedIn
LinkedIn
Share