Тэрміны ключавыя Hadoop, спрошчаны

Агляд:

У бягучай тэхналогіі ландшафту, вялікія дадзеныя і аналітыка з'яўляюцца двума найбольш важнымі абласцямі, дзе людзі прымаюць вялікую цікавасць. Відавочная прычына гэтай цягі з'яўляецца – прадпрыемствы атрымліваюць бізнес-выгаду з гэтых вялікіх аб'ёмаў дадзеных і BI-прыкладанняў. Hadoop цяпер стала асноўнай тэхналогіяй патоку, таму яе асвятленне і абмеркаванне таксама распаўсюджваецца за межы тэхнічных сродкаў масавай інфармацыі. але, тое, што мы назіралі гэта – людзі да гэтага часу цяжка зразумець рэальныя паняцці, і часта робяць некаторыя цьмянае ўяўленне аб Hadoop і іншых звязаных з імі тэхналогій.

In this article, нашы сумленныя намаганні, каб растлумачыць асноўныя тэрмiны Hadoop ў вельмі простым спосабам, так што тэхнічныя і нетэхнічнае гледачы могуць зразумець.

Hadoop экасістэма - Што гэта азначае роўна?

Hadoop з'яўляецца вельмі магутным адкрытым зыходным кодам платформы пад кіраваннем Apache Foundation. Hadoop платформа пабудавана на Java-тэхналогіі і здольная апрацоўваць вялікі аб'ём разнастайных дадзеных у размеркаванай кластарнай асяроддзі. Яго магчымасці маштабавання робіць яго ідэальным рашэннем для размеркаваных вылічэнняў.

Hadoop эка-сістэма складаецца з асноўных кампанентаў Hadoop і іншых звязаных з імі інструментаў. У асноўных кампанентах, Hadoop Distributed File System (HDFS) і мадэль MapReduce праграмавання з'яўляюцца двума найбольш важнымі канцэпцыямі. Сярод спадарожных інструментаў, Вулей для SQL, Свінні для патоку дадзеных, Zookeeper для кіравання паслугамі і г.д. маюць важнае значэнне. Растлумачым гэтыя тэрміны ў дэталях.

Hadoop ecosystem

Hadoop экасістэмы

Изображение1: Hadoop эка-сістэмы

Чаму вы павінны ведаць асноўныя тэрмiны?

Мы ўжо казалі пра тое, што Hadoop з'яўляецца вельмі папулярнай тэмай у цяперашні час, і ўсе кажуць пра гэта, свядома ці несвядома. Такім чынам, праблема ў тым,- калі вы абмяркоўваеце што-небудзь ці да чаго-то слухаць, але не ведае, што гэта сапраўды азначае, то вы не зможаце злучыць кропкі або пераварыць. Праблема больш прыкметны, калі людзі з іншага дамена, як дзелавых людзей, маркетынгавыя хлопцы, топ-менеджмент і г.д.. Таму што гэтыя людзі не павінны ведаць 'Як працуе Hadoop?‘, хутчэй, яны больш зацікаўлены ведаць 'як гэта можа прынесці карысць бізнесу ". Для рэалізацыі бізнес-выгады, трохі разумення тэрмінаў Hadoop з'яўляюцца вельмі важным ва ўсіх пластах. Але ў той жа час, тэрміны павінны быць растлумачаны простым спосабам без складаных жаргон, што робіць чытачы камфортна.

Давайце разумець асноўныя тэрмiны

У гэтым раздзеле мы разгледзім розныя тэрміны ў Hadoop і яе эка-сістэмы, з некаторым тлумачэннем. Для яснасці ў разуменні, мы будзем рабіць дзве шырокія катэгорыі, адзін з'яўляецца базавы модуль а другі з'яўляецца дадатковыя праграмныя пакеты і інструменты які можа быць усталяваны асобна або па-над Hadoop. Hadoop ставіцца да ўсіх гэтых асобам.

First, давайце паглядзім на ўмовах, якія падпадае пад базавым модулем.

  • Apache Hadoop: Apache Hadoop гэта каркас з адкрытым зыходным кодам для апрацоўкі вялікага аб'ёму дадзеных у кластарнай асяроддзі. Ён выкарыстоўвае простую мадэль MapReduce праграмавання для надзейнай, маштабуецца і размеркаваных вылічэнняў. Захоўванне і вылічэнне як размеркаваны ў гэтых рамках.
  • Hadoop агульны: Як вынікае з назвы, яна ўтрымлівае стандартныя ўтыліты для падтрымкі розных модуляў Hadoop. Гэта ў асноўным бібліятэка агульных прылад і ўтыліт. Hadoop агульны у асноўным выкарыстоўваецца распрацоўшчыкамі падчас распрацоўкі прыкладанняў.
  • HDFS: HDFS (Hadoop Distributed File System) гэта размеркаваная файлавая сістэма, расцягнуты на апаратным забеспячэнні. Гэта шалі вельмі хутка і забяспечвае высокую прапускную здольнасць. Блокі дадзеных капіююцца і захоўваюцца ў размеркаванай чынам на кластарнай асяроддзі.
  • MapReduce: MapReduce з'яўляецца мадэллю праграмавання для паралельнай апрацоўкі вялікіх аб'ёмаў дадзеных у размеркаванай асяроддзі. MapReduce праграма складаецца з двух асноўных кампанентаў, адзін карце () метад, які ажыццяўляе фільтраванне і сартаванне. Другі з'яўляецца Паменшыць () частка, прызначаны для выканання рэзюмэ выхаду з карт часткі.
  • Яшчэ адзін рэсурс Перамоўшчык (прадзівам): Гэта ў асноўным менеджэр рэсурсаў даступны ў Hadoop 2. Ролю прадзівам складаецца ў кіраванні і планаваць вылічальныя рэсурсы ў кластарнай асяроддзі.

Now, давайце праверым іншыя звязаныя тэрміны ў Hadoop

  • HBase: HBase з'яўляецца адкрытым зыходным кодам, які маштабуецца, размеркаваная і ня рэляцыйная база дадзеных. Яна напісана на Java і на аснове Google, вялікі стол. Асноўнай файлавай сістэмы захоўвання з'яўляецца HDFS.
  • Hive: Вулей з'яўляецца сховішча дадзеных праграмнага забеспячэння, які падтрымлівае чытанне, напісанне і кіраванне вялікімі аб'ёмамі дадзеных, якія захоўваюцца ў размеркаванай сістэме захоўвання. Ён дае SQL як мова запытаў, вядомы як HiveQL (HQL), для выканання запытаў набору дадзеных. Hive падтрымлівае захоўванне ў HDFS і іншых сумяшчальных файлавых сістэм, як Amazon S3 і г.д..
  • Apache Pig: Свіння з'яўляецца высокая платформа ўзроўню для вялікага набору дадзеных аналізу. Мова для напісання сцэнарыяў Pig вядомыя як латынь Свінні. Гэта ў асноўным абстрагуюцца асноўныя праграмы MapReduce і палягчае распрацоўнікам працаваць на MapReduce мадэлі без напісання фактычнага кода.
  • Apache Spark: Spark (з адкрытым зыходным кодам) з'яўляецца асновай кластара вылічэнняў і наогул вылічальнік для дадзеных Hadoop (буйнамаштабны набор дадзеных). Ён выконвае амаль 100 разоў хутчэй у параўнанні з MapReduce ў памяці. And, для дыска, амаль 10 разоў хутчэй. Іскра можа працаваць на розных асяроддзях / рэжыме, як аўтаномны рэжым, на Hadoop, на EC2 і г.д.. Ён можа атрымаць доступ да дадзеных з HDFS, HBase, Вулей або любы іншы крыніца дадзеных Hadoop.
  • Sqoop: Sqoop гэта інструмент каманднага радка для перадачы дадзеных паміж СКБД і баз дадзеных Hadoop. Ён выкарыстоўваецца ў асноўным для экспарту / імпарту дадзеных паміж рэляцыйных і ня рэляцыйных баз дадзеных. The name 'Sqoop’ фарміруецца шляхам аб'яднання пачатковай і апошняй часткі двух іншых тэрмінаў "квадратныL+былоOOP '.
  • Oozie: Oozie ў асноўным рухавік Hadoop рабочага патоку. Яна плануе працаваць патокі для кіравання заданнямі Hadoop.
  • Zookeeper: Apache Zookeeper з'яўляецца адкрытым зыходным кодам платформы, якая забяспечвае высокую прадукцыйнасць каардынацыі паслуг для Hadoop размеркаваных прыкладанняў. Гэта цэнтралізаваная служба для захоўвання інфармацыі аб канфігурацыі, рэестра імёнаў, размеркаваныя сінхранізацыі і групавыя паслугі.
  • акведук: Apache Flume з'яўляецца размеркаваная, у асноўным выкарыстоўваецца для збору дадзеных, агрэгацыя і рух. Яна працуе вельмі эфектыўна з вялікай колькасцю дадзеных і часопісаў падзей.
  • адценне: Адценне ў асноўным вэб-інтэрфейс для аналізу дадзеных Hadoop. Гэта праект з адкрытым кодам, падтрымлівае Hadoop і яе эка-сістэмы. Яго галоўная мэта складаецца ў тым, каб забяспечыць лепшы карыстацкі досвед. Яна забяспечвае перацягвання аб'ектаў і рэдактараў для Спарк, Вулей і HBase і г.д..
  • паганяты сланоў: Маю гэта праграмнае забеспячэнне з адкрытым зыходным кодам для стварэння маштабуюцца машыннага навучання і інтэлектуальнага аналізу дадзеных прыкладання хутка.
  • Ambari: Ambari ў асноўным вэб-інструмент для маніторынгу і кіравання кластарамі Hadoop. Яна ўключае ў сябе падтрымку эка-сістэмных паслуг і інструментаў, такіх як HDFS, MapReduce, HBase, Zookeeper, свіння, Sqoop і г.д.. Яго тры асноўныя функцыянальныя магчымасці ініцыялізацыі, кіравання і маніторынгу кластараў Hadoop.

Як Hadoop эка-сістэма пастаянна развіваецца, новае праграмнае забеспячэнне, паслугі і прылады таксама з'яўляюцца. У выніку, будуць новыя тэрміны і жаргоны ў вялікім свеце дадзеных. Нам трэба ўважліва сачыць і разумець тых, хто ў часе.

Заключэнне

У гэтым артыкуле мы паспрабавалі вызначыць найбольш важныя ключавыя тэрміны ў эка-сістэме Hadoop. Мы таксама абмеркавалі трохі аб эка-сістэмы і чаму мы павінны ведаць ўмовы. Hadoop цяпер стала асноўнай тэхналогіяй патоку, так што людзі становяцца ўсё больш залучанымі ў яго. So, гэта зручны час, каб зразумець некаторыя асноўныя паняцці і тэрміны, якія выкарыстоўваюцца ў свеце Hadoop. У будучыні, там будзе шмат новых паняццяў і тэрмінаў, даступных, і мы павінны абнаўляць сябе адпаведным чынам.

Tagged on: ,
============================================= ============================================== Buy best TechAlpine Books on Amazon
============================================== ---------------------------------------------------------------- electrician ct chestnutelectric
error

Enjoy this blog? Please spread the word :)

Follow by Email
LinkedIn
LinkedIn
Share