Hadoop põhimõisted, lihtsustatud

Ülevaade:

Praeguses tehnoloogia maastik, suur andmed ja analüüs on kaks kõige olulisemaid valdkondi, kus inimesed võtavad palju huvi. Ilmne põhjus on see veojõu on – on järjest äri kasuks välja need suured andmete ja BI rakendused. Hadoop on muutunud peamised stream tehnoloogia, nii et selle ulatus ja arutelu levib kaugemale tech meedia. But, mida oleme täheldanud on – inimesed ikka raske mõista tegelikku mõisted, ja tihti teha mõned ebamäärased ettekujutus Hadoop ja muud sellega seotud tehnoloogiate.

In this article, Meie aus jõupingutusi on selgitada Hadoop võtmesõnad väga lihtne viis, nii, et tehnilised ja mitte tehnilised publik saab aru.

Hadoop ökosüsteemi - Mis see täpselt vahenditega?

Hadoop on väga võimas avatud lähtekoodiga platvorm haldab Apache Foundation. Hadoop platvorm on ehitatud Java tehnoloogia ja võimeline töötlemiseks suur maht heterogeenne andmete jagatud rühmitatud keskkond. Selle tagi võime muudab täiuslik sobib hajusarvutuse.

Hadoop öko-süsteem koosneb hadoop põhikomponendid ja teiste nendega seotud tööriistad. Põhilisi komponente, Hadoop Distributed File System (HDFS) ja MapReduce programmeerimise mudelit on kaks kõige olulisemat mõisted. Nende hulgas sellega seotud vahendeid, Taru SQL, Siga eest dataflow, Zookeeper haldamise teenuseid jne on oluline. Me selgitame neid mõisteid üksikasjad.

hadoop ökosüsteemi

PILDINA1: Hadoop ökosüsteemi

Miks sa pead teadma põhimõisted?

Oleme juba arutanud, et Hadoop on väga populaarne teema tänapäeval, ja kõik räägivad seda, teadlikult või teadmatult. Nii probleem on- kui te arutate midagi või kuula midagi, kuid ei tea, mis see täpselt vahenditega, siis ei saa ühendada täpid või seedima seda. Probleem on rohkem nähtav, kui inimesed on pärit eri domeeni, nagu ärimehed, marketing poisid, tippjuhtkonna jne. Sest need inimesed ei ole vaja teada "Kuidas Hadoop töötab?‘, pigem on nad huvitatud teada "kuidas see võib tuua ettevõtte kasuks ". Et mõista äri kasuks, natuke mõistmist Hadoop mõttes on väga oluline kõigi kihtide. Aga samal ajal, tingimusi tuleks selgitada lihtsal viisil ilma keeruliste jargons, muutes lugejad mugav.

Olgem aru põhimõisted

Selles osas uurib erinevaid termineid Hadoop ja selle ökosüsteemi, mõned selgitus. Selguse mõistmisel, teeme kahte suurde kategooriasse, üks on alusmoodulis ja teine on täiendavaid paketid ja tööriistad mida saab paigaldada eraldi või peal Hadoop. Hadoop viitab kõik need üksused.

First, Olgem on pilk tingimustele, mis kuulub alusmoodulis.

Apache Hadoop: Apache Hadoop on avatud lähtekoodiga raamistik töötlemise suures mahus andmete rühmitatud keskkond. Ta kasutab lihtsate MapReduce programmeerimise mudelit usaldusväärne, skaleeritav ja hajutatud arvuti. Ladustamine ja arvutusvõimsus nii levitatakse seda raamistikku.

hadoop ühise: Nagu nimigi ütleb, see sisaldab ühise kommunaalteenuste toetavad erinevaid Hadoop moodulid. See on põhimõtteliselt raamatukogu ühiste vahendite ja kommunaalteenuste. Hadoop ühine kasutatakse peamiselt arendajad ajal rakenduse arendamine.

HDFS: HDFS (Hadoop Distributed File System) on jagatud failisüsteemi ulatub üle kauba riistvara. See kaalud väga kiire ja tagab kõrge tootlikkusega. Andmed plokid kopeeris ja säilitatakse hajutatud viisil koondunud keskkonda.

MapReduce: MapReduce on programmeerimise mudelit paralleelselt töötlemise andmete suur hulk jagatud keskkonnas. MapReduce programm on kaks põhikomponenti, üks on kaardi () meetod, mis täidab filtreerimine ja sorteerimine. Teine on taandamine () osa, kavandatud tegema kokkuvõtte väljund kaart osa.

Veel üks Resource läbirääkija (LÕNG): See on põhimõtteliselt ressursihalduri saadaval Hadoop 2. Rolli lõng on hallata ja ajakava arvuti ressursse rühmitatud keskkond.

Now, olgem vaadata teiste seotud terminid Hadoop

HBase: HBase on avatud lähtekoodiga, skaleeritav, laiali ja mitte-relatsiooniline andmebaas. See on kirjutatud Java ja põhineb Google'i Big tabel. Selle aluseks on ladustamise failisüsteem on HDFS.
Hive: Taru on andmeladu tarkvara, mis toetab lugemine, kirjutamine ja juhtimine andmete suur hulk salvestatud jagatud ladustamise süsteemi. See annab SQL nagu päringu keel tuntakse HiveQL (HQL), päringute andmestiku. Taru toetab ladustamiseks HDFS ja teiste ühilduvate failisüsteeme nagu Amazon S3 jne.

Apache Pig: Siga on kõrge platvorm suur andmekogum analüüs. Keel kirjutada siga skriptid on tuntud piikeel. Põhiliselt imab aluseks olevate MapReduce programmid ja lihtsustab arendajad tööd MapReduce mudel ilma kirjalikult tegelikud koodi.

Apache Spark: Spark (avatud lähtekoodiga) on klastri arvutustehnika raamistik ja üldised arvutama mootori Hadoop andmeid (suuremahuliste andmestik). Teeb peaaegu 100 korda kiirem võrreldes MapReduce mälu. And, ketas, see on peaaegu 10 korda kiiremini. Spark saab sõita erinevates keskkondades / režiim nagu autonoomselt, Hadoop, kohta EC2 jne. Seda saab juurdepääsu andmetele HDFS, HBase, Taru või muu Hadoop andmeallika.

Sqoop: Sqoop on käsureavahendi andmeedastuseks RDBMS ja Hadoop andmebaasid. Seda kasutatakse peamiselt impordi / ekspordi andmete vahel relatsiooniline ja mitte-relatsioonandmebaasides. The name "Sqoop’ on kombineerimisel moodustatud alg- ja viimane osa kahe teise termineid "sql+olioop ".

Oozie: Oozie on põhimõtteliselt Hadoop töö voolu mootori. See töö planeerimisel voogude juhtimiseks Hadoop töökohta.

Zookeeper: Apache Zookeeper on avatud lähtekoodiga platvorm, mis annab suure jõudlusega koordineerimine teenust Hadoop hajutatud rakendusi. See on tsentraliseeritud teenust, säilitades konfiguratsiooni info, nimede register, laiali sünkroniseerimine ja rühma teenused.

kanal: Apache Flume on hajutatud teenus, kasutatakse peamiselt andmekogumise, koondamine ja liikumine. See toimib väga tõhusalt suure summa log ja sündmuse andmed.

jume: Hue on põhimõtteliselt veebiliidese analüüsimiseks Hadoop andmeid. See on avatud lähtekoodiga projekt, toetab Hadoop ja selle ökosüsteemi. Selle peamine eesmärk on pakkuda paremat kasutaja kogemus. See annab lohistada rajatised ja toimetajad Säde, Taru ja HBase jne.

mahout: Mahut on avatud lähtekoodiga tarkvara ehitamise skaleeritav masin õppe ja andmekaevandamise rakendusi kiiresti.

Ambari: Ambari on põhimõtteliselt veebipõhine vahend jälgides ja juhtides Hadoop klastrite. See hõlmab toetust ökosüsteemi teenuste ja vahendeid, nagu HDFS, MapReduce, HBase, Zookeeper, siga, Sqoop jne. Selle kolm peamist funktsiooni on eraldiste, haldamiseks ja jälgimiseks Hadoop klastrite.

Nagu Hadoop ökosüsteemi areneb pidevalt, uus tarkvara, teenuste ja vahendite tekkimas ka. Tulemusena, tekib uusi termineid ja jargons suures andmeid maailma. Me peame jälgima ja mõista neid ajas.

Järeldus

Selle artikli oleme püüdnud kindlaks kõige olulisemad võtmesõnad Hadoop ökosüsteemi. Samuti on arutatud natuke ökosüsteemi ja miks me peame teadma mõisted. Hadoop on muutunud peamised stream tehnoloogia, et inimesed on üha rohkem kaasatud sellesse. So, see on õige aeg, et mõista mõningaid põhimõisteid ja termineid kasutatakse Hadoop maailma. Tulevikus, Seal on palju uusi mõisteid ja termineid saadaval, ja me peame uuendama end vastavalt.

Share on Facebook

Save

Tagged on: Big andmed, Hadoop

TechAlpine – All About Technology

www.techalpine.com

Hadoop põhimõisted, lihtsustatud

Enjoy this blog? Please spread the word :)