Mikä merkitys Hadoop Architecture in Production Success?

Yleiskatsaus:

Hadoop on alusta, joka on lähes synonyymi Big Data. Se on periaatteessa avoimen lähdekoodin kehys, joka mahdollistaa tallentaminen ja käsittely aihekokonaisuuksien tietojen sarjat laajamittaisesti. pääasiallisesti, Hadoop arkkitehtuuri tiedetään käsittävän neljä suurta moduulia, mitkä ovat HDFS (Hadoop Distributed Fkanssa System), Hadoop Common, LANKA ja MapReduce. Jokainen näistä moduuleista on asetettu suorittamaan tiettyjä tehtäviä, jotka tulevat yhdessä kokonaisuutena täyttää tietojenkäsittely vaatimukset. Yksi tärkeimmistä seikoista tuotantoon menestys on Hadoop arkkitehtuuri. Tämä arkkitehtuuri tarjoaa useita keskeisiä piirteitä, jotka ovat vastuussa sen suosio yli muissa yhteyksissä jo nyt. However, on olemassa myös muutamia muita asioita huomioon onnistuneen täytäntöönpanon Hadoop. Tämä tarkoittaa, se ei ole vain noin ottaa asiallinen varastointi järjestelmä kirjaa tai 24×7 käynnissä sovelluksia, mutta myös miten se integroituu kokonaisarkkitehtuurin ja työkaluja yrityksen.

Tämä artikkeli on pitkälti keskustelee Hadoop arkkitehtuuri yksityiskohtaisesti yhdessä etuja kunkin moduulin tarjoukset. Tulemme myös kattaa tuotannon menestys kysymyksiä.

Seuraavassa on yksinkertainen Hadoop arkkitehtuuri kaavio 2.0 versiot

Hadoop 2.0 architecture

Kuva 1: Hadoop 2.0 architecture

HDFS Architecture

Kuten edellä on jo, Hadoop HDFS varmasti on yksi tärkeimmistä elementeistä koko kehyksen. Se on moduuli, joka tehtävänä on tarjota luotettavaa, pysyvä ja hajautettu tallennusjärjestelmän useiden solmut, jotka ovat läsnä Hadoop klusterin.

Now, klusterin koostuu yleensä useista solmuista, jotka ovat liittyneet yhteen muodostaen yksi täydellinen tiedostojärjestelmä. Kaikki tiedot, jotka on tallennettu, on ensin jaettu useisiin pieniin palasiin tunnetaan lohkojen. Nämä lohkot ovat sitten jakeluun ja varastoidaan useiden solmut klusterin. Tämä on tapa, jolla Hadoop tiedostojärjestelmä on rakennettu ja se on tiettyjä etuja sekä.

Olkaamme vilkaista muita ominaisuuksia HDFS.

Skaalautuva

Läsnäolosta johtuen hajautetun tiedoston järjestelmäarkkitehtuurin, Hadoop n kartta ja vähentää toiminnot toimivat kuten tuulta. Nämä toiminnot voidaan helposti toteuttaa pieniä osajoukkoja alkuperäiset tiedot, mikä tarjoaa valtavan skaalautuvuuden. Tämä on myös lisäetu yrityksille, koska ne voivat vain lisätä palvelimia lineaarisesti, kun tietonsa näyttää kasvavan.

Joustava

Toinen erittäin edullinen näkökohta HDFS on sen erittäin joustava luonne suhteen tallentavien. Koska avoimen lähdekoodin, Hadoop voi helposti ajaa hyödyke laitteisto, mikä säästää kustannuksia valtavasti. Also, Hadoop tiedostojärjestelmä voi tallentaa mitä tahansa tietoja, onko se rakentuu, rakenteeton, alustettu tai jopa koodattu.

Hadoop jopa mahdollistaa erimuotoisia tietoja arvokkaiksi organisaation aikana päätöksenteossa, jotain, joka oli käytännöllisesti katsoen ennenkuulumatonta.

Luotettava

Hadoop tiedostojärjestelmä on vikasietoinen, mikä tarkoittaa, että tallennettu data HDFS kopioidaan vähintään kaksi muissa paikoissa. Thus, jos on romahduksen järjestelmän tai kaksi, on aina kolmannen järjestelmän, joka on kopio kaikki tiedot. Järjestelmä voi sitten jakaa työtaakka tähän sijaintiin ja kaikkea voi toimia normaalisti.

Tiedosto I / O

Tehokkuus tahansa tiedostojärjestelmän riippuu siitä, miten se suorittaa I / O-toimintaa. in HDFS, data lisätään luomalla uuden tiedoston ja kirjoittaa tiedot siellä. Tämän jälkeen, tiedosto on suljettu ja kirjallinen tietoja ei voi poistaa tai muunnettu enää. Mutta uusia tietoja voidaan liittää uudelleen avaamalla tiedosto. Joten perus perusta HDFS on "Single write ja useita luku-’ malli-.

Block sijoittelu

in HDFS, Tiedoston on yhdistelmä useiden lohkojen. Sillä lisätään uusi lohko, NameNode annetaan yksilöllinen lohko id ja lisätä sen tiedoston. Tämän jälkeen uusi lohko on myös monistaa useita DataNodes.

HDFS lohko sijoitus politiikka on konfiguroitavissa, joten käyttäjät voivat kokeilla erilaisia vaihtoehtoja saada optimoituja ratkaisuja. Oletuksena, HDFS lohko sijoitus politiikka pyrkii minimoimaan kirjoittaa kustannuksia ja maksimoida luku- suorituskyky, saatavuus ja luotettavuus. Toteuttaakseen tämän, kun uusi lohko lisätään tiedostoon, ensimmäinen replica asetetaan samalla solmulla, jossa kirjoittaja on läsnä. Tämän jälkeen, 2. ja 3. replica on sijoitettu kahteen eri solmuja erillisessä telineeseen. Nyt loput jäljennöksiä sijoitetaan satunnaisesti. Mutta rajoitus on, että, yksi solmu voi pitää enemmän kuin yksi kopio ja yksi teline voi pitää enintään kaksi jäljennöksiä.

Seuraavassa kuvassa esitetään tyypillinen tapaus replica harjoitteluun telineeseen ympäristössä (kuten kuvattu edellä osassa)

replica sijoittelu

Image2: Näyttää replica sijoitus kahden räkkiasennuksessa

Hadoop Common / Hadoop Core

Hadoop yhteinen koostuu yhteiset apuohjelmia tukea Hadoop arkkitehtuuri. Nämä ovat pohjimmiltaan perusta API auttaa muita kommunikoivat toistensa kanssa. Sitä pidetään myös tärkeänä osana Hadoop arkkitehtuuri kuten HDFS, MapReduce ja lankaa. Se tarjoaa abstraktio päälle taustalla ydin ominaisuuksia, kuten tiedostojärjestelmä, OS jne..

LANKA Infrastructure

LANKA, tai "Yet Another Resource Negotiator ", on moduuli Hadoop, joka vastaa hallinnassa laskentaresursseja. Sellaisenaan, se kohdentaa prosessorit tai muistin, perustuva tehtävä, joka on käsillä. Now, Lanka on pääosin koostuu kahdesta pääosasta - Resource Manager ja Solmun hallinnoijan.

Resource Manager

Resource Manager, jota kutsutaan myös nimellä master, on yksi läsnä klusterin ja on useita palveluja. Se pitää kirjaa jossa työntekijät sijaitsevat sekä tarkistaa Resource Scheduler, joka osoittaa resurssit.

Node Manager

Node Manager sattuu olemaan työntekijälle infrastruktuurin ja siellä voi olla monia niitä Hadoop klusterin. Jokainen näistä Solmun hallinnoijat tarjoavat resursseja klusteriin. Sen kapasiteetti resurssien mitataan muodossa muistia ja vcores (osuus ydintä). Resource Manager hyödyntää resursseja Node Manager, kun se tarvitsee suorittaa tehtävän.

Hadoop lanka on tiettyjä erittäin edullinen näkökohtia, jotka tekevät siitä tärkeä osa arkkitehtuuria. Nämä on kuvattu yksityiskohtaisesti.

Multi-vuokrasuhde

Yksi Hadoop LANGOISTA suurimmista eduista on, että se tukee dynaamista resurssienhallinta. Huolimatta jakaa resursseja samaan klusteriin, se pystyy käyttämään useita moottoreita ja työmäärän. And, kuten HDFS, Lanka on myös erittäin skaalautuva, joka tarjoaa massiivinen ajoitustoiminnot, ei väliä mitä työmäärä voi olla.

Kestävyys

Hadoop LANKA tarjoaa kestävyyttä, jonka avulla voit avata tietosi erilaisia työkaluja ja tekniikoita, joiden avulla saat parhaan pois tietojenkäsittely. Sen ekosysteemi on hyvin setup tarpeisiin eri kehittäjien ja myös järjestöjen pienen ja suuren mittakaavan.

In fact, Hadoop tällä hetkellä tulee useita tunnettuja projekteja kuten Hive, MapReduce, Zookeeper, HBase, HCatalog, ja paljon muuta. Also, koska markkinat Hadoop pitää laajentaa, uudempia työkaluja lisätään tähän laskea päivittäin.

Alla on tyypillinen YARN arkkitehtuuri kaavio.

LANKA Arkkitehtuuri kaavio

image3: LANKA Arkkitehtuuri kaavio

MapReduce Framework

MapReduce sanotaan olevan sydän Hadoop järjestelmän. On ohjelmatyöhön, joka mahdollistaa kirjoittamisen hakemusten rinnakkaisen suurten data-sarjaa saatavana useiden satojen tai tuhansien palvelimien Hadoop klusterin.

Perusajatuksena sen työskentely on kartoitus ja vähentää tehtävien. Kartta-toiminto vastaa suodatus ja lajittelu Tietojen, kun Vähennä toiminto suorittaa tiettyjä yhteenveto toimintaa. MapReduce liian saapuu osansa tärkeitä näkökohtia, jotka auttavat saavuttamaan tuotannon menestys, mitkä ovat

Joustavuus

MapReduce voi käsitellä tietoja kaikenlaisten, onko se rakentuu, puolistrukturoituja tai rakenteeton. Tämä on yksi tärkeimmistä seikoista, jotka tekevät siitä tärkeä osa koko Hadoop arkkitehtuuri.

Saavutettavuus

Laaja valikoima kieliä tukevat MapReduce, joka sallii kehittäjien työtä mukavasti. In fact, MapReduce tukee Java, Python ja C , ja myös korkean tason kielillä, kuten Apache Possu ja Hive.

Scalability

Koska olennainen osa Hadoop arkkitehtuuri, MapReduce on täydellisesti suunniteltu siten, että se vastaa massiivinen skaalautuvuuden tasojen tarjoamia HDFS. Tämä takaa rajoittamattoman tietojenkäsittely, kaikki saman täydellisen alustan.

Miten Hadoop komponenttien varmistaa tuotannon menestys?

Tuotantoympäristössä, skaalautuvuus on yksi tärkeimmistä kriteerit yritysten menestys. Koska, jos hakemus ei voi skaalata (joka toimii HDFS) ruuhka-aikoina, niin se ei voi tukea yhä useammat asiakkaat. Tämän seurauksena liiketoiminnan menettää rahaa. So, arkkitehtonisten kannalta on erittäin tärkeää saada skaalautuva varastointi ja käsittely kyvykkyys, joka Hadoop voi tarjota sen hajautettu tiedostojärjestelmä (HDFS).

Toinen HDFS ominaisuuksia, kuten joustavuutta tukemalla kaikenlaisia tietoja; luotettavuus (vikasietoinen) kun kyseessä on järjestelmä romahtaa myös lisäarvoa tuotantoympäristössä. Tiedoston I / O ja lohko sijoittaminen on myös tärkeää, sillä se tukee tietohallinnon erittäin tehokkaasti klusteroidussa ympäristössä. Voimme siis päätellä, että tuotannon onnistumisen Hadoop sovelluksen aikuinen riippuu HDFS arkkitehtuuri itse.

Tyypillisessä klusterin 4000 nodes, meillä voi olla noin 65 miljoonaa tiedostoja ja 80 miljoonaa lohkot. Jokainen lohko on ottaa 3 jäljennöksiä, joten jokainen solmu on 60,000 lohkot. Tämä on tyypillinen tapaus Yahoo tiedonhallinnan. Joten se antaa hinta käsitys siitä klusteroitu ympäristö ja tallennus.

Lanka arkkitehtuuri tarjoaa tehokkaan resurssienhallinnan joka on esittelee vuonna Hadoop 2.0 architecture. Se takaa moitteettoman resurssien hallinta tuotantoympäristössä.

Lisäksi komponentit, MapReduce ohjelmoinnin ansiosta rinnakkain tietojen käsittelyyn hajautetussa ympäristössä. Joten nopeampi käsittely saavutetaan tuotantojärjestelmän tukemiseen reaalimaailman vaatimuksia.

Johtopäätös

On tunnettua, että Big Data on asetettu hallita tulevia kertaa tietojenkäsittely, ja Hadoop ekosysteemin se on kukoistava tällä hetkellä, odotetaan myös olevan edelläkävijä toimialueen. Lähes kaikki data-pohjaiset työkalut tekevät tiensä kanssa Hadoop, jotta voidaan torjua haasteita odotetaan kohtaamaan lähitulevaisuudessa. Hadoop arkkitehtuuri on rakennettu hallitsemaan näitä valtavia määriä dataa hajautetussa ympäristössä. Jokainen komponentti Hadoop alusta on tehty käsittelemään tietyntyyppisiä toiminnallisuudet. So, kokonaisuutena se varmistaa tuotannon onnistumisen kannalta bigdata sovelluksen. Mutta meidän on myös muistettava, että siihen liittyvä bigdata teknologiat myös tärkeä rooli sovellusten käyttöönotto ja sen menestys tosielämässä tilanteissa.

Share on Facebook

Save

Tagged on: Hadoop Architecture

TechAlpine – All About Technology

www.techalpine.com

Mikä merkitys Hadoop Architecture in Production Success?

Enjoy this blog? Please spread the word :)