Hadoop keskeisiä termejä, yksinkertaistettu

Yleiskatsaus:

Nykyisessä tekniikan maisemaa, iso tiedot ja analyysit ovat kaksi tärkeintä alueilla, joilla ihmiset ovat paljon kiinnostusta. Ilmeinen syy tähän veto on – yritykset saavat liiketoimintaa hyödyn näiden suurten tietojen ja BI-sovelluksia. Hadoop on nyt tullut valtavirtaa tekniikka, joten sen kattavuus ja keskustelua on myös leviää tech media. Mutta, mitä olemme havainneet on – ihmiset silti vaikea ymmärtää todellisen käsitteitä, ja usein tehdä joitakin hämärä käsitys Hadoop ja muut siihen liittyvät teknologiat.

In this article, Meidän rehellinen vaivaa on selittää Hadoop keskeiset termit hyvin yksinkertaisella tavalla, jotta teknisten ja ei-teknisten yleisö voi ymmärtää sitä.

Hadoop ekosysteemin - Mitä se tarkalleen keinoin?

Hadoop on hyvin voimakas avoimen lähdekoodin alusta hallinnoi Apache Foundation. Hadoop-alusta on rakennettu Java-teknologiaa ja kykenevät käsittelemään valtava määrä heterogeenisen datan hajautetussa klusteroitu ympäristö. Sen skaalaus ominaisuus tekee siitä täydellisen istuvuuden hajautetun laskennan.

Hadoop ekosysteemi koostuu Hadoop ydinosat ja muita siihen liittyviä välineitä. Vuonna ydinosat, Hadoop Distributed File System (HDFS) ja MapReduce ohjelmointimalli ovat kaksi tärkeintä käsitteitä. Niistä liittyviä välineitä, Hive SQL, Sika dataflow, Zookeeper hallintaan palvelut jne ovat tärkeitä. Selitämme näitä termejä tiedot.

Hadoop ekosysteemin

Image1: Hadoop ekosysteemin

Miksi sinun täytyy tietää keskeiset ehdot?

Olemme jo keskustelleet, että Hadoop on erittäin suosittu aihe nykyään, ja kaikki puhuvat siitä, tietoisesti tai tietämättään. Joten ongelma on- jos keskustelevat jotain tai kuunnella jotain, mutta ei tiennyt, mitä se tarkalleen keinoin, niin et voi yhdistää pisteitä tai sulattaa sitä. Ongelma on enemmän näkyvissä, kun ihmiset ovat peräisin eri domain, kuten liikemiehet, markkinointi kaverit, ylin johto etc. Koska nämä ihmiset eivät tarvitse tietää "Miten Hadoop toimii?‘, pikemminkin ne ovat enemmän kiinnostuneita tietämään "miten se voi tuoda liike hyötyä ". Tarkoituksensa toteuttamiseksi liiketoiminnan hyöty, hieman ymmärrystä Hadoop ehdot ovat erittäin tärkeitä kaikkien kerrosten. Mutta samaan aikaan, termit olisi selitettävä yksinkertaisella tavalla ilman monimutkaisia jargons, jolloin lukijat mukava.

Oletetaan ymmärtää keskeiset ehdot

Tässä osiossa tulemme tutkimaan erilaisia termejä Hadoop ja sen ekosysteemiin, joidenkin selitys. Selvyyden vuoksi ymmärtämisessä, teemme kahteen pääryhmään, yksi on perusmoduulin ja toinen on ylimääräisiä ohjelmistopaketteja ja työkalut joka voidaan asentaa erikseen tai päälle Hadoop. Hadoop tarkoitetaan kaikkia näistä yksiköistä.

First, Olkaamme vilkaista ehtoja, jotka voivat kuulua perusmoduulin.

Apache Hadoop: Apache Hadoop on avoimen lähdekoodin puitteet käsittely suuria tietomääriä klusteroidussa ympäristössä. Se käyttää yksinkertaista MapReduce ohjelmointimalli luotettava, skaalautuva ja hajautetun laskennan. Varastointi ja laskenta sekä jaetaan näissä puitteissa.

Hadoop yhteinen: Kuten nimestä voi päätellä, se sisältää yhteisiä apuohjelmia tukemaan erilaisia Hadoop moduuleista. Se on pohjimmiltaan kirjasto yhteisten välineiden ja apuohjelmia. Hadoop yhteinen käytetään pääasiassa kehittäjien aikana sovelluskehitys.

HDFS: HDFS (Hadoop Distributed File System) on hajautettu tiedostojärjestelmä se ulottuu poikki hyödyke laitteisto. Se skaalautuu hyvin nopeasti ja tarjoaa korkean kapasiteetin. Datalohkot replikoidaan ja tallennetaan hajautetulla tavalla klusteroidussa ympäristössä.

MapReduce: MapReduce on ohjelmointimalli rinnakkaisen käsittelyn suuria tietomääriä hajautetussa ympäristössä. MapReduce ohjelmassa on kaksi pääosaa, yksi on Map () menetelmä, joka suorittaa suodatus ja lajittelu. Toinen on vähentää () osa, suunniteltu suorittamaan yhteenveto lähdön Map osasta.

Yet Another Resource neuvottelija (LANKA): Se on pohjimmiltaan resurssipäällikkö saatavilla Hadoop 2. Rooli lanka on hallita ja ajoittaa tietokoneen resursseja klusteroidussa ympäristössä.

Now, olkaamme tarkistaa muut asiaan liittyvät ehdot Hadoop

HBase: HBase on avoimen lähdekoodin, skaalautuva, hajautettujen ja ei-relaatiotietokannan. Se on kirjoitettu Java ja perustuvat Googlen Big Table. Taustalla varastointi tiedostojärjestelmä on HDFS.
Hive: Hive on tietovarasto ohjelmistojen, joka tukee lukeminen, kirjallisesti ja hallita suuri määrä tallennetun datan hajautetussa tallennusjärjestelmän. Se tarjoaa SQL kuin kyselyn kielen tunnetaan HiveQL (HQL), istä aineisto. Hive tukee varastointi HDFS ja muiden yhteensopivien tiedostojärjestelmien kuten Amazon S3 jne.

Apache Pig: Sika on korkean tason perustan suurten tietomäärien set analyysi. Kieli kirjoittaa Pig skriptejä kutsutaan kontinkieli. Pohjimmiltaan abstracts taustalla MapReduce ohjelmia ja helpottaa kehittäjien työtä MapReduce mallin kirjoittamatta varsinaista koodia.

Apache Spark: Spark (avoin lähdekoodi) on klusterin computing puitteet ja yleinen laskea moottori Hadoop data (laajamittaisesti data-set). Se toimii melkein 100 kertaa nopeampi verrattuna MapReduce muistiin. And, levynä, se on lähes 10 kertaa nopeammin. Kipinä voi ajaa eri ympäristöihin / tila kuin stand-alone, on Hadoop, on EC2 etc. Se voi käyttää tietoja HDFS, HBase, Pesää tai muita Hadoop tietolähteen.

Sqoop: Sqoop on komentorivi työkalu siirtää tietoja RDBMS ja Hadoop tietokantoja. Sitä käytetään pääasiassa tuonti / vienti dataa relaatio ja ei-relaatiotietokannat. The name "Sqoop’ muodostetaan yhdistämällä alkuperäisen ja viimeinen osa kahden muun termejä "sql+olioop ".

Oozie: Oozie on pohjimmiltaan Hadoop työnkulku moottori. Se aikataulut toimivat virtojen hallintaan Hadoop työpaikkoja.

Zookeeper: Apache zookeeper on avoimen lähdekoodin alusta, joka tarjoaa korkean suorituskyvyn koordinointi palvelun Hadoop hajautettuja sovelluksia. Se on keskitetty palvelu ylläpitämiseksi kokoonpanotiedot, nimeäminen rekisterin, jaettu synkronointi ja konsernipalvelut.

Flume: Apache Flume on jaettu palvelu, käytetään pääasiassa tiedonkeruuseen, yhdistäminen ja liike. Se toimii erittäin tehokkaasti suuri määrä loki ja tapahtumatietoja.

Värisävy: Hue on pohjimmiltaan web-käyttöliittymä analysointiin Hadoop data. Se on avoimen lähdekoodin projekti, tukee Hadoop ja sen ekosysteemiin. Sen pääasiallinen tarkoitus on tarjota paremman käyttökokemuksen. Se tarjoaa vedä ja pudota tilat ja editorit Spark, Hive ja HBase jne.

mahout: Mahut on avoimen lähdekoodin ohjelmisto rakentaa skaalautuva koneoppimisen ja tiedon louhinta sovelluksia nopeasti.

Ambari: Ambari on pohjimmiltaan verkkopohjainen työkalu seurantaan ja hallintaan Hadoop klustereita. Se sisältää tuen ekosysteemipalveluja ja työkaluja kuten HDFS, MapReduce, HBase, Zookeeper, Sika, Sqoop jne. Sen kolme päätoiminnot ovat varausten, hallinnoinnin ja seurannan Hadoop klustereita.

Kuten Hadoop ekosysteemin kehittyy jatkuvasti, uusi ohjelmisto, palveluita ja työkaluja myös kehittymässä. Tuloksena, tulee uusia termejä ja jargons isossa data maailma. Meidän täytyy pitää tiiviisti ja ymmärtää niitä ajoissa.

Johtopäätös

Tässä artikkelissa olemme yrittäneet tunnistaa keskeisimmät termit Hadoop ekosysteemin. Olemme myös keskustelleet hieman siitä ekosysteemin ja miksi meidän täytyy tietää ehtojen. Hadoop on nyt tullut valtavirtaa tekniikka, joten ihmiset saavat enemmän mukana siihen. So, se on oikea aika ymmärtää joitakin peruskäsitteitä ja termit Hadoop maailmassa. Tulevaisuudessa, siellä tulee paljon uusia konsepteja ja ehtoihin, ja meidän on päivitettävä itse vastaavasti.

Share on Facebook

Save

Tagged on: Big Data, Hadoop

TechAlpine – All About Technology

www.techalpine.com

Hadoop keskeisiä termejä, yksinkertaistettu

Enjoy this blog? Please spread the word :)