Hadoop sleutelterme, tradisioneel

Oorsig:

In die huidige tegnologie landskap, groot data en analise is die twee belangrikste gebiede waar mense neem groot belangstelling. Die voor die hand liggende rede hiervoor vastrap is – ondernemings kry besigheid voordeel uit hierdie groot data en BI aansoeke. Hadoop is nou 'n hoofstroom tegnologie, sodat sy dekking en bespreking is ook versprei buite tegnologie media. maar, wat ons waargeneem is – mense vind dit steeds moeilik om die werklike konsepte verstaan, en dikwels maak 'n paar vae idee oor Hadoop en ander verwante tegnologieë.

In this article, ons eerlike poging is om die Hadoop sleutelterme in 'n baie eenvoudige manier verduidelik, sodat tegniese en nie-tegniese gehoor kan dit verstaan.

Hadoop eko-stelsel - Wat dit presies beteken?

Hadoop is 'n baie kragtige open source platform beheer deur Apache Foundation. Hadoop platform is gebou op Java tegnologie en in staat is om die verwerking van groot volume van heterogene data in 'n verspreide gegroepeer omgewing. Die skaal vermoë maak dit 'n perfekte pas vir versprei rekenaar.

Hadoop eko-stelsel bestaan uit Hadoop kernkomponente en ander verwante gereedskap. In die kern komponente, Hadoop Distributed File System (HDFS) en die MapReduce ontwikkeling model is die twee belangrikste begrippe. Onder die gepaardgaande gereedskap, Korf vir SQL, Vark vir datastroom, Zookeeper vir die bestuur van dienste, ens is belangrik. Ons sal hierdie terme in besonderhede te verduidelik.

Hadoop ekosisteem

Image1: Hadoop eko-stelsel

Hoekom moet jy die sleutelterme ken?

Ons het reeds bespreek dat Hadoop is 'n baie gewilde onderwerp deesdae, en almal praat daaroor, wetend of onwetend. So die probleem is- As jy iets bespreek of luister na iets, maar nie bewus wat dit presies beteken, dan sal jy nie in staat wees om die punte te verbind of verteer dit. Die probleem is meer sigbaar wanneer die mense van 'n ander domein, soos sakelui, bemarking ouens, topbestuur ens. Omdat hierdie mense nie nodig het om te weet "Hoe Hadoop werk?‘, eerder hulle is meer geïnteresseerd om te weet 'hoe dit sake voordeel kan bring '. Om die besigheid voordeel te realiseer, 'n bietjie van begrip van Hadoop terme is baie belangrik vir alle lae. Maar op dieselfde tyd, die terme moet verduidelik word in eenvoudige manier sonder komplekse jargons, maak die lesers gemaklik.

Ons verstaan die sleutelterme

In hierdie afdeling sal ons verskillende terme in Hadoop en sy eko-stelsel te verken, met 'n verduideliking. Vir duidelikheid in begrip, Ons sal twee breë kategorieë te maak, een is die basismodule en die ander een is die addisionele sagteware pakkette en gereedskap wat afsonderlik of bo-op Hadoop kan geïnstalleer. Hadoop verwys na al hierdie entiteite.

First, Laat ons 'n blik op die terme wat val onder basismodule.

Apache Hadoop: Apache Hadoop is 'n oop-bron raamwerk vir die verwerking van 'n groot volume van data in 'n cluster omgewing. Dit maak gebruik van eenvoudige MapReduce ontwikkeling model vir 'n betroubare, skaalbare en versprei rekenaar. Die stoor en berekening beide versprei in hierdie raamwerk.

Hadoop algemene: Soos die naam aandui, Dit bevat algemene nuts verskillende Hadoop modules ondersteun. Dit is basies 'n biblioteek van gemeenskaplike gereedskap en utilities. Hadoop algemene word hoofsaaklik deur ontwikkelaars tydens toediening ontwikkeling.

HDFS: HDFS (Hadoop Distributed File System) is 'n verspreide lêer stelsel strek oor kommoditeit hardeware. Dit skale baie vinnig en bied 'n hoë deurset. Data blokke herhaal en gestoor in 'n verspreide wyse op 'n cluster omgewing.

MapReduce: MapReduce is 'n programmeertaal model vir parallelle verwerking van groot volume van data in 'n verspreide omgewing. MapReduce program bestaan uit twee hoofkomponente, een is die Kaart () metode, wat filter en sorteer voer. Die ander een is die Verminder () deel, ontwerp om n opsomming van die uitset te voer vanaf die kaart deel.

Nog 'n Onderhandelaar Resource (Yarn): Dit is basies 'n hulpbron bestuurder beskikbaar in Hadoop 2. Die rol van die draad is om te bestuur en te skeduleer berekening hulpbronne in 'n cluster omgewing.

Now, Laat ons kyk die ander verwante terme in Hadoop

HBase: HBase is 'n oop bron, skaalbare, versprei en nie-relasionele databasis. Dit is geskryf in Java en wat gebaseer is op Google se groot tafel. Die onderliggende stoor lêer stelsel is HDFS.
Hive: Miernes is datapakhuis sagteware, wat ondersteun lees, skryf en die bestuur van 'n groot volume van data wat gestoor word in 'n verspreide stoor stelsel. Dit bied SQL navraag taal bekend as HiveQL (HQL), vir die gebruik daarvan die dataset. Korf ondersteun stoor in HDFS en ander versoenbaar lêerstelsels soos Amazon S3 ens.

Apache Pig: Vark is 'n hoë vlak platform vir groot datastel ontleding. Die taal Vark skrifte skryf, staan bekend as Vark Latynse. Dit abstraheer basies die onderliggende MapReduce programme en maak dit makliker vir ontwikkelaars om te werk aan MapReduce model sonder die skryf van die werklike kode.

Apache Spark: Spark (oop bron) is 'n groep rekenaar raamwerk en algemene bereken enjin vir Hadoop data (grootskaalse data-stel). Dit voer byna 100 keer vinniger in vergelyking met MapReduce ter nagedagtenis. And, vir skyf, dit is amper 10 keer vinniger. Spark kan hardloop op verskillende omgewings / af soos losstaande modus, op Hadoop, op EC2 ens. Dit kan toegang tot data van HDFS, HBase, Korf of enige ander Hadoop databron.

Sqoop: Sqoop is 'n command line instrument om data tussen RDBMS en Hadoop databasisse dra. Dit word hoofsaaklik gebruik vir die invoer / uitvoer van data tussen relasionele en nie-relasionele databasisse. The name 'Sqoop’ word gevorm deur die kombinasie van die oorspronklike en laaste deel van twee ander terme 'vkl+moesOOP '.

Oozie: Oozie is basies 'n Hadoop werk vloei enjin. Dit skedules werk vloei te werk Hadoop bestuur.

Zookeeper: Apache Zookeeper is 'n oop bron platform, wat bied 'n hoë prestasie koördinering diens vir Hadoop verspreide toepassings. Dit is 'n gesentraliseerde diens vir die handhawing van opset inligting, benaming register, versprei sinchronisasie en groep dienste.

flume: Apache Flume is 'n verspreide diens, hoofsaaklik gebruik vir data-insameling, samevoeging en beweging. Dit werk baie doeltreffend met 'n groot hoeveelheid van die log en gebeurtenis data.

Hue: Hue is basies 'n web koppelvlak vir die ontleding van Hadoop data. Dit is open source projek, ondersteun Hadoop en sy eko-stelsel. Die hoofdoel is om 'n beter gebruikers ervaring te bied. Dit bied sleep en fasiliteite en redakteurs vir Spark, Korf en HBase ens.

olifanten drijver: Mahut is open source sagteware vir die bou van skaalbare masjienleer en data-ontginning aansoeke vinnig.

Ambari: Ambari is basies 'n web-gebaseerde instrument vir die monitering en bestuur van Hadoop trosse. Dit sluit ondersteuning vir eko-stelsel dienste en gereedskap soos HDFS, MapReduce, HBase, Zookeeper, vark, Sqoop ens. Die drie hoof funksies is voorsiening, bestuur en monitering van Hadoop trosse.

Soos Hadoop eko-stelsel is voortdurend veranderende, nuwe sagteware, dienste en gereedskap is ook opkomende. As a result, sal daar nuwe terme en jargons in die groot data wêreld. Ons moet 'n wakende oog te hou en te verstaan wat in die tyd.

Gevolgtrekking

In hierdie artikel het ons probeer om die belangrikste sleutelterme in die Hadoop eko-stelsel te identifiseer. Ons het ook gepraat oor 'n bietjie oor die eko-sisteem en hoekom ons nodig het om die terme ken. Hadoop is nou 'n hoofstroom tegnologie, sodat mense kry meer betrokke in dit. So, Dit is die regte tyd om 'n paar basiese konsepte en terme wat gebruik word in die Hadoop wêreld te verstaan. In die toekoms, Daar sal 'n baie nuwe konsepte en terme beskikbaar, en ons moet onsself daarvolgens te werk.

Share on Facebook

Save

Tagged on: Big Data, Hadoop

TechAlpine – All About Technology

www.techalpine.com

Hadoop sleutelterme, tradisioneel

Enjoy this blog? Please spread the word :)