Hadoop kernaj terminoj, Simpligita

Superrigardo:

En la nuna teknologia pejzaĝo, granda datumo kaj analytics estas la du plej gravaj areoj kie homoj estas prenantaj multon de intereso. La evidenta kialo malantaŭ ĉi tiu tirado estas – Entreprenoj estas akirantaj komercan utilon ekstere de ĉi tiu granda datumo kaj BIaj aplikoj. Hadoop estas nun fariĝi ĉefa rivereta teknologio, Do ĝia priraportado kaj diskuto estas ankaŭ disvastiganta pretere tech amaskomunikilaro. Sed, Kio ni observis estas – Homoj ankoraŭ trovas ĝin malfacila kompreni la realajn konceptojn, Kaj ofte fari iun neklaran ideon pri Hadoop kaj aliaj rilataj teknologioj.

En ĉi tiu artikolo, Nia honesta peno estas klarigi la Hadoop kernaj terminoj en tre simpla vojo, Por ke teknika kaj ne-teknika spektantaro povas kompreni ĝin.

Hadoop eco-sistemo – Kio ĝi ĝuste signifas?

Hadoop estas tre potenca turnira fonto platformo administrita de Apache Fundamento. Hadoop platformo estas konstruita sur Java teknologioj kaj kapabla pretigi grandegan volumon de heterogena datumo en distribuita clustered medio. Ĝia grimpanta kapablon faras ĝin perfekta kapabla por distribuita komputikon.

Hadoop eco-sistemo konsistas de Hadoop kernaj eroj kaj aliaj rilataj iloj. En la kernaj eroj, Hadoop Distribuita Dosieran Sistemon (HDFS) Kaj la MapReduce programara modelo estas la du plej gravaj konceptoj. Inter la rilataj iloj, Hive por SQL, Porko por dataflow, Zookeeper por administranta servojn ktp. estas grava. Ni klarigos ĉi tiujn terminojn en detaloj.

Hadoop ecosystem

Hadoop ekosistemo

Image1: Hadoop eco-sistemo

Kial vi devas scii la kernajn terminojn?

Ni jam diskutis ke Hadoop estas tre populara temo nuntempe, Kaj ĉiu estas parolanta pri ĝi, Intence aŭ senkonscie. Do la problemo estas- Se vi estas diskutanta ion aŭ aŭskultanta al io, Sed ne konscia kio ĝi ĝuste signifas, Tiam vi ne estos kapabla konekti la punktojn aŭ digesti ĝin. La problemo estas pli videbla kiam la homoj estas de malsama domajno, Ŝatas komercajn homojn, Merkatumanta ulojn, Pinta administrado ktp. Ĉar ĉi tiuj homoj ne devas scii ‘Kiom Hadoop laboroj?‘, prefere ili estas pli interesita scii ‘Kiel ĝi povas alporti komercan utilon'. Konscii la komercan utilon, Iomete kompreni de Hadoop terminoj estas tre gravaj trans ĉiuj tavoloj. Sed samtempe, La terminoj devus esti klarigita en simpla vojo sen kompleksa jargons, Faranta la legantojn komforta.

Lasita-a kompreni la kernajn terminojn

En ĉi tiu sekcio ni esploros malsamajn terminojn en Hadoop kaj ĝia eco-sistemo, Kun iu klarigo. Por klareco en kompreno, Ni faros du larĝajn kategoriojn, Unu estas la Baza kapsulo Kaj la alia unu estas la suplementaj softvaraj pakoj kaj iloj Kiu povas esti instalita aparte aŭ supre de Hadoop. Hadoop plu-gvidas al ĉiuj ĉi tiuj entoj.

Unue, Lasi nin havas rigardi la terminojn kiu venas sub baza kapsulo.

  • Apache Hadoop: Apache Hadoop Estas malferma-fonta kadro por pretiganta grandan volumon de datumo en clustered medio. Ĝi uzas simplan MapReduce programara modelo por fidinda, Scalable kaj distribuita komputikon. la tenado kaj komputado ambaŭ estas distribuita en ĉi tiu kadro.
  • Hadoop ofta: Kiel la nomo sugestas, Ĝi enhavas oftajn ilojn subteni malsaman Hadoop kapsuloj. Ĝi estas resume biblioteko de oftaj iloj kaj iloj. Hadoop ofta estas plejparte uzita de ellaborantoj dum aplika evoluado.
  • HDFS: HDFS (Hadoop Distribuita Dosieran Sistemon) Estas distribuita dosieran sistemon daŭroj trans komercaĵa ladaĵejo. Ĝi grimpas tre rapidan kaj provizas altan throughput. Datumaj blokoj estas reproduktita kaj entenita en distribuita vojon sur clustered medio.
  • MapReduce: MapReduce estas programara modelo por paralela pretigo de granda volumo de datumo en distribuita medion. MapReduce programo havas du ĉefajn erojn, Unu estas la Mapo () Metodo, Kiu elfaras filtranta kaj ordiganta. La alia unu estas la Redukti () Parto, Desegnita elfari resuman de la produktado de la Mapa parto.
  • Sed tamen Alia Rimeda Intertraktanto (ŜPINITAĴO): Ĝi estas resume rimeda manaĝero havebla en Hadoop 2. La rolo de ŜPINITAĴO estas administri kaj horaro komputanta rimedojn en clustered medio.

Nun, Lasi nin kontroli la aliaj rilataj terminoj en Hadoop

  • HBase: HBase estas malferma fonto, Scalable, Distribuita kaj ne-interrilata datumaro. Ĝi estas skribita en Java kaj bazita sur Google’s Granda Tablo. La fundamenta tenada dosiera sistemo estas HDFS.
  • Hive: Hive estas datuma staplo softvaro, Kiu subtenas leganta, Skribanta kaj administranta grandan volumon de datumo entenita en distribuita tenadan sistemon. Ĝi provizas SQL kiel demanda lingvo sciita kiel HiveQL (HQL), Por pridemandanta la dataset. Hive subtena tenado en HDFS kaj aliaj kongruaj dosieraj sistemoj kiel Amazono S3 ktp.
  • Apache Porko: Porko estas alta nivela platformo por granda datuma aro analizo. La lingvo skribi Porkajn skribojn estas konata kiel Porka latino. Ĝi resume abstraktas la fundamentan MapReduce programoj kaj faras ĝin pli facila por ellaborantoj labori sur MapReduce modelo sen skribanta la realan kodon.
  • Apache Fajrero: Fajrero (Malferma fonto) Estas grapolo komputanta kadron kaj ĝenerala komputi motoron por Hadoop datumo (Granda skala datumo-aro). Ĝi elfaras preskaŭ 100 Oble pli rapida komparita al MapReduce en memoro. Kaj, Por disko, Ĝi estas preskaŭ 10 Oble pli rapida. Fajrero povas kuri sur malsama media/maniero kiel starejo-sola maniero, Sur Hadoop, Sur EC2 ktp. Ĝi povas aliri datumon de HDFS, HBase, Hive aŭ iu ajn alia Hadoop datuma fonto.
  • Sqoop: Sqoop estas komanda linia ilo translokigi datumon inter RDBMS kaj Hadoop datumaj bazoj. Ĝi estas plejparte uzita por importaĵa/eksportaĵo datumo inter interrilata kaj ne-interrilataj datumaroj. La nomo ‘Sqoop’ Estas formita de kombinanta la komencan kaj lastan parton de du aliaj terminoj ‘SqL+HavisOop'.
  • Oozie: Oozie estas resume Hadoop labora fluo motoro. Ĝi enhorarigas laborajn fluojn administri Hadoop laborpostenoj.
  • ZooKeeper: Apache ZooKeeper estas malferma fonta platformo, Kiu provizas altan elfaran kunordigon servo por Hadoop distribuita aplikojn. Ĝi estas centralizita servo por daŭriganta konfiguracian informon, Nomanta registry, Distribuita samtempigon kaj grupaj servoj.
  • Flume: Apache Flume estas distribuita servon, plejparte uzita por datuma kolekto, agrego kaj movado. Ĝi laboras tre efike kun granda kvanto de ŝtipo kaj eventa datumo.
  • Hue: Hue estas resume araneaĵa fasado por analizanta Hadoop datumo. Ĝi estas malferma fonta projekto, Subtenoj Hadoop kaj ĝia eco-sistemo. Ĝia ĉefa celo estas provizi pli bonan uzantan sperton. Ĝi provizas kaleŝon kaj falaj servoj kaj redaktoroj por Fajrero, Hive kaj HBase ktp.
  • Mahout: Mahut estas malferma fonta softvaro por konstruanta scalable maŝina lernado kaj datumo minindustriaj aplikoj rapide.
  • Ambari: Ambari estas resume araneaĵo bazita ilon por monitoranta kaj administranta Hadoop grapoloj. Ĝi inkluzivas subtenon por eco-sistemaj servoj kaj iloj kiel HDFS, MapReduce, HBase, ZooKeeper, Porko, Sqoop ktp. Ĝia tri ĉefaj funkcioj estas proviantantaj, Administranta kaj monitoranta Hadoop grapoloj.

Kiel Hadoop eco-sistemo estas kontinue evoluanta, Nova softvaro, servoj kaj iloj estas ankaŭ aperanta. Rezulte, Tie estos novaj terminoj kaj jargons en la granda datuma mondo. Ni devas teni proksiman gvaton kaj kompreni tiujn en tempo.

Konkludo

En ĉi tiu artikolo ni provis identigi la plej gravaj kernaj terminoj en la Hadoop eco-sistemo. Ni ankaŭ diskutis iomete pri la eco-sistemo kaj kial ni devas scii la terminojn. Hadoop estas nun fariĝi ĉefa rivereta teknologio, Tiel homoj estas akirantaj pli okupita en ĝi. Tiel, Ĝi estas la ĝusta tempo kompreni kelkajn bazajn konceptojn kaj terminojn uzita en la Hadoop mondo. En estonteco, Tie volas multajn novajn konceptojn kaj terminojn havebla, Kaj ni devas ĝisdatigi nin mem sekve.

Etikedita sur: ,
============================================= ============================================== Buy best TechAlpine Books on Amazon
============================================== ---------------------------------------------------------------- electrician ct chestnutelectric
error

Enjoy this blog? Please spread the word :)

Follow by Email
LinkedIn
LinkedIn
Share