NoSQL integreer met Hadoop

Apache Hadoop is an open source big data processing platform. It has its own eco-system products to support various needs. Verskillende groot data produkte / platforms kan Hadoop en NoSQL in een platform integreer sodat dit 'n beter prestasie en 'n enkele bron van die waarheid. Laat ons 'n blik op hoe NoSQL en Hadoop kan saamwerk vir die groot uitdagings data.

Iewers mense dikwels deurmekaar dat Hadoop is 'n databasis as dit het 'n stoor stelsel geassosieer. Maar laat ons duidelik verstaan dat Apache Hadoop is glad nie 'n databasis.

Apache Hadoop is 'n oop bron groot data platform bestaan uit die volgende hoofkomponente.

HDFS: 'N lêer stelsel bekend as Hadoop Distributed Fmet System (HDFS)
MapReduce: A verspreide programmering raamwerk bekend as MapReduce
Hadoop Common: Dit bevat die biblioteke en utilities om geassosieer Hadoop modules ondersteun.
Hadoop garen: Dit word genoem "Tog Nog Resource Negotiator '. Dit is basies die hulpbronbestuur platform vir die bestuur van die rekenaar hulpbronne en skedulering take.

Hadoop het ook ander gasheer van sagteware pakkette aan die eko-stelsel komponente ondersteun. Die raamwerk ondersteun die verwerking van data intensiewe verspreide toepassings. Dit stel aansoeke om te werk in 'n verspreide omgewing bestaan uit duisende nodes en petabytes van data. Die nodes is onafhanklik rekenaars, ook bekend as 'n lae koste kommoditeit hardeware. Hadoop cluster beteken 'n groep van computational eenhede (basies masjiene) hardloop in 'n algemene omgewing met Hadoop versprei lêer stelsel (HDFS) om skalering ondersteun.

Die basiese ontwerp doel Hadoop was om die hardeware mislukking te oorkom. Omdat hardeware foute is baie algemeen en die raamwerk moet in staat wees om dit te bowe te kom outomaties. Die Hadoop eko-stelsel bereik hierdie doel deur al die modules.

Die belangrikste kenmerke van Hadoop platform is 'n verspreide stoor en 'n verspreide verwerking raamwerk. Die versprei stoor (HDFS) split groot lêers in klein blokke (standaard is 64) en versprei dit oor die cluster nodes. Die verspreide verwerking raamwerk ook bekend as 'MapReduce’ ondersteun baie doeltreffende parallelle verwerking. Die belangrikste kenmerk van MapReduce is dat, dit skepe die kode (wat sal die verwerking) om die knoop waar die data woon. Dit is ook genoem 'data ligging', waar die data bly in sy oorspronklike ligging en die kode kom om dit vir die doen van die verwerking. Dit is inderdaad 'n rewolusie in parallelle verwerking domein.

Die belangrikste komponente van Hadoop (HDFS en MapReduce) is afgelei van Google se File System (GFS) en Google se MapReduce. Afgesien van die bogenoemde komponente, Hadoop bestaan uit 'n aantal verwante projekte soos Apache Hive, Apache HBase, en Apache Vark ens.

On the other hand, NoSQL (geïnterpreteer word as "Nie net SQL ') is 'n nie-relasionele databasis management system. Dit is geïdentifiseer deur die nie-nakoming van die relasionele databasismodel. NoSQL databasisse is nie primêr gebaseer op tafels.

NoSQL databasis tegnologie bied doeltreffende meganisme vir die stoor en herwinning van data, maar dit is nie dieselfde as relasionele model. Die belangrikste ontwerp doelwitte van NoSQL databasisse eenvoudige ontwerp, horisontale skaal en beter beskikbaarheid. Die naam interpreteer as "Nie net SQL ', sodat dit ondersteun sommige SQL soos navraag tale soos HQL ens. NoSQL databasisse word meestal gebruik in 'n groot data en analitiese aansoeke.

So, In kort kan ons Hadoop en NoSQL soos volg definieer

Hadoop: Versprei rekenaar raamwerk.
NoSQL: Nie-relasionele databasis.

Hoe Hadoop en NoSQL kan saamwerk?

Uit die bogenoemde bespreking, dit is duidelik dat Hadoop en NoSQL is nie dieselfde ding nie, maar hulle is albei verwant aan data intensiewe berekening. Hadoop raamwerk is hoofsaaklik gebruik word vir die verwerking van groot hoeveelheid van die data (ook bekend as 'n groot data) en NoSQL is ontwerp vir doeltreffende stoor en herwinning van die groot volume van data. So is daar altyd 'n kans om NoSQL het as 'n deel van Hadoop implementering. In die meeste van die gevalle, die verwerkte data van Hadoop stelsel gestoor word in 'n databasis NoSQL. Maar hulle kan altyd onafhanklik gebruik gevalle wat nie 'n ondersteuning van beide die platforms nodig het. For example, as ons net die parallelle verwerking van die groot data en om dit te stoor in HDFS nodig, dan mag wees Hadoop alleen is voldoende. Similarly, net vir die stoor en herwinning van data ongestruktureerde, enige NoSQL databasis en sy verwante navraag taal kan voldoen aan die vereiste.

So het die integrasie van NoSQL met Hadoop is altyd 'n voorkeur omgewing vir groot skaal parallelle verwerking en real time data toegang. Verskillende Hadoop gebaseer produkte die integrasie van Hadoop en NoSQL in een platform. En dit 'in-Hadoop' NoSQL databasis bied real time, operasionele analytics vermoëns. Hadoop produkte, insluitende Apache Hadoop is die beste geskik is vir besigheid kritieke produksie ontplooi. Hierdie produkte nie enige bykomende administratiewe take vir die NoSQL data benodig. Die geïntegreerde platform (NoSQL en Apache Hadoop) ondersteun hoë werkverrigting, uiterste scalability, hoë beskikbaarheid, foto's, ramp herstel, geïntegreerde sekuriteit en nog vele meer, geskik vir enige produksie gereed operasionele analytics.

So kan ons aflei dat Apache Hadoop en NoSQL is nie dieselfde tegnologie platform, maar hulle is altyd aanbeveel as 'n geïntegreerde omgewing geskik vir groot data oplossings.

Share on Facebook

Save

TechAlpine – All About Technology

www.techalpine.com

How NoSQL integrates with Hadoop eco-system?

Enjoy this blog? Please spread the word :)