Hadoop pojmovi ključni, pojednostavljen

Pregled:

U trenutnom tehnologijom krajolika, Big podataka i analize su dva najvažnija područja u kojima su ljudi koji uzimaju puno interesa. Očigledan razlog iza ove vuču je – poduzeća su uzimajući poslovne koristi od tih velikih podataka i BI aplikacije. Hadoop je sada postala glavni tok tehnologija, tako da je njegova pokrivenost i rasprava i širi se izvan tech mediji. Ali, ono što smo uočili je – ljudi još uvijek teško razumjeti stvarne pojmove, i često čine neku neodređenu ideju o Hadoop i drugim povezanim tehnologijama.

In this article, naš iskreni trud da objasni Hadoop ključne pojmove na vrlo jednostavan način, tako da se tehnički i netehnički publika može razumjeti.

Hadoop eko-sustav - Što je to točno znači?

Hadoop je vrlo moćan open source platforma upravlja Apache Foundation. Hadoop platforma je temeljena na Java tehnologijama i sposobna za obradu ogromne količine heterogenih podataka u distribuiranim grupirani okruženju. Njegova skaliranje sposobnost čini ga savršeno uklapaju za distribuiranog računarstva.

Hadoop eko-sustav sastoji se od Hadoop ključnih komponenti i ostalih pratećih alata. U ključnih komponenti, Hadoop Distributed File System (HDFS) a MapReduce programski model su dvije najvažnije koncepte. Među njima povezanih alata, Košnica za SQL, Svinja za Dataflow, Zookeeper za upravljanje uslugama itd su važni. Mi ćemo objasniti ove pojmove u detaljima.

Hadoop ecosystem

Hadoop ekosustav

Image1: Hadoop eko-sustav

Zašto trebate znati ključne pojmove?

Već smo raspravljali da Hadoop je vrlo popularna tema u današnje vrijeme, i svi pričaju o tome, svjesno ili nesvjesno. Dakle, problem je u tome- ako raspravljaju nešto ili slušanje nečega, ali ne znaju što je to točno znači, onda nećete moći spojiti točkice ili probaviti. Problem je više vidljiv kada su ljudi s neke druge domene, kao poslovne ljude, marketinga dečki, Top management itd. Jer ti ljudi ne trebaju znati "Kako Hadoop radi?‘, a oni su više zainteresirani da znaju 'kako se to može donijeti poslovnu korist '. Da bi ostvarili poslovne koristi, malo razumijevanja Hadoop smislu su vrlo važni u svim slojevima. No, u isto vrijeme, termini treba objasniti na jednostavan način, bez složenih jargons, što čitatelji ugodno.

Neka je razumjeti ključne pojmove

U ovom poglavlju ćemo istražiti različite uvjete u Hadoop i njegov eko-sustav, s nekim objašnjenjem. Za jasnoću u razumijevanju, ćemo napraviti dvije široke kategorije, jedan je osnovni modul a drugi je dodatni programski paketi i alati koji može biti instaliran zasebno ili na vrhu Hadoop. Hadoop odnosi se na sve ove subjekte.

First, neka nam se pogled na uvjete koji dolazi u osnovni modul.

  • Apache Hadoop: Apache Hadoop je open-source okvir za obradu velikih količina podataka u klasterskom okruženju. Ona koristi jednostavan MapReduce programski model za pouzdan, skalabilan i distribuiranog računarstva. Skladištenje i računanja kako su raspoređeni u tom okviru.
  • Hadoop zajednički: Kao što ime sugerira, ona sadrži zajedničke alate za potporu različitih Hadoop module. To je u osnovi knjižnica zajedničkih alata i komunalije. Hadoop zajedničko uglavnom koriste programeri u razvoj aplikacija.
  • HDFS: HDFS (Hadoop Distributed File System) je distribuirani datotečni sustav se proteže preko robni hardvera. To vage vrlo brzo i pruža visoku propusnost. blokovi podataka replicirati i pohranjuju u distribuiranoj način na klasterskom okruženju.
  • MapReduce: MapReduce je programski model za paralelnu obradu velike količine podataka u distribuiranom okruženju. MapReduce Program ima dvije glavne komponente, jedna je karta () način, koja obavlja filtriranje i sortiranje. Druga je smanjiti () dio, dizajniran za obavljanje sažetak izlaz iz Mape dijela.
  • Još jedan resurs pregovarača (PREĐA): To je u osnovi upravljanja resursima dostupno u Hadoop 2. Uloga pređe je da upravljaju i raspored računalnih resursa u klasterskom okruženju.

Now, neka nam provjeriti druge srodne pojmove u Hadoop

  • HBase: HBase je open source, skalabilan, distribuirati i ne-relacijskih baza podataka. To je napisan u Javi, a temelji se na Google-a Veliki stol. Temeljni pohranu datoteka sustava je HDF-ovi.
  • Hive: Košnica je skladište podataka softver, koji podržava čitanje, pisanje i vođenje velikih količina podataka pohranjenih u distribuirani sustav za pohranu. Pruža SQL upita poput jeziku poznat kao HiveQL (HQL), za upite skup podataka. Košnica podržava skladištenje u HDF-ovi i druge kompatibilne sustave datoteka kao što su Amazon S3 itd.
  • Apache Pig: Svinja je visoka razina platforma za veliki skup podataka analize. Jezik za pisanje Svinja skripte su poznati kao šatrovački. To je u osnovi oduzme temeljne MapReduce programe i čini ga lakšim za programere za rad na MapReduce modelu bez pisanja stvarni broj.
  • Apache Spark: Spark (otvoreni izvor) je cluster računalnih okvir i opće Compute Engine za Hadoop podataka (velikih razmjera podataka set). Ona obavlja gotovo 100 puta brže u odnosu na MapReduce u memoriji. And, za disk, gotovo 10 puta brže. Spark može izvoditi na različitim okruženjima / mod kao samostalnom načinu, na Hadoop, na EC2 itd. To se može pristupiti podacima iz HDF-ovi, HBase, Košnica ili bilo koji drugi Hadoop izvor podataka.
  • Sqoop: Sqoop je alat naredbenog retka za prijenos podataka između RDBMS i Hadoop bazama podataka. To se uglavnom koristi za uvoz / izvoz podataka između relacijskih i ne-relacijskim bazama podataka. The name 'Sqoop’ je načinjen kombiniranjem početno i zadnji dio ostala dva izraza "Sql+Da jeoop '.
  • Oozie: Oozie je u osnovi motor Hadoop tokom rada. To rasporedi raditi tokove za upravljanje Hadoop radnih mjesta.
  • Zookeeper: Apache Zookeeper je open source platforma, koji pruža visoke performanse koordinacijsku servis za Hadoop distribuiranih aplikacija. To je centralizirana služba za održavanje informacija o konfiguraciji, imenovanje registra, distribuirani sinkronizacije i grupne usluge.
  • Žlijeb: Apache žlijeb je raspodijeljena služba, uglavnom se koristi za prikupljanje podataka, agregacije i pokret. To radi vrlo učinkovito sa velikom količinom log i event podataka o.
  • nijansa: Nijansa je u osnovi web sučelja za analizu Hadoop podataka. To je open source projekt, podržava Hadoop i njegov eko-sustav. Njegova glavna svrha je pružiti bolje korisničko iskustvo. Pruža povucite i ispustite objekata i urednika za Spark, Košnica i HBase itd.
  • Čuvar slonova u Indiji: Mahut je open source softvera za izgradnju skalabilnih aplikacija strojnog učenja i rudarstva podataka brzo.
  • Ambari: Ambari je u osnovi web based alat za praćenje i upravljanje Hadoop klastera. To uključuje podršku za usluge eko-sustava i alate kao što su HDF-ovi, MapReduce, HBase, Zookeeper, Svinja, Sqoop itd. Njegova tri glavna funkcionalnosti rezerviranja, upravljanje i nadzor Hadoop klastera.

Kao Hadoop eko-sustava je kontinuirano razvija, novi softver, usluge i alati su također u nastajanju. As a result, tu će biti nove odredbe i jargons u velikom svijetu podataka. Moramo zadržati zatvoriti gledati i razumjeti one koji na vrijeme.

Zaključak

U ovom članku pokušali smo identificirati najvažnije ključne pojmove u Hadoop eko-sustava. Također smo razgovarali malo o eko-sustava i zašto moramo znati uvjete. Hadoop je sada postala glavni tok tehnologija, pa ljudi su uzimajući više uključeni u nju. So, to je pravo vrijeme da shvate neke osnovne pojmove i pojmove koji se koriste u Hadoop svijetu. U budućnosti, tamo će puno novih koncepata i pojmova na raspolaganju, i moramo se ažurirati u skladu s tim.

Tagged on: ,
============================================= ============================================== Buy best TechAlpine Books on Amazon
============================================== ---------------------------------------------------------------- electrician ct chestnutelectric
error

Enjoy this blog? Please spread the word :)

Follow by Email
LinkedIn
LinkedIn
Share