Hadoop kernbegrippen, Vereenvoudigd

Overzicht:

In de huidige technologielandschap, big data en analyse zijn de twee belangrijkste gebieden waar mensen nemen veel belangstelling. De voor de hand liggende reden achter dit tractie – bedrijven worden steeds bedrijf voordeel uit deze grote data en BI-applicaties. Hadoop is nu uitgegroeid tot een main stream technologie, dus de dekking en discussie verspreidt zich ook buiten tech media. Maar, wat wij hebben waargenomen is – mensen vinden het nog steeds moeilijk om de werkelijke concepten te begrijpen, en maken vaak een vaag idee over Hadoop en andere gerelateerde technologieën.

In this article, onze eerlijke poging is om de Hadoop kernbegrippen in een zeer eenvoudige manier uit te leggen, zodat de technische en niet-technische publiek kan begrijpen.

Hadoop ecosysteem - Wat het precies betekent?

Hadoop is een zeer krachtige open source-platform wordt beheerd door Apache Foundation. Hadoop platform is gemaakt met Java technologieën en kan verwerken grote hoeveelheid heterogene in een gedistribueerde geclusterde omgevingen. Zijn scaling mogelijkheden maakt het een perfecte pasvorm voor distributed computing.

Hadoop eco-systeem bestaat uit Hadoop kernonderdelen en andere bijbehorende instrumenten. In de kerncomponenten, Hadoop Distributed File System (HDFS) en de MapReduce programmeermodel zijn de twee belangrijkste begrippen. Onder de bijbehorende instrumenten, Hive voor SQL, Pig voor dataflow, Zookeeper voor het beheer van diensten, enz zijn belangrijk. We zullen deze termen in details uit te leggen.

Hadoop ecosysteem

Image1: Hadoop ecosysteem

Waarom je nodig hebt om de belangrijkste termen kennen?

We hebben reeds besproken dat Hadoop is een zeer populair onderwerp tegenwoordig, en iedereen heeft het erover, bewust of onbewust. Het probleem is dus- als u iets bespreken of het luisteren naar iets, maar niet op de hoogte wat het precies betekent, dan zul je niet in staat zijn om de punten te verbinden of te verteren. Het probleem is meer zichtbaar wanneer de mensen uit een ander domein, als mensen uit het bedrijfsleven, marketing jongens, topmanagement etc. Omdat deze mensen niet nodig om te weten 'Hoe Hadoop werkt?‘, in plaats dat ze meer geïnteresseerd zijn om te weten 'hoe het zakelijk voordeel kan brengen '. Om de zakelijke voordelen te realiseren, een beetje begrip van Hadoop termen zijn zeer belangrijk in alle lagen. Maar op het zelfde moment, de voorwaarden moeten worden uitgelegd in eenvoudige manier, zonder complex jargons, het maken van de lezers comfortabele.

Laten we begrijpen de kernbegrippen

In deze sectie zullen we verschillende termen in Hadoop en zijn ecosysteem verkennen, met wat uitleg. Voor de duidelijkheid in het begrip, we zullen twee grote categorieën maken, een is de basismodule en de andere is de extra softwarepakketten en gereedschappen die afzonderlijk of bovenop Hadoop kan worden geïnstalleerd. Hadoop betrekking op al deze entiteiten.

First, laten we eens een kijkje op de voorwaarden die onder basismodule.

Apache Hadoop: Apache Hadoop is een open-source framework voor het verwerken van grote hoeveelheden gegevens in een geclusterde omgeving. Het maakt gebruik van eenvoudige MapReduce programmeermodel voor een betrouwbare, schaalbaar en distributed computing. De opslag en berekening beide zijn in dit kader.

Hadoop gemeenschappelijke: Zoals de naam al doet vermoeden, Het bevat gemeenschappelijke utilities om verschillende Hadoop modules ondersteunen. Het is eigenlijk een bibliotheek van gemeenschappelijke instrumenten en utilities. Hadoop gemeenschappelijke wordt voornamelijk gebruikt door ontwikkelaars tijdens de applicatie-ontwikkeling.

HDFS: HDFS (Hadoop Distributed File System) is een gedistribueerd bestandssysteem zich uitstrekt over grondstoffen hardware. Het schalen zeer snel en biedt een hoge doorvoersnelheid. Datablokken gerepliceerd en opgeslagen op een gedistribueerde wijze op een clusteromgeving.

MapReduce: MapReduce is een programmeermodel voor parallelle verwerking van grote hoeveelheid gegevens in een gedistribueerde omgeving. MapReduce programma heeft twee hoofdonderdelen, een is de kaart () methode, die filteren en sorteren uitvoert. De andere is het verminderen () deel, ontworpen om samenvatting van de uitvoer uit te voeren vanaf de kaart deel.

Yet Another Onderhandelaar Resource (GAREN): Het is eigenlijk een resource manager beschikbaar in Hadoop 2. De rol van het garen is te beheren en plannen van IT-middelen in een geclusterde omgeving.

Now, laten we controleren de andere gerelateerde termen in Hadoop

HBase: HBase is een open source, schaalbaar, verspreid en niet-relationele database. Het is geschreven in Java en gebaseerd op Google's Grote tafel. De onderliggende storage-bestandssysteem is HDFS.
Hive: Hive is datawarehouse software, die ondersteunt het lezen, schrijven en beheren van grote hoeveelheden data opgeslagen in een gedistribueerde opslagsysteem. Het biedt SQL-query als taal bekend als HiveQL (HQL), voor het opvragen van de dataset. Hive ondersteunt opslag in HDFS en andere compatibele bestandssystemen zoals Amazon S3 etc.

Apache Pig: Varken is een hoog platform voor grote data set analyse. De taal die Pig scripts te schrijven staan bekend als Latijn van het varken. Het abstraheert in principe de onderliggende MapReduce programma's en maakt het makkelijker voor ontwikkelaars om te werken aan MapReduce model zonder het schrijven van de eigenlijke code.

Apache Spark: Spark (open source) is een cluster computing-kader en de algemene compute engine voor Hadoop data (grootschalige data-set). Het voert bijna 100 keer sneller in vergelijking met MapReduce in het geheugen. And, voor disk, het is bijna 10 keer sneller. Spark kan draaien op verschillende omgevingen / mode als stand-alone modus, op Hadoop, op EC2 etc. Het kan toegang krijgen tot de gegevens van HDFS, HBase, Hive of andere Hadoop gegevensbron.

Sqoop: Sqoop is een command-line tool om gegevens tussen RDBMS en Hadoop data bases overbrengen. Het wordt hoofdzakelijk gebruikt voor de import / export van gegevens tussen relationele en niet-relationele databases. The name ‘Sqoop’ wordt gevormd door het combineren van de eerste en laatste deel van twee andere termen "sql+hadoop '.

oozie: Oozie is in feite een Hadoop workflow engine. Het schema werken stromen om banen te Hadoop beheren.

Dierentuinmedewerker: Apache Zookeeper is een open source platform, die zorgt voor een hoge prestaties coördinatie dienst voor Hadoop gedistribueerde applicaties. Het is een gecentraliseerde dienst voor het handhaven van configuratiegegevens, naamgeving register, gedistribueerde synchronisatie en groepsdiensten.

Flume: Apache Flume is een gedistribueerde dienst, voornamelijk gebruikt voor het verzamelen van gegevens, aggregatie en beweging. Het werkt heel efficiënt met een grote hoeveelheid log en event data.

Tint: Hue is in feite een web-interface voor het analyseren van data Hadoop. Het is open source project, ondersteunt Hadoop en zijn eco-systeem. Haar voornaamste doel is om een betere gebruikerservaring te bieden. Het biedt drag and drop faciliteiten en editors voor Spark, Hive en HBase etc.

olifantendrijver: Mahut is open source software voor het bouwen van schaalbare machine learning en data mining applicaties snel.

Ambari: Ambari is eigenlijk een web-based tool voor het monitoren en beheren van Hadoop clusters. Het bevat ondersteuning voor ecosysteemdiensten en tools zoals HDFS, MapReduce, HBase, Dierentuinmedewerker, Varken, Sqoop etc. De drie belangrijkste functionaliteiten provisioning, het beheer en de monitoring van Hadoop clusters.

Als Hadoop eco-systeem is voortdurend in beweging, nieuwe software, diensten en hulpmiddelen zijn ook in opkomst. As a result, zullen er nieuwe termen en jargons in de big data wereld. We moeten nauwlettend in de gaten te houden en te begrijpen die in de tijd.

Conclusie

In dit artikel hebben we geprobeerd om de meest belangrijke sleutelbegrippen in het Hadoop ecosysteem te identificeren. We hebben ook gesproken over een beetje over het eco-systeem en waarom we nodig hebben om de voorwaarden kennen. Hadoop is nu uitgegroeid tot een main stream technologie, dus mensen worden steeds meer betrokken erin. So, Het is het juiste moment om een aantal basisbegrippen en termen die in het Hadoop wereld te begrijpen. In de toekomst, Er zal een heleboel nieuwe concepten en termen beschikbaar, en we moeten ons dienovereenkomstig bij.

Share on Facebook

Save

Tagged on: Big Data, Hadoop

TechAlpine – All About Technology

www.techalpine.com

Hadoop kernbegrippen, Vereenvoudigd

Enjoy this blog? Please spread the word :)