Hadoop installatie modes - Laten we eens onderzoeken

Hadoop-modus

Overzicht: Apache Hadoop kan worden geïnstalleerd in verschillende modi zoals de eis. Deze verschillende modi zijn geconfigureerd tijdens de installatie. By default, Hadoop is geïnstalleerd standalone mode. De andere modi zijn pseudo verdeeld mode en gedistribueerd mode. Het doel van deze tutorial is om verschillende modes installatie op een eenvoudige manier uit te leggen, zodat de lezer het kan volgen en hun eigen werk te doen.

In this article, Ik zal verschillende installatie modes en de details te bespreken.

Introductie: We weten allemaal dat Apache Hadoop is een open source framework waarin gedistribueerde verwerking van grote hoeveelheden gegevens verdeeld over verschillende clusters laat met behulp van eenvoudige programmering. Hadoop heeft de mogelijkheid te schalen tot duizenden beheren vanaf één enkele server. Zo is in deze omstandigheden de installatie van Hadoop wordt het meest kritieke. We kunnen Hadoop in drie verschillende modi te installeren –

stand-alone modus – Single Node Cluster
Pseudo verdeelde modus – Single Node Cluster
verdeelde modus. – Multi Node Cluster

Doel van de verschillende installatie modes: Als Apache Hadoop wordt gebruikt in een productieomgeving, meerdere server nodes worden gebruikt voor distributed computing. Maar voor het begrijpen van de basics en spelen met Hadoop, enkel knooppunt installatie volstaat. Er is een andere modus wordt uitgevoerd Pseudo gedistribueerd’ mode. Deze modus wordt gebruikt om de multi-knooppunt te simuleren op een enkele server.

In dit document zullen we bespreken hoe Hadoop installeren op Ubunto Linux. Of het nu een willekeurige modus, het systeem moet java versie 1.6.x is geïnstalleerd hebben.

Standalone mode installatie: Now, laten we controleren de stand-alone modus installatieproces door het volgen van de onderstaande stappen.

Installeer Java –
Java (JDK versie 1.6.x) hetzij van Sun / Oracle of Open Java is vereist.

Step 1 – Als u niet in staat om te schakelen naar OpenJDK in plaats van het gebruik van proprietary Zon JDK / JRE, installeert zon-java6 van Canonical Partner Repository met behulp van de volgende opdracht.

Noot: De Canonical Partner Repository bevat vrij van kosten closed source software van derden. Maar de Canonical heeft geen toegang tot de broncode in plaats hebben ze gewoon verpakken en testen.

Voeg de canonieke partner van de apt gebruik van repositories –

[Code]

$ sudo add-apt-repository “deb http://archive.canonical.com/lucid partner”

[/Code]

Step 2 – Werk de bronnenlijst.

[Code]

$ sudo apt-get update

[/Code]

Step 3 – Installeer JDK versie 1.6.x van Sun / Oracle.

[Code]

$ sudo apt-get install sun-java6-jdk

[/Code]

Step 4 – Zodra JDK installatie over is ervoor te zorgen dat het correct is ingesteld met behulp van – versie 1.6.x van Sun / Oracle.

[Code]

user @ ubuntu:~# java -version java version “1.6.0_45” Java(TM) SE Runtime Environment (bouwen 1.6.0_45-B02) Java HotSpot(TM) Client VM (bouwen 16.4-B01, mixed mode, sharing)

[/Code]

Voeg Hadoop Gebruiker

Step 5 – Voeg een speciale Hadoop unix gebruiker in je systeem als in deze installatie van andere software te isoleren –

[Code]

$ sudo adduser hadoop_admin

[/Code]

Download de Hadoop binaire en installeren

Step 6 – Download Apache Hadoop uit de apache website. Hadoop komt in de vorm van teer-GX-formaat. Kopieer deze binary in de / usr / local / installables folder. De map – installables moet eerst worden aangemaakt onder / usr / local voordat deze stap. Nu is de volgende opdrachten als sudo

[Code]

$ cd /usr/local/installables $ sudo tar xzf Hadoop-0.20.2.tar.gz $ sudo chown -R hadoop_admin / usr / local / Hadoop-0.20.2

[/Code]

Definieer env variabele – JAVA_HOME

Step 7 – Open het Hadoop configuratiebestand (hadoop-env.sh) in de locatie – /usr / local / installables / Hadoop-0.20.2/conf / hadoop-env.sh en definieer de JAVA_HOME als onder -

[Code] export JAVA_HOME = path / waarbij / jdk / is / geïnstalleerd [/Code]

(bijv. /usr / bin / java)

Installatie in Single mode

Step 8 – Ga nu naar de directory HADOOP_HOME (locatie waar Hadoop wordt gewonnen) en voer de volgende opdracht -

[Code]

$ bin / Hadoop

[/Code]

De volgende uitvoer wordt weergegeven -

[Code] Gebruik: Hadoop [–config confdir] OPDRACHT

[/Code]

Enkele COMMAND worden hieronder vermeld. Er zijn andere opties beschikbaar en kunnen worden gecontroleerd met behulp van de hierboven genoemde opdracht.

[Code] namenode -format format the DFS filesystem secondarynamenode run the DFS secondary namenode namenode run the DFS namenode datanode run a DFS datanode dfsadmin run a DFS admin client mradmin run a Map-Reduce admin client fsck run a DFS filesystem checking utility

[/Code]

De bovenstaande uitvoer geeft aan dat Standalone installatie succesvol is afgerond. Nu kunt u de sample voorbeelden van uw keuze door te bellen naar run -

[Code] $ bin/hadoop jar hadoop-*-examples.jar <NAAM> <PARAMS>[/Code]

Pseudo gedistribueerde mode installatie: Dit is een gesimuleerde omgeving met meerdere knooppunt gebaseerd op één knooppunt server.
Hier is de eerste stap die nodig is om de SSH te configureren om toegang te krijgen en beheren van de verschillende knooppunten. Zo is het verplicht om de SSH toegang tot de verschillende knooppunten. Zodra de SSH geconfigureerd, ingeschakeld en is te bereiken moeten we beginnen met het configureren van de Hadoop. De volgende configuratiebestanden moet worden aangepast -

conf / core-site.xml
conf / HDFS-site.xml
conf / mapred.xml

Open het alle configuratiebestanden in we editor en de configuratie bij te werken.

Configureren kern-site.xml file:

[Code]$ vi conf / kern-site.xml[/Code] [Code]<configuratie><eigendom><naam>fs.default.name</naam><waarde>HDFS://localhost:9000</waarde></eigendom><eigendom><naam>hadoop.tmp.dir</naam><waarde>/tmp / hadoop- ${user.name}</waarde></eigendom></configuratie>[/Code]

Configureren HDFS-site.xml file:

[Code]$ vi conf / HDFS-site.xml[/Code] [Code]<configuratie><eigendom><naam>dfs.replication</naam><waarde>1</waarde></eigendom></configuratie>[/Code]

Configureren mapred.xml file:

[Code]$ vi conf / mapred.xml[/Code] [Code]<configuratie><eigendom><naam>mapred.job.tracker</naam> <waarde>localhost:9001</waarde></eigendom></configuratie>[/Code] Once these changes are done, we nodig hebben om de naam van het knooppunt te formatteren met behulp van de volgende opdracht. De opdrachtprompt zal alle berichten tonen een na de ander en uiteindelijk succes bericht. [Code]$ bin / Hadoop namenode -formaat[/Code] Now our setup is done for pseudo distributed node. Laten we nu het één knooppunt cluster starten met de volgende opdracht. It will again show some set of messages on the command prompt and start the server process. [Code]$ /bin/start-all.sh[Code] Now we should check the status of Hadoop process by executing the jps command as shown below. It will show all the running processes. [Code]$ jps 14799 NameNode14977 SecondaryNameNode 15183 DataNode15596 JobTracker15897 TaskTracker[/Code]

Het stoppen van de Single knooppunt Cluster: We kunnen de één knooppunt cluster stoppen door met de volgende opdracht. De opdrachtprompt zal al het beëindigen processen weer te geven.

[Code]$ bin/stop-all.sh stopping jobtrackerlocalhost: stoppen tasktrackerstopping namenodelocalhost: stoppen datanodelocalhost: stoppen secondarynamenode[/Code]

Distributed mode installatie:
Voordat we beginnen met de gedistribueerde mode installatie, we moeten ervoor zorgen dat we de pseudo verspreid setup hebben gedaan en we hebben ten minste twee machines, waarbij één werkt als master en de andere als een slaaf. Nu lopen we het volgende commando in de juiste volgorde.

· $ bin / stop-all.sh – Zorg ervoor dat geen van de knooppunten lopen

Open het bestand / etc / hosts bestand en voeg de volgende vermeldingen voor meester en slaaf –

<IP ADRES> master

<IP ADRES> slaaf

$ ssh-copy-id -i $ HOME / .ssh / id_rsa.pub slave – Deze opdracht moet worden uitgevoerd op de master naar de wachtwoordloze ssh hebben. We moeten inloggen met dezelfde gebruikersnaam op alle machines. Als we behoefte aan een wachtwoord, wij kunnen het handmatig instellen.
Nu zijn de twee bestanden openen we – conf / master en conf / slaves. De conf / master definieert de naam knooppunten van onze multi knoopcluster. De conf / slaven bestand bevat de hosts waar de Hadoop Slave zal worden uitgevoerd.
Bewerk de conf / kern-site.xml bestand naar de volgende gegevens hebben –

<naam>fs.default.name</naam>

<waarde>HDFS://master:54310</waarde>

</eigendom>

Bewerk de conf / mapred-site.xml bestand naar de volgende gegevens hebben –

<naam>mapred.job.tracker</naam>

<waarde>HDFS://master:54311</waarde>

</eigendom>

Bewerk de conf / HDFS-site.xml bestand naar de volgende gegevens hebben –

<naam>dfs.replication</naam>

</eigendom>

Bewerk de conf / mapred-site.xml bestand naar de volgende gegevens hebben –

<naam>mapred.local.dir</naam>

<waarde>${Hadoop-TMP}/mapred / local</waarde>

</eigendom>

<naam>mapred.map.tasks</naam>

</eigendom>

<naam>mapred.reduce.tasks</naam>

</eigendom>

Nu beginnen de meester met behulp van de volgende opdracht.

[Code] bin / start-dfs.sh [/Code]

eenmaal begonnen, Controleer de status op de master met behulp van jps command. U dient de volgende output -

[Code]

14799 NameNode

15314 Jps
16977 secondaryNameNode

[/Code]

Op de slave de output zoals hieronder worden weergegeven.

[Code]

15183 DataNode
15616 Jps

[/Code]

Nu start de MapReduce daemons met behulp van de volgende opdracht.

[Code]

$ bin / start-mapred.sh

[/Code]

Eenmaal begonnen de status op de master met behulp van jps command. U dient de volgende output -

[Code]

16017 Jps

14799 NameNode

15596 JobTracker

14977 SecondaryNameNode

[/Code]

En de slaven de productie moet die hieronder.

[Code]

15183 DataNode

15897 TaskTracker
16284 Jps

[/Code]

Summary: In de bovenstaande bespreking hebben we verschillende Hadoop installatie modes en hun technische details gedekt. Maar we moeten voorzichtig zijn bij het selecteren van de installatie-modus. Verschillende modi hebben hun eigen doel. Dus de beginners moeten beginnen met single mode installatie en ga verder met andere opties.
Laat ons samen te vatten onze discussie met de volgende kogels

Apache Hadoop kan worden geïnstalleerd in drie verschillende modi –
- enkel knooppunt
- Pseudo verdeeld knooppunt
- Distributed knooppunt
Single mode is de eenvoudigste manier om te installeren en aan de slag.
Als we nodig hebben clusters, maar hebben slechts één knooppunt beschikbaar, dan moeten we gaan voor Pseudo gedistribueerde modus
Om de verdeelde modus moeten we de pseudo verdeelde modus eerst geïnstalleerd te installeren.

Share on Facebook

Save

Tagged on: Hadoop

TechAlpine – All About Technology

www.techalpine.com

Hadoop installatie modes - Laten we eens onderzoeken

Enjoy this blog? Please spread the word :)