modes d'installation Hadoop

Mode Hadoop

Vue d'ensemble: Apache Hadoop peut être installé dans différents modes selon l'exigence. Ces différents modes sont configurés lors de l'installation. Par défaut, Hadoop est installé dans Standalone mode. Les autres modes sont Pseudo distribués Mode et distribué mode. Le but de ce tutoriel est d'expliquer les différents modes d'installation d'une manière simple afin que les lecteurs peuvent suivre et faire leur propre travail.

In this article, Je vais discuter de différents modes d'installation et leurs détails.

Présentation: Nous savons tous que Apache Hadoop est un framework open source qui permet le traitement distribué des grands ensembles de grappes établies entre les différentes données en utilisant une programmation simple. Hadoop a la capacité d'évoluer jusqu'à des milliers d'ordinateurs à partir d'un seul serveur. Ainsi, dans ces conditions l'installation de Hadoop devient plus critique. Nous pouvons installer Hadoop dans trois modes différents –

Mode autonome – Cluster Node Simple
mode distribué pseudo – Cluster Node Simple
Mode Distributed. – Multi Cluster Node

But de différents modes d'installation: Quand Hadoop est utilisé dans un environnement de production,, nœuds de serveurs multiples sont utilisés pour le calcul distribué. Mais pour comprendre les bases et jouer avec Hadoop, installation du nœud unique est suffisante. Il y a un autre mode connu sous le nom «Pseudo distribué’ mode. Ce mode est utilisé pour simuler l'environnement de noeud multiples sur un seul serveur.

Dans ce document, nous allons discuter comment installer Hadoop sur Ubunto Linux. Que ce soit tout mode, le système doit avoir la version java 1.6.x installé dessus.

installation en mode autonome: Now, laissez-nous vérifier le processus d'installation en mode autonome en suivant les étapes mentionnées ci-dessous.

Installez Java –
Java (JDK Version 1.6.x) soit à partir de Sun / Oracle ou Open Java est requis.

Step 1 – Si vous n'êtes pas en mesure de passer à OpenJDK au lieu d'utiliser exclusive Sun JDK / JRE, installer sun-java6 à partir du référentiel Partner Canonical en utilisant la commande suivante.

Noter: La Repository Partner Canonical contient gratuitement des logiciels tiers du coût de source fermé. Mais la Canonical n'a pas accès au code source au lieu qu'ils viennent emballer et de le tester.

Ajouter le partenaire canonique aux dépôts apt en utilisant –

[Code]

$ sudo add-apt-repository “deb http://partenaire archive.canonical.com/lucid”

[/Code]

Step 2 – Mettre à jour la liste des sources.

[Code]

$ sudo apt-get update

[/Code]

Step 3 – Installez la version 1.6.x JDK de Sun / Oracle.

[Code]

$ sudo apt-get install sun-java6-jdk

[/Code]

Step 4 – Une fois l'installation JDK est plus assurez-vous qu'il est correctement configuré à l'aide – Version 1.6.x de Sun / Oracle.

[Code]

user @ ubuntu:~# java -version java version “1.6.0_45” Java(TM) SE Runtime Environment (construire 1.6.0_45-b02) Java HotSpot(TM) Client VM (construire 16.4-b01, mixed mode, sharing)

[/Code]

Ajouter Hadoop utilisateur

Step 5 – Ajouter un utilisateur Hadoop unix dédié dans votre système comme sous d'isoler cette installation d'autres logiciels –

[Code]

$ sudo adduser hadoop_admin

[/Code]

Télécharger le binaire Hadoop et installer

Step 6 – Télécharger Apache Hadoop à partir du site web apache. Hadoop est livré sous la forme d'un format tar-gx. Copiez ce binaire dans le répertoire / usr / local / installables dossier. Le dossier – installables devraient être créés d'abord sous / usr / local avant cette étape. Maintenant, exécutez les commandes suivantes en tant sudo

[Code]

$ cd /usr/local/installables $ La hadoop de sudo tar-0.20.2.tar.gz $ sudo chown -R hadoop_admin / usr / local / hadoop-0.20.2

[/Code]

Définir variable d'env – JAVA_HOME

Step 7 – Ouvrez le fichier de configuration Hadoop (hadoop-env.sh) à l'emplacement – /usr / local / installables / hadoop-0.20.2/conf / hadoop-env.sh et définir le JAVA_HOME comme sous -

[Code] export JAVA_HOME = chemin / où / jdk / est / installé [/Code]

(e.g. /usr / bin / java)

Installation en mode Single

Step 8 – Maintenant, allez dans le répertoire HADOOP_HOME (endroit où Hadoop est extrait) et exécutez la commande suivante -

[Code]

$ bin / hadoop

[/Code]

La sortie suivante sera affichée -

[Code] Usage: hadoop [–config confdir] COMMANDER

[/Code]

Certaines des options de commande sont mentionnés ci-dessous. Il existe d'autres options disponibles et peuvent être vérifiées en utilisant la commande mentionnée ci-dessus.

[Code] namenode -format format the DFS filesystem secondarynamenode run the DFS secondary namenode namenode run the DFS namenode datanode run a DFS datanode dfsadmin run a DFS admin client mradmin run a Map-Reduce admin client fsck run a DFS filesystem checking utility

[/Code]

La sortie ci-dessus indique que l'installation autonome est terminée avec succès. Maintenant, vous pouvez exécuter les exemples d'échantillons de votre choix en appelant -

[Code] $ bin/hadoop jar hadoop-*-examples.jar <PRÉNOM> <PARAMS>[/Code]

Pseudo installation en mode distribué: Ceci est un environnement simulé noeud multipoint basé sur un serveur de noeud unique.
Voici la première étape nécessaire est de configurer le SSH afin d'accéder et de gérer les différents noeuds. Ainsi, il est obligatoire d'avoir l'accès SSH aux différents noeuds. Une fois que le SSH est configuré, activé et qu'il est accessible, nous devrions commencer à configurer le Hadoop. Les fichiers de configuration suivants doit être modifié -

conf / core-site.xml
conf / HDFS-site.xml
conf / mapred.xml

Ouvrez tous les fichiers de configuration dans nous éditeur et mettre à jour la configuration.

Configurer le fichier core-site.xml:

[Code]$ vi conf / core-site.xml[/Code] [Code]<configuration><propriété><nom>fs.default.name</nom><valeur>HDFS://localhost:9000</valeur></propriété><propriété><nom>hadoop.tmp.dir</nom><valeur>/tmp / hadoop- ${user.name}</valeur></propriété></configuration>[/Code]

Configurer fichier hdfs-site.xml:

[Code]$ vi conf / hdfs-site.xml[/Code] [Code]<configuration><propriété><nom>dfs.replication</nom><valeur>1</valeur></propriété></configuration>[/Code]

Configurer fichier mapred.xml:

[Code]$ vi conf / mapred.xml[/Code] [Code]<configuration><propriété><nom>mapred.job.tracker</nom> <valeur>localhost:9001</valeur></propriété></configuration>[/Code] Once these changes are done, nous avons besoin de formater le nœud du nom en utilisant la commande suivante. L'invite de commande affichera tous les messages un après l'autre et le message a finalement succès. [Code]$ bin / Hadoop NameNode -format[/Code] Now our setup is done for pseudo distributed node. Commençons maintenant le cluster à nœud unique en utilisant la commande suivante. It will again show some set of messages on the command prompt and start the server process. [Code]$ /bin/start-all.sh[Code] Now we should check the status of Hadoop process by executing the jps command as shown below. It will show all the running processes. [Code]$ jps 14799 NameNode14977 SecondaryNameNode 15183 DataNode15596 JobTracker15897 Task Tracker[/Code]

Arrêt du cluster à nœud unique: Nous pouvons arrêter le cluster à nœud unique en utilisant la commande suivante. L'invite de commande affiche tous les processus d'arrêt.

[Code]$ bin/stop-all.sh stopping jobtrackerlocalhost: arrêt namenodelocalhost tasktrackerstopping: arrêt datanodelocalhost: secondarynamenode arrêt[/Code]

installation en mode Distributed:
Avant de commencer l'installation en mode distribué, nous devons nous assurer que nous avons la configuration de pseudo distribuée fait et nous avons au moins deux machines, celui qui agit en tant que maître et l'autre agissant comme esclave. Maintenant, nous courons les commandes suivantes dans l'ordre.

· $ bin / stop-all.sh – Assurez-vous qu'aucun des noeuds sont en cours d'exécution

Ouvrez le fichier / etc / hosts et ajoutez les entrées suivantes pour le maître et l'esclave –

<ADRESSE IP> master

<ADRESSE IP> esclave

$ ssh-copy-id $ -i HOME / .ssh / id_rsa.pub esclave – Cette commande doit être exécutée sur le maître d'avoir le ssh passwordless. Nous devrions vous connecter en utilisant le même nom d'utilisateur sur toutes les machines. Si nous avons besoin d'un mot de passe, nous pouvons le régler manuellement.
Maintenant, nous ouvrons les deux fichiers – conf / maître et conf / esclaves. La conf / maître définit le nom de noeuds de notre groupe de noeuds multiples. Le fichier conf / esclaves répertorie les hôtes où le Hadoop Slave sera en cours d'exécution.
Modifiez le fichier conf / core-site.xml d'avoir les entrées suivantes –

<propriété>

<nom>fs.default.name</nom>

<valeur>HDFS://master:54310</valeur>

</propriété>

Modifiez le fichier conf / mapred-site.xml d'avoir les entrées suivantes –

<propriété>

<nom>mapred.job.tracker</nom>

<valeur>HDFS://master:54311</valeur>

</propriété>

Modifiez le fichier conf / hdfs-site.xml d'avoir les entrées suivantes –

<propriété>

<nom>dfs.replication</nom>

</propriété>

Modifiez le fichier conf / mapred-site.xml d'avoir les entrées suivantes –

<propriété>

<nom>mapred.local.dir</nom>

<valeur>${hadoop-tmp}/mapred / local</valeur>

</propriété>

<propriété>

<nom>mapred.map.tasks</nom>

</propriété>

<propriété>

<nom>mapred.reduce.tasks</nom>

</propriété>

Maintenant, lancez le maître en utilisant la commande suivante.

[Code] bin / start-dfs.sh [/Code]

Une fois démarré, vérifier l'état sur le maître en utilisant la commande jps. Vous devriez obtenir la sortie suivante -

[Code]

14799 NameNode

15314 Jps
16977 secondaryNameNode

[/Code]

Sur l'esclave la sortie doit être comme indiqué ci-dessous.

[Code]

15183 DataNode
15616 Jps

[/Code]

Maintenant, lancez les daemons MapReduce en utilisant la commande suivante.

[Code]

$ bin / start-mapred.sh

[/Code]

Une fois démarré vérifier l'état sur le maître en utilisant la commande jps. Vous devriez obtenir la sortie suivante -

[Code]

16017 Jps

14799 NameNode

15596 JobTracker

14977 SecondaryNameNode

[/Code]

Et sur les esclaves la sortie doit être comme indiqué ci-dessous.

[Code]

15183 DataNode

15897 TaskTracker
16284 Jps

[/Code]

Summary: Dans la discussion ci-dessus, nous avons couvert différents modes d'installation de Hadoop et leurs détails techniques. Mais nous devons faire attention lors du choix du mode d'installation. Différents modes ont leur propre but. Ainsi, les débutants devraient commencer avec l'installation en mode unique, puis procéder à d'autres options.
Résumons notre discussion avec les balles suivantes

Apache Hadoop peut être installé dans trois modes différents –
- noeud unique
- Pseudo noeud distribué
- noeud Distributed
mode Single est le moyen le plus simple d'installer et de commencer.
Si nous avons besoin de grappes mais ont un seul nœud disponible, alors nous devrions aller pour le mode pseudo distribué
Pour installer le mode distribué, nous aurions dû le mode pseudo distribué installé en premier.

Share on Facebook

Save

Tagged on: Hadoop

TechAlpine – All About Technology

www.techalpine.com

modes d'installation Hadoop - Explorons

Enjoy this blog? Please spread the word :)