modos de instalación do Hadoop - Imos explorar

Hadoop mode

modo Hadoop

Visión global: Apache Hadoop se pode instalar en diferentes modos, como pola esixencia. Estes modos diferentes son configurados durante a instalación. By default, Hadoop está instalado standalone mode. Os outros modos son pseudo distribuídos modo e distribuído mode. O obxectivo deste tutorial é explicar distintos modos de instalación dunha forma sinxela para que os lectores poden segui-lo e facer o seu propio traballo.

In this article, Vou discutir diferentes modos de instalación e os seus detalles.

Introdución: Todos sabemos que o Apache Hadoop é un framework de código aberto que permite procesamento distribuído de grandes conxuntos de datos definidos a través de diferentes clusters usando programación simple. Hadoop ten a capacidade de escalar ata miles de ordenadores a partir dun único servidor. Así, nestas condicións, a instalación do Hadoop faise máis crítico. Podemos instalar Hadoop en tres modos diferentes –

  • modo autónomo – Cluster único nodo
  • de xeito distribuído pseudo – Cluster único nodo
  • de xeito distribuído. – Multi Node Cluster

Finalidade de diferentes modos de instalación: Cando Apache Hadoop é usado nun ambiente de produción, varios nós de servidores son utilizados para computación distribuída. Pero para entender o básico e xogar con Hadoop, instalación único nodo é suficiente. Hai outro xeito coñecido como 'Pseudo distribuído’ mode. Este modo é usado para simular o ambiente multi nó nun único servidor.

Neste documento, imos discutir como instalar Hadoop en Ubuntu Linux. Sexa ela de calquera xeito, o sistema debe ter a versión Java 1.6.x instalado nel.

instalación en modo autónomo: Now, imos comprobar o proceso de instalación modo independente, seguindo os pasos seguintes indicados.

instalar Java –
Java (1.6.x JDK Versión) Quere dende Sun / Oracle ou Open Java é necesaria.

  • Step 1 – Se non é capaz de cambiar a OpenJDK en vez de usar propietaria Sun JDK / JRE, instalarse sol java6 de depósito de socios Canonical, mediante o seguinte comando.

Note: The Repositorio Compañeiro Canonical contén libre de custos de código pechado software de terceiros. Pero Canonical non ten acceso ao código fonte no seu lugar, só embalaxe e probalo.

Agregar o compañeiro canónica aos repositorios apt usando –

[Code]

$ sudo add-apt-repository “deb http://compañeiro archive.canonical.com/lucid”

[/Code]

  • Step 2 – Actualizar a lista de orixe.

[Code]

$ sudo apt-get update

[/Code]

  • Step 3 – Instalar JDK versión 1.6.x de Sun / Oracle.

[Code]

$ sudo apt-get install-sol java6-JDK

[/Code]

  • Step 4 – Cando a instalación JDK é máis asegúrese de que é configurada correctamente usando – versión 1.6.x de Sun / Oracle.

[Code]

user @ ubuntu:~# java -version java version “1.6.0_45” Java(TM) SE Runtime Environment (construír 1.6.0_45-b02) Java HotSpot(TM) Client VM (construír 16,4-B01, mixed mode, sharing)

[/Code]

Agregar Hadoop Usuario

  • Step 5 – Engadir un usuario dedicado Hadoop unix en ti sistema como refuxio para illar a instalación doutros programas –

[Code]

$ sudo adduser hadoop_admin

[/Code]

Baixo o binario Hadoop e instalar

  • Step 6 – Descargue de Apache Hadoop do sitio web apache. Hadoop vén en forma de formato tar-GX. Copia e pega este par ao usr / local / directorio / instalábeis. o cartafol – instalábeis debe ser creado por primeira vez en / usr / local antes desta etapa. Agora, executa os seguintes comandos como súo

[Code]

$ cd /usr/local/installables $ Hadoop sudo tar xzf-0.20.2.tar.gz $ sudo chown -R hadoop_admin / usr / local / Hadoop-0.20.2

[/Code]

Establecer variable Estructural – JAVA_HOME

  • Step 7 – Abre o ficheiro de configuración do Hadoop (hadoop-env.sh) na localización – /usr / local / instalábeis / Hadoop-0.20.2/conf / hadoop-env.sh e establecer o JAVA_HOME como a continuación -

[Code] export JAVA_HOME = path / onde / JDK / é / instalada [/Code]

(por exemplo. /usr / bin / java)

Instalación en modo single

  • Step 8 – Agora vai ao directorio HADOOP_HOME (Hadoop onde é extraído) e executa o seguinte comando -

[Code]

$ bin / Hadoop

[/Code]

A seguinte saída aparecerá -

[Code] uso: hadoop [–configuración confdir] COMANDO

[/Code]

Algunhas das opcións de mando son mencionadas a continuación. Hai outras opcións dispoñibles e poden ser verificados mediante o comando mencionado arriba.

[Code] namenode -format format the DFS filesystem secondarynamenode run the DFS secondary namenode namenode run the DFS namenode datanode run a DFS datanode dfsadmin run a DFS admin client mradmin run a Map-Reduce admin client fsck run a DFS filesystem checking utility

[/Code]

A saída anterior indica que a instalación Standalone está rematada con éxito. Agora pode realizar os exemplos de mostras da súa elección, chamando -

[Code] $ bin/hadoop jar hadoop-*-examples.jar <NOME> <PARAMS>[/Code]

Pseudo instalación de xeito distribuído: Este é un sistema de nó de varias simulado baseado nun único servidor do nodo.
Aquí, o primeiro paso necesario é para configurar o SSH, a fin de acceder e xestionar os distintos nós. Así, é obrigatorio ter o acceso SSH para os distintos nós. Unha vez que o SSH está configurado, habilitado e é accesible debemos comezar a configuración do Hadoop. Os seguintes ficheiros de configuración que ser modificado -

  • conf / core-site.xml
  • conf / HDFS-site.xml
  • conf / mapred.xml

Abre os todos os ficheiros de configuración no nós editor e actualizar a configuración.

Configurar o ficheiro core-site.xml:

[Code]$ vin conf / core-site.xml[/Code] [Code]<configuración><propiedade><nome>fs.default.name</nome><valor>HDFS://localhost:9000</valor></propiedade><propiedade><nome>hadoop.tmp.dir</nome><valor>/tmp / hadoop- ${user.name}</valor></propiedade></configuración>[/Code]

Configurar o ficheiro hdfs-site.xml:

[Code]$ vin conf / hdfs-site.xml[/Code] [Code]<configuración><propiedade><nome>dfs.replication</nome><valor>1</valor></propiedade></configuración>[/Code]

Configurar o ficheiro mapred.xml:

[Code]$ vin conf / mapred.xml[/Code] [Code]<configuración><propiedade><nome>mapred.job.tracker</nome> <valor>localhost:9001</valor></propiedade></configuración>[/Code] Once these changes are done, necesitamos dar formato o no nome usando o seguinte comando. O poder de mando amosará todas as mensaxes de un despois do outro e, finalmente, o éxito mensaxe. [Code]$ bin / Hadoop -format namenode[/Code] Now our setup is done for pseudo distributed node. Imos agora comezar o cluster de nó único, usando o seguinte comando. It will again show some set of messages on the command prompt and start the server process. [Code]$ /bin/start-all.sh[Code] Now we should check the status of Hadoop process by executing the jps command as shown below. It will show all the running processes. [Code]$ jps 14799 NameNode14977 SecondaryNameNode 15183 DataNode15596 JobTracker15897 TaskTracker[/Code]

Stopping the Single node Cluster: We can stop the single node cluster by using the following command. The command prompt will display all the stopping processes.

[Code]$ bin/stop-all.sh stopping jobtrackerlocalhost: stopping tasktrackerstopping namenodelocalhost: stopping datanodelocalhost: stopping secondarynamenode[/Code]

Distributed mode installation:
Before we start the distributed mode installation, we must ensure that we have the pseudo distributed setup done and we have at least two machines, one acting as master and the other one acting as a slave. Now we run the following commands in sequence.

· $ bin/stop-all.sh – Make sure none of the nodes are running

  • Open the /etc/hosts file and add the following entries for master and slave –

<IP ADDRESS> master

<IP ADDRESS> slave

  • $ ssh-copy-id -i $HOME/.ssh/id_rsa.pub slave – This command should be executed on master to have the passwordless ssh. We should login using the same username on all the machines. If we need a password, we can set it manually.
  • Now we open the two files – conf/master and conf/slaves. The conf/master defines the name nodes of our multi node cluster. The conf/slaves file lists the hosts where the Hadoop Slave will be running.
  • Edit the conf/core-site.xml file to have the following entries –

<propiedade>

<nome>fs.default.name</nome>

<valor>HDFS://master:54310</valor>

</propiedade>

  • Edit the conf/mapred-site.xml file to have the following entries –

<propiedade>

<nome>mapred.job.tracker</nome>

<valor>HDFS://master:54311</valor>

</propiedade>

  • Edit the conf/hdfs-site.xml file to have the following entries –

<propiedade>

<nome>dfs.replication</nome>

<valor>2</valor>

</propiedade>

  • Edit the conf/mapred-site.xml file to have the following entries –

<propiedade>

<nome>mapred.local.dir</nome>

<valor>${hadoop-tmp}/mapred/local</valor>

</propiedade>

<propiedade>

<nome>mapred.map.tasks</nome>

<valor>50</valor>

</propiedade>

<propiedade>

<nome>mapred.reduce.tasks</nome>

<valor>5</valor>

</propiedade>

Now start the master by using the following command.

[Code] bin/start-dfs.sh [/Code]

Once started, check the status on the master by using jps command. You should get the following output –

[Code]

14799 NameNode

15314 Jps
16977 secondaryNameNode

[/Code]

On the slave the output should be as shown below.

[Code]

15183 DataNode
15616 Jps

[/Code]

Now start the MapReduce daemons by using the following command.

[Code]

$ bin/start-mapred.sh

[/Code]

Once started check the status on the master by using jps command. You should get the following output –

[Code]

16017 Jps

14799 NameNode

15596 JobTracker

14977 SecondaryNameNode

[/Code]

And on the slaves the output should be as shown below.

[Code]

15183 DataNode

15897 TaskTracker
16284 Jps

[/Code]

Summary: In the above discussion we have covered different Hadoop installation modes and their technical details. But we should be careful when selecting the installation mode. Different modes have their own purpose. So the beginners should start with single mode installation and then proceed with other options.
Let us summarize our discussion with the following bullets

  • Apache Hadoop can be installed in three different modes –
    • Single node
    • Pseudo distributed node
    • Distributed node
  • Single mode is the simplest way to install and get started.
  • If we need clusters but have only one node available, then we should go for Pseudo distributed mode
  • Para instalar o modo distribuído, debemos ter o modo de pseudo distribuídos instalado por primeira vez.
Tagged on:
============================================= ============================================== Buy best TechAlpine Books on Amazon
============================================== ---------------------------------------------------------------- electrician ct chestnutelectric
error

Enjoy this blog? Please spread the word :)

Follow by Email
LinkedIn
LinkedIn
Share