Vamos a describir la configuración Hadoop en un solo nodo y el nodo de múltiples. The Hadoop environment setup and configuration will be described in details. En primer lugar es necesario descargar el software siguiente (rpm).
- Java JDK RPM
- Apache Hadoop 0.20.204.0 RPM
La) Único nodo de configuración del sistema Hadoop
1) Instalar el JDK en un Red Hat o CentOS 5+ sistema.
$ ./jdk-6u26-linux-x64-rpm.bin.sh
Java está instalado y configurado JAVA_HOME en / usr / java / default
2) Instalar Apache Hadoop 0.20.204.
$ rpm-i hadoop-0.20.204.0-1.i386.rpm
3) Configuración de Apache Hadoop configuración y los procesos de inicio Hadoop.
$ /usr / sbin / hadoop-setup-single node.sh-
El asistente de configuración le guiará a través de una lista de preguntas para la configuración Hadoop. Hadoop debe estar ejecutándose luego de responder "Y" a todas las preguntas.
Crear una cuenta de usuario en HDFS por ti mismo.
$ /usr / sbin / hadoop-create-user.sh U $ USER
B) Multi-nodos Hadoop configuración
1) Instale tanto el JDK y Hadoop 0.20.204.0 RPM en todos los nodos
2) Generar configuración hadoop en todos los nodos:
$ /usr / sbin / hadoop-setup-conf.sh \
--namenode-url=hdfs://${namenode}:9000/ \
--jobtracker-url=${JobTracker}:9001 \
--conf-dir=/etc/hadoop \
--hdfs-dir=/var/lib/hadoop/hdfs \
--namenode-dir=/var/lib/hadoop/hdfs/namenode \
--mapred-dir=/var/lib/hadoop/mapred \
--datanode-dir=/var/lib/hadoop/hdfs/data \
--log-dir=/var/log/hadoop \
--auto
Donde ${namenode} y ${JobTracker} debe ser reemplazado por el nombre de host de namenode y JobTracker.
3) Formato namenode y configuración por defecto HDFS diseño.
$ /usr / sbin / hadoop-setup-hdfs.sh
4) Inicie todos los nodos de datos.
$ /etc / init.d / hadoop-DataNode inicio
5) Comience trabajo nodo rastreador.
$ /etc / init.d / hadoop-JobTracker inicio
6) Comience nodos de tarea rastreador.
$ /etc / init.d / hadoop-TaskTracker inicio
7) Crear una cuenta de usuario en HDFS por ti mismo.
$ /usr / sbin / hadoop-create-user.sh U $ USER
C) Configuración del entorno para Hadoop
$ vi ~ /. bash_profile
En Ruta de conjunto del modo de inserción para JAVA_HOME
Export JAVA_HOME
Guarde el archivo haciendo clic en esc:wq
Ejecute el bash_profile.
$ source ~ /. bash_profile
Establecer ruta JAVA_HOME en el archivo de Medio Ambiente Hadoop
$ /etc / hadoop / hadoop-env.sh
D) Configuración para Hadoop
Utilice el siguiente:
conf / core-site.xml:
<configuración> |
<propiedad> |
<nombre>fs.default.name</nombre> |
<valor>HDFS://localhost:9000</valor> |
</propiedad> |
</configuración> |
conf / HDFS-site.xml:
<configuración> |
<propiedad> |
<nombre>dfs.replication</nombre> |
<valor>1</valor> |
</propiedad> |
</configuración> |
conf / mapred-site.xml:
<configuración> |
<propiedad> |
<nombre>mapred.job.tracker</nombre> |
<valor>localhost:9001</valor> |
</propiedad> |
</configuración> |
Lo) Hadoop Comandos
$ hadoop
$ hadoop namenode de formato (Formatee la namenode, Si pedimos a
Respuesta Pulse 'Y')
$ hadoop NameNode (Inicie el namenode)
$ encontrar / -nombre de inicio dfs.sh (encontrar el archivo en el directorio)
$ cd usr / sbin (Ir al directorio respectivo directamente)
$ puesta en dfs.sh
$ puesta en mapred.sh
$ hadoop fs-ls / (Muestra la carpeta raíz HDFS)
$ hadooop fs-poner input/file01 / input/file01 (Copiar input/file01 local para
HDFS root / input/file01)