Wir werden Hadoop-Setup auf einzelnen Knoten und mehreren Knoten zu beschreiben. Die Hadoop Umgebung Setup und die Konfiguration wird detailliert beschrieben. Zuerst müssen Sie die folgende Software downloaden (rpm).
- Java JDK RPM
- Apache Hadoop 0.20.204.0 RPM
A) Einzel-Knoten-System Hadoop Setup
1) Installieren Sie JDK auf einem Red Hat oder CentOS 5+ System.
$ ./jdk-6u26-linux-x64-rpm.bin.sh
Java installiert ist und setzen Sie JAVA_HOME auf / usr / java / default
2) Installieren Sie Apache Hadoop 0.20.204.
$ rpm-i hadoop-0.20.204.0-1.i386.rpm
3) Setup Apache Hadoop Konfiguration und Start Hadoop-Prozesse.
$ /usr / sbin / Hadoop-setup-Single-node.sh
Der Setup-Assistent führt Sie durch eine Liste von Fragen führen, um das Setup Hadoop. Hadoop sollte nach Beantwortung 'Y' auf alle Fragen laufen.
Erstellen Sie ein Benutzerkonto auf HDFS für sich selbst.
$ /usr / sbin / Hadoop-create-user.sh-u $ USER
B) Multi-Knoten Hadoop Setup
1) Installieren Sie sowohl die JDK und Hadoop 0.20.204.0 RPMs auf allen Knoten
2) Generieren Hadoop-Konfiguration auf allen Knoten:
$ /usr / sbin / Hadoop-setup-conf.sh \
--NameNode-url = hdfs://${namenode}:9000/ \
--Jobtracker url = ${JobTracker}:9001 \
--conf-dir = / etc / hadoop \
--hdfs-dir = / var / lib / Hadoop / hdfs \
--NameNode-dir = / var / lib / Hadoop / hdfs / NameNode \
--mapred-dir = / var / lib / Hadoop / mapred \
--DataNode-dir = / var / lib / Hadoop / hdfs / Daten \
--log-dir = / var / log / hadoop \
--Auto
Wo ${namenode} und ${JobTracker} sollte mit Hostnamen namenode und JobTracker ersetzt werden.
3) Format namenode und Setup standardmäßig HDFS Layout.
$ /usr / sbin / Hadoop-setup-hdfs.sh
4) Starten Sie alle Datenknoten.
$ /etc / init.d / Hadoop-DataNode Start
5) Start-Job Tracker-Knoten.
$ /etc / init.d / Hadoop-JobTracker Start
6) Starten Sie Task Tracker-Knoten.
$ /etc / init.d / Hadoop-Task Tracker Starter
7) Erstellen Sie ein Benutzerkonto auf HDFS für sich selbst.
$ /usr / sbin / Hadoop-create-user.sh-u $ USER
C) Setup Environment for Hadoop
$ vi ~ /. bash_profile
In INSERT-Modus set path für JAVA_HOME
Export JAVA_HOME
Speichern Sie die Datei, indem Sie esc:wq
Führen Sie das. Bash_profile
$ source ~ /. bash_profile
JAVA_HOME Pfad in Hadoop Environment-Datei
$ /etc / Hadoop / Hadoop-env.sh
D) Konfiguration für Hadoop
Verwenden Sie die folgende:
conf / Kern-site.xml:
<Konfiguration> |
<Eigentum> |
<Name>fs.default.name</Name> |
<Wert>HDFS://localhost:9000</Wert> |
</Eigentum> |
</Konfiguration> |
conf / HDFS-site.xml:
<Konfiguration> |
<Eigentum> |
<Name>dfs.replication</Name> |
<Wert>1</Wert> |
</Eigentum> |
</Konfiguration> |
conf / mapred-site.xml:
<Konfiguration> |
<Eigentum> |
<Name>mapred.job.tracker</Name> |
<Wert>localhost:9001</Wert> |
</Eigentum> |
</Konfiguration> |
Es) Hadoop Befehle
$ hadoop
$ hadoop namenode-Format (Formatieren Sie die namenode, Wenn Sie fragen, um
beantworten Presse 'Y')
$ hadoop namenode (Starten Sie den namenode)
$ finden / -nennen Start-dfs.sh (finden Sie die Datei im Verzeichnis)
$ cd usr / sbin (Zum jeweiligen Verzeichnis direkt)
$ Start-dfs.sh
$ Start-mapred.sh
$ hadoop fs-ls / (Zeigt die HDFS Stammordner)
$ hadooop fs-gestellt input/file01 / input/file01 (Kopieren lokalen input/file01 um
HDFS root / input/file01)