Opiszemy instalację Hadoop na jeden węzeł i węzeł wielu. The Hadoop environment setup and configuration will be described in details. Najpierw musisz pobrać następujące oprogramowanie (rpm).
- Java JDK RPM
- Apache Hadoop 0.20.204.0 RPM
A) Pojedynczy węzeł System Hadoop setup
1) Zainstalować JDK na Red Hat lub CentOS 5+ system.
$ ./jdk-6u26-linux-x64-rpm.bin.sh
Java jest zainstalowane i ustawione JAVA_HOME do katalogu / usr / java / default
2) Instalacja Apache Hadoop 0.20.204.
$ rpm-i Hadoop-0.20.204.0-1.i386.rpm
3) Konfiguracja Apache Hadoop konfiguracji i rozpoczęcia procesy Hadoop.
$ /usr / sbin / Hadoop-setup-single-node.sh
Kreator instalacji poprowadzi Cię przez listę pytań do instalacji Hadoop. Hadoop powinien być uruchomiony po odpowiedzi "Y" na wszystkie pytania.
Utwórz konto użytkownika dla siebie na HDFS.
$ /usr / sbin / Hadoop-create-user.sh-u $ USER
B) Multi-węzły setup Hadoop
1) Zainstalować zarówno JDK i Hadoop 0.20.204.0 RPM na wszystkich węzłach
2) Generowanie konfiguracji Hadoop na wszystkich węzłach:
$ /usr / sbin / Hadoop-setup-conf.sh \
--namenode-url=hdfs://${namenode}:9000/ \
--jobtracker-url=${jobtracker}:9001 \
--conf-dir=/etc/hadoop \
--hdfs-dir=/var/lib/hadoop/hdfs \
--namenode-dir=/var/lib/hadoop/hdfs/namenode \
--mapred-dir=/var/lib/hadoop/mapred \
--datanode-dir=/var/lib/hadoop/hdfs/data \
--log-dir=/var/log/hadoop \
--auto
Gdzie ${namenode} i ${jobtracker} należy zastąpić hosta namenode i jobtracker.
3) Format namenode i domyślna konfiguracja HDFS układ.
$ /usr / sbin / Hadoop-setup-hdfs.sh
4) Uruchom wszystkie węzły danych.
$ /etc / init.d / Hadoop-datanode początek
5) Początek pracy tracker węzeł.
$ /etc / init.d / Hadoop-jobtracker początek
6) Zacznij węzły tracker zadań.
$ /etc / init.d / Hadoop-task tracker rozrusznik
7) Utwórz konto użytkownika dla siebie na HDFS.
$ /usr / sbin / Hadoop-create-user.sh-u $ USER
C) Środowisko Konfiguracja dla Hadoop
$ my ~ /. bash_profile
W trybie Insert zadanej dla JAVA_HOME
Export JAVA_HOME
Zapisz plik, klikając esc:wq
Uruchom. Bash_profile
$ source ~ /. bash_profile
Ustaw ścieżkę JAVA_HOME w pliku Hadoop Środowiska
$ /etc / Hadoop / Hadoop-env.sh
D) Konfiguracja dla Hadoop
Użyj następujących:
conf / core-site.xml:
<konfiguracja> |
<nieruchomość> |
<nazwa>fs.default.name</nazwa> |
<wartość>HDFS://localhost:9000</wartość> |
</nieruchomość> |
</konfiguracja> |
conf / HDFS-site.xml:
<konfiguracja> |
<nieruchomość> |
<nazwa>dfs.replication</nazwa> |
<wartość>1</wartość> |
</nieruchomość> |
</konfiguracja> |
conf / mapred-site.xml:
<konfiguracja> |
<nieruchomość> |
<nazwa>mapred.job.tracker</nazwa> |
<wartość>localhost:9001</wartość> |
</nieruchomość> |
</konfiguracja> |
To) Polecenia Hadoop
$ Hadoop
$ Hadoop namenode-format (Sformatuj namenode, Jeśli poprosić
answer prasową 'Y')
$ Hadoop namenode (Uruchom namenode)
$ odnaleźć / -nazwę start-dfs.sh (znaleźć plik w katalogu)
$ cd usr / sbin (Przejdź do odpowiedniego katalogu bezpośrednio)
$ start-dfs.sh
$ start-mapred.sh
$ Hadoop fs-ls / (Pokazuje folder główny HDFS)
$ hadooop fs-put input/file01 / input/file01 (Skopiuj do lokalnego input/file01
HDFS root / input/file01)