Popíšeme Hadoop instalaci na jednom uzlu a více počítačů. The Hadoop environment setup and configuration will be described in details. Nejprve musíte stáhnout následující software (rpm).
- Java JDK RPM
- Apache Hadoop 0.20.204.0 RPM
A) Jediný uzel systém Hadoop nastavení
1) Instalace JDK na Red Hat nebo CentOS 5+ systém.
$ ./jdk-6u26-linux-x64-rpm.bin.sh
Java je nainstalována a nastavena JAVA_HOME na / usr / java / default
2) Instalace Apache Hadoop 0.20.204.
$ rpm-i Hadoop-0.20.204.0-1.i386.rpm
3) Nastavení Apache Hadoop konfiguraci a spuštění Hadoop procesy.
$ /usr / sbin / Hadoop-setup-single-node.sh
Průvodce nastavením vás provede seznam otázek, které nastavení Hadoop. Hadoop by měl být spuštěn po zodpovězení 'Y' na všechny otázky.
Vytvořte uživatelský účet na HDFS pro sebe.
$ /usr / sbin / Hadoop-create-user.sh-u $ USER
B) Multi-uzly Hadoop nastavení
1) Nainstalujte jak JDK a Hadoop 0.20.204.0 RPM ve všech uzlech
2) Generovat Hadoop konfiguraci na všech uzlech:
$ /usr / sbin / Hadoop-setup-conf.sh \
--namenode-url=hdfs://${namenode}:9000/ \
--jobtracker-url=${jobtracker}:9001 \
--conf-dir=/etc/hadoop \
--hdfs-dir=/var/lib/hadoop/hdfs \
--namenode-dir=/var/lib/hadoop/hdfs/namenode \
--mapred-dir=/var/lib/hadoop/mapred \
--datanode-dir=/var/lib/hadoop/hdfs/data \
--log-dir=/var/log/hadoop \
--auto
Kde ${namenode} a ${jobtracker} by měl být nahrazen hostname namenode a jobtracker.
3) Formát namenode a nastavení výchozí HDFS layout.
$ /usr / sbin / Hadoop-setup-hdfs.sh
4) Datum všechny datové uzly.
$ /etc / init.d / Hadoop-datanode začátek
5) Datum úlohy Tracker uzel.
$ /etc / init.d / Hadoop-jobtracker začátek
6) Datum uzly úkolů Tracker.
$ /etc / init.d / Hadoop-task tracker starter
7) Vytvořte uživatelský účet na HDFS pro sebe.
$ /usr / sbin / Hadoop-create-user.sh-u $ USER
C) Nastavení prostředí pro Hadoop
$ vi ~ /. bash_profile
V režimu vkládání nastavené cesty pro JAVA_HOME
Export JAVA_HOME
Uložte soubor klepnutím na tlačítko esc:WQ
Spustit. Bash_profile
$ zdroj ~ /. bash_profile
Nastavit JAVA_HOME cestu v souboru prostředí Hadoop
$ /etc / Hadoop / Hadoop-env.sh
D) Konfigurace pro Hadoop
Použijte následující:
conf / core-site.xml:
<konfigurace> |
<majetek> |
<jméno>fs.default.name</jméno> |
<hodnota>HDFS://localhost:9000</hodnota> |
</majetek> |
</konfigurace> |
conf / HDFS-site.xml:
<konfigurace> |
<majetek> |
<jméno>dfs.replication</jméno> |
<hodnota>1</hodnota> |
</majetek> |
</konfigurace> |
conf / mapred-site.xml:
<konfigurace> |
<majetek> |
<jméno>mapred.job.tracker</jméno> |
<hodnota>localhost:9001</hodnota> |
</majetek> |
</konfigurace> |
To) Hadoop Příkazy
$ Hadoop
$ Hadoop namenode-format (Formátování namenode, Pokud požádejte o
Odpověď stiskněte 'Y')
$ Hadoop namenode (Spusťte namenode)
$ najít / -jméno start-dfs.sh (najít soubor v adresáři)
$ cd usr / sbin (Přejít na příslušného adresáře přímo)
$ start-dfs.sh
$ start-mapred.sh
$ Hadoop fs-ls / (Zobrazuje kořenovou složku HDFS)
$ hadooop fs-dal input/file01 / input/file01 (Kopírovat lokální input/file01 na
HDFS root / input/file01)