Vi vil beskrive Hadoop setup på en enkelt node og multi node. The Hadoop environment setup and configuration will be described in details. Først skal du downloade følgende software (rpm).
- Java JDK RPM
- Apache Hadoop 0.20.204.0 RPM
A) Single node-system Hadoop opsætning
1) Installer JDK på en Red Hat eller CentOS 5+ systemet.
$ ./JDK-6u26-linux-x64-rpm.bin.sh
Java er installeret og konfigureret JAVA_HOME til / usr / java / default
2) Installer Apache Hadoop 0.20.204.
$ rpm-i Hadoop-0.20.204.0-1.i386.rpm
3) Opsætning Apache Hadoop konfiguration og nystartede Hadoop processer.
$ /usr / sbin / Hadoop-setup-single-node.sh
Opsætningsguiden vil guide dig gennem en liste med spørgsmål til setup Hadoop. Hadoop skal køre efter at besvare 'Y' til alle spørgsmål.
Opret en brugerkonto på HDFS for dig selv.
$ /usr / sbin / Hadoop-create-user.sh-u $ USER
B) Multi-nodes Hadoop setup
1) Installer både JDK og Hadoop 0.20.204.0 RPM'er på alle noder
2) Generer Hadoop konfiguration på alle knuder:
$ /usr / sbin / Hadoop-setup-conf.sh \
--namenode-url = HDFS://${namenode}:9000/ \
--jobtracker url = ${jobtracker}:9001 \
--conf-dir = / etc / Hadoop \
--HDFS-dir = / var / lib / Hadoop / HDFS \
--namenode-dir = / var / lib / Hadoop / HDFS / namenode \
--mapred-dir = / var / lib / Hadoop / mapred \
--datanode-dir = / var / lib / Hadoop / HDFS / data \
--log-dir = / var / log / Hadoop \
--auto
Hvor ${namenode} og ${jobtracker} bør erstattes med værtsnavnet på namenode og jobtracker.
3) Format namenode og opsætning standard HDFS layout.
$ /usr / sbin / Hadoop-setup-hdfs.sh
4) Start alle data noder.
$ /etc / init.d / Hadoop-datanode starter
5) Start job tracker node.
$ /etc / init.d / Hadoop-jobtracker starter
6) Start task tracker knudepunkter.
$ /etc / init.d / Hadoop-task tracker starter
7) Opret en brugerkonto på HDFS for dig selv.
$ /usr / sbin / Hadoop-create-user.sh-u $ USER
C) Opsætning Environment for Hadoop
$ VI ~ /. bash_profile
I INSERT Mode Set sti til JAVA_HOME
Export JAVA_HOME
Spar fil ved at klikke esc:WQ
Kør. Bash_profile
$ source ~ /. bash_profile
Set JAVA_HOME sti i Hadoop Miljø-fil
$ /etc / Hadoop / Hadoop-env.sh
D) Konfiguration af Hadoop
Brug følgende:
conf / kerne-site.xml:
<konfiguration> |
<ejendom> |
<navn>fs.default.name</navn> |
<værdi>HDFS://localhost:9000</værdi> |
</ejendom> |
</konfiguration> |
conf / HDFS-site.xml:
<konfiguration> |
<ejendom> |
<navn>dfs.replication</navn> |
<værdi>1</værdi> |
</ejendom> |
</konfiguration> |
conf / mapred-site.xml:
<konfiguration> |
<ejendom> |
<navn>mapred.job.tracker</navn> |
<værdi>localhost:9001</værdi> |
</ejendom> |
</konfiguration> |
Det) Hadoop Kommandoer
$ Hadoop
$ Hadoop namenode-format (Formater namenode, Hvis spørge til
besvare tryk på 'Y')
$ Hadoop namenode (Start namenode)
$ find / -navngive start-dfs.sh (finde filen i mappen)
$ cd usr / sbin (Gå til pågældende bibliotek direkte)
$ start-dfs.sh
$ start-mapred.sh
$ Hadoop fs-ls / (Viser HDFS rodmappen)
$ hadooop fs-sætte input/file01 / input/file01 (Kopiér lokal input/file01 til
HDFS root / input/file01)