概觀: 阿帕奇Hadoop的可以被安裝在不同的模式按要求. 這些不同的模式在安裝期間配置的. By default, Hadoop的安裝在 獨立 mode. 其它模式 偽分佈式 模式 分散式 mode. 本教程的目的,是一種簡單的方式來解釋不同的安裝方式,使讀者可以跟隨它,做自己的本職工作.
In this article, 我將討論不同的安裝方式和他們的詳細資料.
介紹: 我們都知道,Apache的Hadoop是一個開源框架,允許大型數據集在不同的簇集的分佈式處理使用簡單的編程. Hadoop的必須從一台服務器擴展到數千台計算機的能力. 因此,在這種情況下安裝的Hadoop成為最關鍵. 我們可以在三種不同的模式下安裝的Hadoop –
- 獨立模式 – 單節點集群
- 偽分佈式模式 – 單節點集群
- 分佈式模式. – 多節點集群
不同的安裝模式的目的: 當Apache Hadoop的在生產環境中使用, 多個服務器節點被用於分佈式計算. 但對於了解基本知識,並用Hadoop玩弄, 單節點安裝就足夠了. 有公知的作為另一種模式 “偽分佈式’ mode. 該模式被用來模擬一台服務器上的多節點環境.
在本文中,我們將討論如何在Ubunto Linux上安裝的Hadoop. 無論是任何模式, 系統應具有在其上安裝的Java 1.6.x版.
獨立模式安裝: 現在, 讓我們通過以下提到的步驟檢查獨立模式安裝過程.
安裝Java –
爪哇 (JDK 1.6.x版) 無論是來自Sun / Oracle或打開需要安裝Java.
- Step 1 – 如果你不能夠切換到OpenJDK的,而不是使用專有的Sun JDK / JRE, 使用以下命令來安裝Canonical公司合夥人庫太陽的Java6.
注意: “ 典型合作夥伴資源庫 包含免費的成本閉源的第三方軟件. 但規範不具有訪問源代碼,而不是他們只是打包並測試它.
添加規範的合作夥伴使用Apt庫 –
[Code]
$ sudo的附加的apt-庫 “DEB HTTP://archive.canonical.com/lucid夥伴”
[/Code]
- Step 2 – 更新源列表.
[Code]
$ sudo易於得到更新
[/Code]
- Step 3 – 安裝來自Sun / Oracle的JDK 1.6.x版.
[Code]
$ 命令和apt-get安裝太陽的Java6,JDK
[/Code]
- Step 4 – 一旦JDK安裝在確保它是正確安裝使用 – 來自Sun / Oracle的1.6.x版.
[Code]
用戶@ Ubuntu的:~# java -version java version “1.6.0_45” 爪哇(TM) SE Runtime Environment (建1.6.0_45-B02) Java HotSpot(TM) Client VM (構建16.4-B01, mixed mode, sharing)
[/Code]
添加的Hadoop用戶
- Step 5 – 專用的Hadoop UNIX用戶添加到您系統下的其他軟件此安裝隔離 –
[Code]
$ 須藤的adduser hadoop_admin
[/Code]
下載Hadoop的二進制和安裝
- Step 6 – 從Apache Web站點下載Apache的Hadoop. 的Hadoop進來焦油-GX格式的形式. 這個二進制文件複製到/ usr /本地/文件夾可安裝. 文件夾 – 可安裝應先在/ usr /本地創建此步驟之前,. 現在運行以下命令sudo的
[Code]
$ cd /usr/local/installables $ sudo的焦油xzf的Hadoop-0.20.2.tar.gz $ 須藤CHOWN -R hadoop_admin在/ usr /本地/ Hadoop的-0.20.2
[/Code]
定義環境變量 – JAVA_HOME
- Step 7 – 打開Hadoop配置文件 (hadoop-env.sh) 在位置 – /USR /本地/可安裝/ Hadoop的-0.20.2/CONF / hadoop-env.sh並定義為JAVA_HOME下 -
[Code] 其中/ JDK /是/安裝出口JAVA_HOME =路徑/ [/Code]
(例如. /USR /斌/ java的)
安裝在單模
- Step 8 – 現在去HADOOP_HOME目錄 (其中提取HADOOP位置) 並運行下面的命令 -
[Code]
$ 斌/ Hadoop的
[/Code]
以下輸出會顯示 -
[Code] 用法: Hadoop的 [–配置confdir] 命令
[/Code]
一些命令選項下面提到. 還有其他可用的選項,並且可以使用上述的命令進行檢查.
[Code] namenode -format format the DFS filesystem secondarynamenode run the DFS secondary namenode namenode run the DFS namenode datanode run a DFS datanode dfsadmin run a DFS admin client mradmin run a Map-Reduce admin client fsck run a DFS filesystem checking utility
[/Code]
以上輸出表明,獨立成功完成安裝. 現在你可以運行通過調用您所選擇的樣本例子 -
[Code] $ bin/hadoop jar hadoop-*-examples.jar <名稱> <PARAMS>[/Code]
偽分佈式模式安裝: 這是基於一個單一的節點服務器上的模擬的多節點環境.
這裡所需要的第一個步驟是為了配置SSH訪問和管理的不同節點. 因此,它是強制性的,以具有對不同節點的SSH訪問. 一旦SSH配置, 啟用,並且是可訪問的,我們應該開始配置Hadoop的. 以下配置文件需要修改 -
- conf /中核心的site.xml
- conf /中HDFS的site.xml
- CONF / mapred.xml
打開所有的配置文件 我們 編輯和更新配置.
配置核心site.xml文件:
[Code]$ VI的conf /核心的site.xml[/Code] [Code]<組態><財產><名稱>fs.default.name</名稱><值>HDFS://本地:9000</值></財產><財產><名稱>hadoop.tmp.dir</名稱><值>/TMP / hadoop- ${user.name}</值></財產></組態>[/Code]
配置HDFS-site.xml文件:
[Code]$ VI的conf / HDFS-site.xml中[/Code] [Code]<組態><財產><名稱>dfs.replication</名稱><值>1</值></財產></組態>[/Code]
配置mapred.xml文件:
[Code]$ VI的conf / mapred.xml[/Code] [Code]<組態><財產><名稱>mapred.job.tracker</名稱> <值>本地:9001</值></財產></組態>[/Code] Once these changes are done, 我們需要使用下面的命令來格式化名稱節點. 命令提示符將顯示所有的消息此起彼伏,終於成功消息. [Code]$ 斌/ Hadoop的NameNode的-format[/Code] Now our setup is done for pseudo distributed node. 現在,讓我們通過下面的命令啟動單節點集群. It will again show some set of messages on the command prompt and start the server process. [Code]$ /bin/start-all.sh[Code] Now we should check the status of Hadoop process by executing the jps command as shown below. It will show all the running processes. [Code]$ jps 14799 NameNode14977 SecondaryNameNode 15183 DataNode15596 JobTracker15897任務跟踪器[/Code]
停止單節點集群: 我們可以用以下命令停止單節點集群. 命令提示符將顯示所有停止進程.
[Code]$ bin/stop-all.sh stopping jobtrackerlocalhost: 停止tasktrackerstopping namenodelocalhost: 停止datanodelocalhost: 停止secondarynamenode[/Code]
分佈式模式安裝:
在我們開始之前分佈式模式安裝, 我們必須確保我們的偽分佈式安裝完成,我們至少有兩台機器, 一名代理為主,另一個充當奴隸. 現在我們按順序運行以下命令.
· $ 斌/ stop-all.sh – 確保沒有節點正在運行
- 打開/ etc / hosts文件,並添加以下條目主機和從機 –
<IP地址> master
<IP地址> 奴隸
- $ SSH-copy-id命令-i $ HOME /的.ssh / id_rsa.pub奴隸 – 該命令應在主執行有密碼的ssh. 我們應該登錄使用在所有計算機上的相同的用戶名. 如果我們需要密碼, 我們可以手動設置.
- 現在我們打開這兩個文件 – CONF /主的conf /奴隸. 通過conf /主定義我們的多節點集群的節點名稱. 通過conf /從屬文件列出的主機所在的Hadoop從將運行.
- 編輯通過conf /核心site.xml文件有以下條目 –
<財產>
<名稱>fs.default.name</名稱>
<值>HDFS://master:54310</值>
</財產>
- 編輯通過conf / mapred-site.xml文件有以下條目 –
<財產>
<名稱>mapred.job.tracker</名稱>
<值>HDFS://master:54311</值>
</財產>
- 編輯通過conf / HDFS-site.xml文件有以下條目 –
<財產>
<名稱>dfs.replication</名稱>
<值>2</值>
</財產>
- 編輯通過conf / mapred-site.xml文件有以下條目 –
<財產>
<名稱>mapred.local.dir</名稱>
<值>${Hadoop的TMP}/mapred /本地</值>
</財產>
<財產>
<名稱>mapred.map.tasks</名稱>
<值>50</值>
</財產>
<財產>
<名稱>mapred.reduce.tasks</名稱>
<值>5</值>
</財產>
現在,通過使用下面的命令啟動主.
[Code] 斌/ start-dfs.sh [/Code]
一旦啟動, 通過使用JPS命令檢查主服務器上的狀態. 你應該得到下面的輸出 -
[Code]
14799 的NameNode
15314 太平紳士
16977 secondaryNameNode
[/Code]
在從站的輸出應該如下圖所示.
[Code]
15183 的DataNode
15616 太平紳士
[/Code]
現在,通過使用下面的命令啟動的MapReduce守護進程.
[Code]
$ 斌/ start-mapred.sh
[/Code]
一旦開始使用JPS命令檢查主服務器上的狀態. 你應該得到下面的輸出 -
[Code]
16017 太平紳士
14799 的NameNode
15596 的JobTracker
14977 SecondaryNameNode
[/Code]
而在奴隸的輸出應該如下圖所示.
[Code]
15183 的DataNode
15897 的TaskTracker
16284 太平紳士
[/Code]
Summary: 在上面的討論中,我們已經介紹不同的Hadoop的安裝模式及其技術細節. 但是,在選擇安裝模式的時候,我們應該小心. 不同的模式有其自己的目的. 所以,初學者應該單模安裝開始,然後與其他選項進行.
讓我們總結有以下子彈我們的討論
- 阿帕奇Hadoop的可安裝在三種不同的模式 –
- 單節點
- 偽分佈式節點
- 分佈式節點
- 單人模式是安裝並開始最簡單的方法.
- 如果我們需要集群但只有一個節點, 那麼,我們應該去偽分佈式模式
- 要安裝,我們應該先安裝偽分佈式模式分佈式模式.