Hadoop的安裝方式 - 讓我們來探討

Hadoop mode

Hadoop的模式

概觀: 阿帕奇Hadoop的可以被安裝在不同的模式按要求. 這些不同的模式在安裝期間配置的. By default, Hadoop的安裝在 獨立 mode. 其它模式 偽分佈式 模式 分散式 mode. 本教程的目的,是一種簡單的方式來解釋不同的安裝方式,使讀者可以跟隨它,做自己的本職工作.

In this article, 我將討論不同的安裝方式和他們的詳細資料.

介紹: 我們都知道,Apache的Hadoop是一個開源框架,允許大型數據集在不同的簇集的分佈式處理使用簡單的編程. Hadoop的必須從一台服務器擴展到數千台計算機的能力. 因此,在這種情況下安裝的Hadoop成為最關鍵. 我們可以在三種不同的模式下安裝的Hadoop –

  • 獨立模式 – 單節點集群
  • 偽分佈式模式 – 單節點集群
  • 分佈式模式. – 多節點集群

不同的安裝模式的目的: 當Apache Hadoop的在生產環境中使用, 多個服務器節點被用於分佈式計算. 但對於了解基本知識,並用Hadoop玩弄, 單節點安裝就足夠了. 有公知的作為另一種模式 “偽分佈式’ mode. 該模式被用來模擬一台服務器上的多節點環境.

在本文中,我們將討論如何在Ubunto Linux上安裝的Hadoop. 無論是任何模式, 系統應具有在其上安裝的Java 1.6.x版.

獨立模式安裝: 現在, 讓我們通過以下提到的步驟檢查獨立模式安裝過程.

安裝Java –
爪哇 (JDK 1.6.x版) 無論是來自Sun / Oracle或打開需要安裝Java.

  • Step 1 – 如果你不能夠切換到OpenJDK的,而不是使用專有的Sun JDK / JRE, 使用以下命令來安裝Canonical公司合夥人庫太陽的Java6.

注意:典型合作夥伴資源庫 包含免費的成本閉源的第三方軟件. 但規範不具有訪問源代碼,而不是他們只是打包並測試它.

添加規範的合作夥伴使用Apt庫 –

[Code]

$ sudo的附加的apt-庫 “DEB HTTP://archive.canonical.com/lucid夥伴”

[/Code]

  • Step 2 – 更新源列表.

[Code]

$ sudo易於得到更新

[/Code]

  • Step 3 – 安裝來自Sun / Oracle的JDK 1.6.x版.

[Code]

$ 命令和apt-get安裝太陽的Java6,JDK

[/Code]

  • Step 4 – 一旦JDK安裝在確保它是正確安裝使用 – 來自Sun / Oracle的1.6.x版.

[Code]

用戶@ Ubuntu的:~# java -version java version “1.6.0_45” 爪哇(TM) SE Runtime Environment (建1.6.0_45-B02) Java HotSpot(TM) Client VM (構建16.4-B01, mixed mode, sharing)

[/Code]

添加的Hadoop用戶

  • Step 5 – 專用的Hadoop UNIX用戶添加到您系統下的其他軟件此安裝隔離 –

[Code]

$ 須藤的adduser hadoop_admin

[/Code]

下載Hadoop的二進制和安裝

  • Step 6 – 從Apache Web站點下載Apache的Hadoop. 的Hadoop進來焦油-GX格式的形式. 這個二進制文件複製到/ usr /本地/文件夾可安裝. 文件夾 – 可安裝應先在/ usr /本地創建此步驟之前,. 現在運行以下命令sudo的

[Code]

$ cd /usr/local/installables $ sudo的焦油xzf的Hadoop-0.20.2.tar.gz $ 須藤CHOWN -R hadoop_admin在/ usr /本地/ Hadoop的-0.20.2

[/Code]

定義環境變量 – JAVA_HOME

  • Step 7 – 打開Hadoop配置文件 (hadoop-env.sh) 在位置 – /USR /本地/可安裝/ Hadoop的-0.20.2/CONF / hadoop-env.sh並定義為JAVA_HOME下 -

[Code] 其中/ JDK /是/安裝出口JAVA_HOME =路徑/ [/Code]

(例如. /USR /斌/ java的)

安裝在單模

  • Step 8 – 現在去HADOOP_HOME目錄 (其中提取HADOOP位置) 並運行下面的命令 -

[Code]

$ 斌/ Hadoop的

[/Code]

以下輸出會顯示 -

[Code] 用法: Hadoop的 [–配置confdir] 命令

[/Code]

一些命令選項下面提到. 還有其他可用的選項,並且可以使用上述的命令進行檢查.

[Code] namenode -format format the DFS filesystem secondarynamenode run the DFS secondary namenode namenode run the DFS namenode datanode run a DFS datanode dfsadmin run a DFS admin client mradmin run a Map-Reduce admin client fsck run a DFS filesystem checking utility

[/Code]

以上輸出表明,獨立成功完成安裝. 現在你可以運行通過調用您所選擇的樣本例子 -

[Code] $ bin/hadoop jar hadoop-*-examples.jar <名稱> <PARAMS>[/Code]

偽分佈式模式安裝: 這是基於一個單一的節點服務器上的模擬的多節點環境.
這裡所需要的第一個步驟是為了配置SSH訪問和管理的不同節點. 因此,它是強制性的,以具有對不同節點的SSH訪問. 一旦SSH配置, 啟用,並且是可訪問的,我們應該開始配置Hadoop的. 以下配置文件需要修改 -

  • conf /中核心的site.xml
  • conf /中HDFS的site.xml
  • CONF / mapred.xml

打開所有的配置文件 我們 編輯和更新配置.

配置核心site.xml文件:

[Code]$ VI的conf /核心的site.xml[/Code] [Code]<組態><財產><名稱>fs.default.name</名稱><值>HDFS://本地:9000</值></財產><財產><名稱>hadoop.tmp.dir</名稱><值>/TMP / hadoop- ${user.name}</值></財產></組態>[/Code]

配置HDFS-site.xml文件:

[Code]$ VI的conf / HDFS-site.xml中[/Code] [Code]<組態><財產><名稱>dfs.replication</名稱><值>1</值></財產></組態>[/Code]

配置mapred.xml文件:

[Code]$ VI的conf / mapred.xml[/Code] [Code]<組態><財產><名稱>mapred.job.tracker</名稱> <值>本地:9001</值></財產></組態>[/Code] Once these changes are done, 我們需要使用下面的命令來格式化名稱節點. 命令提示符將顯示所有的消息此起彼伏,終於成功消息. [Code]$ 斌/ Hadoop的NameNode的-format[/Code] Now our setup is done for pseudo distributed node. 現在,讓我們通過下面的命令啟動單節點集群. It will again show some set of messages on the command prompt and start the server process. [Code]$ /bin/start-all.sh[Code] Now we should check the status of Hadoop process by executing the jps command as shown below. It will show all the running processes. [Code]$ jps 14799 NameNode14977 SecondaryNameNode 15183 DataNode15596 JobTracker15897任務跟踪器[/Code]

停止單節點集群: 我們可以用以下命令停止單節點集群. 命令提示符將顯示所有停止進程.

[Code]$ bin/stop-all.sh stopping jobtrackerlocalhost: 停止tasktrackerstopping namenodelocalhost: 停止datanodelocalhost: 停止secondarynamenode[/Code]

分佈式模式安裝:
在我們開始之前分佈式模式安裝, 我們必須確保我們的偽分佈式安裝完成,我們至少有兩台機器, 一名代理為主,另一個充當奴隸. 現在我們按順序運行以下命令.

· $ 斌/ stop-all.sh – 確保沒有節點正在運行

  • 打開/ etc / hosts文件,並添加以下條目主機和從機 –

<IP地址> master

<IP地址> 奴隸

  • $ SSH-copy-id命令-i $ HOME /的.ssh / id_rsa.pub奴隸 – 該命令應在主執行有密碼的ssh. 我們應該登錄使用在所有計算機上的相同的用戶名. 如果我們需要密碼, 我們可以手動設置.
  • 現在我們打開這兩個文件 – CONF /主的conf /奴隸. 通過conf /主定義我們的多節點集群的節點名稱. 通過conf /從屬文件列出的主機所在的Hadoop從將運行.
  • 編輯通過conf /核心site.xml文件有以下條目 –

<財產>

<名稱>fs.default.name</名稱>

<值>HDFS://master:54310</值>

</財產>

  • 編輯通過conf / mapred-site.xml文件有以下條目 –

<財產>

<名稱>mapred.job.tracker</名稱>

<值>HDFS://master:54311</值>

</財產>

  • 編輯通過conf / HDFS-site.xml文件有以下條目 –

<財產>

<名稱>dfs.replication</名稱>

<值>2</值>

</財產>

  • 編輯通過conf / mapred-site.xml文件有以下條目 –

<財產>

<名稱>mapred.local.dir</名稱>

<值>${Hadoop的TMP}/mapred /本地</值>

</財產>

<財產>

<名稱>mapred.map.tasks</名稱>

<值>50</值>

</財產>

<財產>

<名稱>mapred.reduce.tasks</名稱>

<值>5</值>

</財產>

現在,通過使用下面的命令啟動主.

[Code] 斌/ start-dfs.sh [/Code]

一旦啟動, 通過使用JPS命令檢查主服務器上的狀態. 你應該得到下面的輸出 -

[Code]

14799 的NameNode

15314 太平紳士
16977 secondaryNameNode

[/Code]

在從站的輸出應該如下圖所示.

[Code]

15183 的DataNode
15616 太平紳士

[/Code]

現在,通過使用下面的命令啟動的MapReduce守護進程.

[Code]

$ 斌/ start-mapred.sh

[/Code]

一旦開始使用JPS命令檢查主服務器上的狀態. 你應該得到下面的輸出 -

[Code]

16017 太平紳士

14799 的NameNode

15596 的JobTracker

14977 SecondaryNameNode

[/Code]

而在奴隸的輸出應該如下圖所示.

[Code]

15183 的DataNode

15897 的TaskTracker
16284 太平紳士

[/Code]

Summary: 在上面的討論中,我們已經介紹不同的Hadoop的安裝模式及其技術細節. 但是,在選擇安裝模式的時候,我們應該小心. 不同的模式有其自己的目的. 所以,初學者應該單模安裝開始,然後與其他選項進行.
讓我們總結有以下子彈我們的討論

  • 阿帕奇Hadoop的可安裝在三種不同的模式 –
    • 單節點
    • 偽分佈式節點
    • 分佈式節點
  • 單人模式是安裝並開始最簡單的方法.
  • 如果我們需要集群但只有一個節點, 那麼,我們應該去偽分佈式模式
  • 要安裝,我們應該先安裝偽分佈式模式分佈式模式.
標籤:
============================================= ============================================== 在亞馬遜上購買最佳技術書籍,en,電工CT Chestnutelectric,en
============================================== ---------------------------------------------------------------- electrician ct chestnutelectric
error

Enjoy this blog? Please spread the word :)

Follow by Email
LinkedIn
LinkedIn
Share