概观: 阿帕奇Hadoop的可以被安装在不同的模式按要求. 这些不同的模式在安装期间配置的. 默认, Hadoop的安装在 独立 mode. 其它模式 伪分布式 模式 分散式 mode. 本教程的目的,是一种简单的方式来解释不同的安装方式,使读者可以跟随它,做自己的本职工作.
In this article, 我将讨论不同的安装方式和他们的详细资料.
介绍: 我们都知道,Apache的Hadoop是一个开源框架,允许大型数据集在不同的簇集的分布式处理使用简单的编程. Hadoop的必须从一台服务器扩展到数千台计算机的能力. 因此,在这种情况下安装的Hadoop成为最关键. 我们可以在三种不同的模式下安装的Hadoop –
- 独立模式 – 单节点集群
- 伪分布式模式 – 单节点集群
- 分布式模式. – 多节点集群
不同的安装模式的目的: 当Apache Hadoop的在生产环境中使用, 多个服务器节点被用于分布式计算. 但对于了解基本知识,并用Hadoop玩弄, 单节点安装就足够了. 有公知的作为另一种模式 “伪分布式’ mode. 该模式被用来模拟一台服务器上的多节点环境.
在本文中,我们将讨论如何在Ubunto Linux上安装的Hadoop. 无论是任何模式, 系统应具有在其上安装的Java 1.6.x版.
独立模式安装: 现在, 让我们通过以下提到的步骤检查独立模式安装过程.
安装Java –
爪哇 (JDK 1.6.x版) 无论是来自Sun / Oracle或打开需要安装Java.
- Step 1 – 如果你不能够切换到OpenJDK的,而不是使用专有的Sun JDK / JRE, 使用以下命令来安装Canonical公司合伙人库太阳的Java6.
注意: “ 典型合作伙伴资源库 包含免费的成本闭源的第三方软件. 但规范不具有访问源代码,而不是他们只是打包并测试它.
添加规范的合作伙伴使用Apt库 –
[Code]
$ sudo的附加的apt-库 “DEB HTTP://archive.canonical.com/lucid伙伴”
[/Code]
- Step 2 – 更新源列表.
[Code]
$ sudo易于得到更新
[/Code]
- Step 3 – 安装来自Sun / Oracle的JDK 1.6.x版.
[Code]
$ 命令和apt-get安装太阳的Java6,JDK
[/Code]
- Step 4 – 一旦JDK安装在确保它是正确安装使用 – 来自Sun / Oracle的1.6.x版.
[Code]
用户@ Ubuntu的:~# java -version java version “1.6.0_45” 爪哇(TM) SE Runtime Environment (建1.6.0_45-B02) Java HotSpot(TM) Client VM (构建16.4-B01, mixed mode, sharing)
[/Code]
添加的Hadoop用户
- Step 5 – 专用的Hadoop UNIX用户添加到您系统下的其他软件此安装隔离 –
[Code]
$ 须藤的adduser hadoop_admin
[/Code]
下载Hadoop的二进制和安装
- Step 6 – 从Apache Web站点下载Apache的Hadoop. 的Hadoop进来焦油-GX格式的形式. 这个二进制文件复制到/ usr /本地/文件夹可安装. 文件夹 – 可安装应先在/ usr /本地创建此步骤之前,. 现在运行以下命令sudo的
[Code]
$ cd /usr/local/installables $ sudo的焦油xzf的Hadoop-0.20.2.tar.gz $ 须藤CHOWN -R hadoop_admin在/ usr /本地/ Hadoop的-0.20.2
[/Code]
定义环境变量 – JAVA_HOME
- Step 7 – 打开Hadoop配置文件 (hadoop-env.sh) 在位置 – /USR /本地/可安装/ Hadoop的-0.20.2/CONF / hadoop-env.sh并定义为JAVA_HOME下 -
[Code] 其中/ JDK /是/安装出口JAVA_HOME =路径/ [/Code]
(例如. /USR /斌/ java的)
安装在单模
- Step 8 – 现在去HADOOP_HOME目录 (其中提取HADOOP位置) 并运行下面的命令 -
[Code]
$ 斌/ Hadoop的
[/Code]
以下输出会显示 -
[Code] Usage: Hadoop的 [–配置confdir] 命令
[/Code]
一些命令选项下面提到. 还有其他可用的选项,并且可以使用上述的命令进行检查.
[Code] namenode -format format the DFS filesystem secondarynamenode run the DFS secondary namenode namenode run the DFS namenode datanode run a DFS datanode dfsadmin run a DFS admin client mradmin run a Map-Reduce admin client fsck run a DFS filesystem checking utility
[/Code]
以上输出表明,独立成功完成安装. 现在你可以运行通过调用您所选择的样本例子 -
[Code] $ bin/hadoop jar hadoop-*-examples.jar <名称> <PARAMS>[/Code]
伪分布式模式安装: 这是基于一个单一的节点服务器上的模拟的多节点环境.
这里所需要的第一个步骤是为了配置SSH访问和管理的不同节点. 因此,它是强制性的,以具有对不同节点的SSH访问. 一旦SSH配置, 启用,并且是可访问的,我们应该开始配置Hadoop的. 以下配置文件需要修改 -
- conf /中核心的site.xml
- conf /中HDFS的site.xml
- CONF / mapred.xml
打开所有的配置文件 我们 编辑和更新配置.
配置核心site.xml文件:
[Code]$ VI的conf /核心的site.xml[/Code] [Code]<组态><财产><名称>fs.default.name</名称><值>HDFS://本地:9000</值></财产><财产><名称>hadoop.tmp.dir</名称><值>/TMP / hadoop- ${user.name}</值></财产></组态>[/Code]
配置HDFS-site.xml文件:
[Code]$ VI的conf / HDFS-site.xml中[/Code] [Code]<组态><财产><名称>dfs.replication</名称><值>1</值></财产></组态>[/Code]
配置mapred.xml文件:
[Code]$ VI的conf / mapred.xml[/Code] [Code]<组态><财产><名称>mapred.job.tracker</名称> <值>本地:9001</值></财产></组态>[/Code] Once these changes are done, 我们需要使用下面的命令来格式化名称节点. 命令提示符将显示所有的消息此起彼伏,终于成功消息. [Code]$ 斌/ Hadoop的NameNode的-format[/Code] Now our setup is done for pseudo distributed node. 现在,让我们通过下面的命令启动单节点集群. It will again show some set of messages on the command prompt and start the server process. [Code]$ /bin/start-all.sh[Code] Now we should check the status of Hadoop process by executing the jps command as shown below. It will show all the running processes. [Code]$ jps 14799 NameNode14977 SecondaryNameNode 15183 DataNode15596 JobTracker15897任务跟踪器[/Code]
停止单节点集群: 我们可以用以下命令停止单节点集群. 命令提示符将显示所有停止进程.
[Code]$ bin/stop-all.sh stopping jobtrackerlocalhost: 停止tasktrackerstopping namenodelocalhost: 停止datanodelocalhost: 停止secondarynamenode[/Code]
分布式模式安装:
在我们开始之前分布式模式安装, 我们必须确保我们的伪分布式安装完成,我们至少有两台机器, 一名代理为主,另一个充当奴隶. 现在我们按顺序运行以下命令.
· $ 斌/ stop-all.sh – 确保没有节点正在运行
- 打开/ etc / hosts文件,并添加以下条目主机和从机 –
<IP地址> master
<IP地址> 奴隶
- $ SSH-copy-id命令-i $ HOME /的.ssh / id_rsa.pub奴隶 – 该命令应在主执行有密码的ssh. 我们应该登录使用在所有计算机上的相同的用户名. 如果我们需要密码, 我们可以手动设置.
- 现在我们打开这两个文件 – CONF /主的conf /奴隶. 通过conf /主定义我们的多节点集群的节点名称. 通过conf /从属文件列出的主机所在的Hadoop从将运行.
- 编辑通过conf /核心site.xml文件有以下条目 –
<财产>
<名称>fs.default.name</名称>
<值>HDFS://master:54310</值>
</财产>
- 编辑通过conf / mapred-site.xml文件有以下条目 –
<财产>
<名称>mapred.job.tracker</名称>
<值>HDFS://master:54311</值>
</财产>
- 编辑通过conf / HDFS-site.xml文件有以下条目 –
<财产>
<名称>dfs.replication</名称>
<值>2</值>
</财产>
- 编辑通过conf / mapred-site.xml文件有以下条目 –
<财产>
<名称>mapred.local.dir</名称>
<值>${Hadoop的TMP}/mapred /本地</值>
</财产>
<财产>
<名称>mapred.map.tasks</名称>
<值>50</值>
</财产>
<财产>
<名称>mapred.reduce.tasks</名称>
<值>5</值>
</财产>
现在,通过使用下面的命令启动主.
[Code] 斌/ start-dfs.sh [/Code]
一旦启动, 通过使用JPS命令检查主服务器上的状态. 你应该得到下面的输出 -
[Code]
14799 的NameNode
15314 太平绅士
16977 secondaryNameNode
[/Code]
在从站的输出应该如下图所示.
[Code]
15183 的DataNode
15616 太平绅士
[/Code]
现在,通过使用下面的命令启动的MapReduce守护进程.
[Code]
$ 斌/ start-mapred.sh
[/Code]
一旦开始使用JPS命令检查主服务器上的状态. 你应该得到下面的输出 -
[Code]
16017 太平绅士
14799 的NameNode
15596 的JobTracker
14977 SecondaryNameNode
[/Code]
而在奴隶的输出应该如下图所示.
[Code]
15183 的DataNode
15897 的TaskTracker
16284 太平绅士
[/Code]
Summary: 在上面的讨论中,我们已经介绍不同的Hadoop的安装模式及其技术细节. 但是,在选择安装模式的时候,我们应该小心. 不同的模式有其自己的目的. 所以,初学者应该单模安装开始,然后与其他选项进行.
让我们总结有以下子弹我们的讨论
- 阿帕奇Hadoop的可安装在三种不同的模式 –
- 单节点
- 伪分布式节点
- 分布式节点
- 单人模式是安装并开始最简单的方法.
- 如果我们需要集群但只有一个节点, 那么,我们应该去伪分布式模式
- 要安装,我们应该先安装伪分布式模式分布式模式.