Hadoop的安装方式 - 让我们来探讨

Hadoop mode

Hadoop的模式

概观: 阿帕奇Hadoop的可以被安装在不同的模式按要求. 这些不同的模式在安装期间配置的. 默认, Hadoop的安装在 独立 mode. 其它模式 伪分布式 模式 分散式 mode. 本教程的目的,是一种简单的方式来解释不同的安装方式,使读者可以跟随它,做自己的本职工作.

In this article, 我将讨论不同的安装方式和他们的详细资料.

介绍: 我们都知道,Apache的Hadoop是一个开源框架,允许大型数据集在不同的簇集的分布式处理使用简单的编程. Hadoop的必须从一台服务器扩展到数千台计算机的能力. 因此,在这种情况下安装的Hadoop成为最关键. 我们可以在三种不同的模式下安装的Hadoop –

  • 独立模式 – 单节点集群
  • 伪分布式模式 – 单节点集群
  • 分布式模式. – 多节点集群

不同的安装模式的目的: 当Apache Hadoop的在生产环境中使用, 多个服务器节点被用于分布式计算. 但对于了解基本知识,并用Hadoop玩弄, 单节点安装就足够了. 有公知的作为另一种模式 “伪分布式’ mode. 该模式被用来模拟一台服务器上的多节点环境.

在本文中,我们将讨论如何在Ubunto Linux上安装的Hadoop. 无论是任何模式, 系统应具有在其上安装的Java 1.6.x版.

独立模式安装: 现在, 让我们通过以下提到的步骤检查独立模式安装过程.

安装Java –
爪哇 (JDK 1.6.x版) 无论是来自Sun / Oracle或打开需要安装Java.

  • Step 1 – 如果你不能够切换到OpenJDK的,而不是使用专有的Sun JDK / JRE, 使用以下命令来安装Canonical公司合伙人库太阳的Java6.

注意:典型合作伙伴资源库 包含免费的成本闭源的第三方软件. 但规范不具有访问源代码,而不是他们只是打包并测试它.

添加规范的合作伙伴使用Apt库 –

[Code]

$ sudo的附加的apt-库 “DEB HTTP://archive.canonical.com/lucid伙伴”

[/Code]

  • Step 2 – 更新源列表.

[Code]

$ sudo易于得到更新

[/Code]

  • Step 3 – 安装来自Sun / Oracle的JDK 1.6.x版.

[Code]

$ 命令和apt-get安装太阳的Java6,JDK

[/Code]

  • Step 4 – 一旦JDK安装在确保它是正确安装使用 – 来自Sun / Oracle的1.6.x版.

[Code]

用户@ Ubuntu的:~# java -version java version “1.6.0_45” 爪哇(TM) SE Runtime Environment (建1.6.0_45-B02) Java HotSpot(TM) Client VM (构建16.4-B01, mixed mode, sharing)

[/Code]

添加的Hadoop用户

  • Step 5 – 专用的Hadoop UNIX用户添加到您系统下的其他软件此安装隔离 –

[Code]

$ 须藤的adduser hadoop_admin

[/Code]

下载Hadoop的二进制和安装

  • Step 6 – 从Apache Web站点下载Apache的Hadoop. 的Hadoop进来焦油-GX格式的形式. 这个二进制文件复制到/ usr /本地/文件夹可安装. 文件夹 – 可安装应先在/ usr /本地创建此步骤之前,. 现在运行以下命令sudo的

[Code]

$ cd /usr/local/installables $ sudo的焦油xzf的Hadoop-0.20.2.tar.gz $ 须藤CHOWN -R hadoop_admin在/ usr /本地/ Hadoop的-0.20.2

[/Code]

定义环境变量 – JAVA_HOME

  • Step 7 – 打开Hadoop配置文件 (hadoop-env.sh) 在位置 – /USR /本地/可安装/ Hadoop的-0.20.2/CONF / hadoop-env.sh并定义为JAVA_HOME下 -

[Code] 其中/ JDK /是/安装出口JAVA_HOME =路径/ [/Code]

(例如. /USR /斌/ java的)

安装在单模

  • Step 8 – 现在去HADOOP_HOME目录 (其中提取HADOOP位置) 并运行下面的命令 -

[Code]

$ 斌/ Hadoop的

[/Code]

以下输出会显示 -

[Code] Usage: Hadoop的 [–配置confdir] 命令

[/Code]

一些命令选项下面提到. 还有其他可用的选项,并且可以使用上述的命令进行检查.

[Code] namenode -format format the DFS filesystem secondarynamenode run the DFS secondary namenode namenode run the DFS namenode datanode run a DFS datanode dfsadmin run a DFS admin client mradmin run a Map-Reduce admin client fsck run a DFS filesystem checking utility

[/Code]

以上输出表明,独立成功完成安装. 现在你可以运行通过调用您所选择的样本例子 -

[Code] $ bin/hadoop jar hadoop-*-examples.jar <名称> <PARAMS>[/Code]

伪分布式模式安装: 这是基于一个单一的节点服务器上的模拟的多节点环境.
这里所需要的第一个步骤是为了配置SSH访问和管理的不同节点. 因此,它是强制性的,以具有对不同节点的SSH访问. 一旦SSH配置, 启用,并且是可访问的,我们应该开始配置Hadoop的. 以下配置文件需要修改 -

  • conf /中核心的site.xml
  • conf /中HDFS的site.xml
  • CONF / mapred.xml

打开所有的配置文件 我们 编辑和更新配置.

配置核心site.xml文件:

[Code]$ VI的conf /核心的site.xml[/Code] [Code]<组态><财产><名称>fs.default.name</名称><值>HDFS://本地:9000</值></财产><财产><名称>hadoop.tmp.dir</名称><值>/TMP / hadoop- ${user.name}</值></财产></组态>[/Code]

配置HDFS-site.xml文件:

[Code]$ VI的conf / HDFS-site.xml中[/Code] [Code]<组态><财产><名称>dfs.replication</名称><值>1</值></财产></组态>[/Code]

配置mapred.xml文件:

[Code]$ VI的conf / mapred.xml[/Code] [Code]<组态><财产><名称>mapred.job.tracker</名称> <值>本地:9001</值></财产></组态>[/Code] Once these changes are done, 我们需要使用下面的命令来格式化名称节点. 命令提示符将显示所有的消息此起彼伏,终于成功消息. [Code]$ 斌/ Hadoop的NameNode的-format[/Code] Now our setup is done for pseudo distributed node. 现在,让我们通过下面的命令启动单节点集群. It will again show some set of messages on the command prompt and start the server process. [Code]$ /bin/start-all.sh[Code] Now we should check the status of Hadoop process by executing the jps command as shown below. It will show all the running processes. [Code]$ jps 14799 NameNode14977 SecondaryNameNode 15183 DataNode15596 JobTracker15897任务跟踪器[/Code]

停止单节点集群: 我们可以用以下命令停止单节点集群. 命令提示符将显示所有停止进程.

[Code]$ bin/stop-all.sh stopping jobtrackerlocalhost: 停止tasktrackerstopping namenodelocalhost: 停止datanodelocalhost: 停止secondarynamenode[/Code]

分布式模式安装:
在我们开始之前分布式模式安装, 我们必须确保我们的伪分布式安装完成,我们至少有两台机器, 一名代理为主,另一个充当奴隶. 现在我们按顺序运行以下命令.

· $ 斌/ stop-all.sh – 确保没有节点正在运行

  • 打开/ etc / hosts文件,并添加以下条目主机和从机 –

<IP地址> master

<IP地址> 奴隶

  • $ SSH-copy-id命令-i $ HOME /的.ssh / id_rsa.pub奴隶 – 该命令应在主执行有密码的ssh. 我们应该登录使用在所有计算机上的相同的用户名. 如果我们需要密码, 我们可以手动设置.
  • 现在我们打开这两个文件 – CONF /主的conf /奴隶. 通过conf /主定义我们的多节点集群的节点名称. 通过conf /从属文件列出的主机所在的Hadoop从将运行.
  • 编辑通过conf /核心site.xml文件有以下条目 –

<财产>

<名称>fs.default.name</名称>

<值>HDFS://master:54310</值>

</财产>

  • 编辑通过conf / mapred-site.xml文件有以下条目 –

<财产>

<名称>mapred.job.tracker</名称>

<值>HDFS://master:54311</值>

</财产>

  • 编辑通过conf / HDFS-site.xml文件有以下条目 –

<财产>

<名称>dfs.replication</名称>

<值>2</值>

</财产>

  • 编辑通过conf / mapred-site.xml文件有以下条目 –

<财产>

<名称>mapred.local.dir</名称>

<值>${Hadoop的TMP}/mapred /本地</值>

</财产>

<财产>

<名称>mapred.map.tasks</名称>

<值>50</值>

</财产>

<财产>

<名称>mapred.reduce.tasks</名称>

<值>5</值>

</财产>

现在,通过使用下面的命令启动主.

[Code] 斌/ start-dfs.sh [/Code]

一旦启动, 通过使用JPS命令检查主服务器上的状态. 你应该得到下面的输出 -

[Code]

14799 的NameNode

15314 太平绅士
16977 secondaryNameNode

[/Code]

在从站的输出应该如下图所示.

[Code]

15183 的DataNode
15616 太平绅士

[/Code]

现在,通过使用下面的命令启动的MapReduce守护进程.

[Code]

$ 斌/ start-mapred.sh

[/Code]

一旦开始使用JPS命令检查主服务器上的状态. 你应该得到下面的输出 -

[Code]

16017 太平绅士

14799 的NameNode

15596 的JobTracker

14977 SecondaryNameNode

[/Code]

而在奴隶的输出应该如下图所示.

[Code]

15183 的DataNode

15897 的TaskTracker
16284 太平绅士

[/Code]

Summary: 在上面的讨论中,我们已经介绍不同的Hadoop的安装模式及其技术细节. 但是,在选择安装模式的时候,我们应该小心. 不同的模式有其自己的目的. 所以,初学者应该单模安装开始,然后与其他选项进行.
让我们总结有以下子弹我们的讨论

  • 阿帕奇Hadoop的可安装在三种不同的模式 –
    • 单节点
    • 伪分布式节点
    • 分布式节点
  • 单人模式是安装并开始最简单的方法.
  • 如果我们需要集群但只有一个节点, 那么,我们应该去伪分布式模式
  • 要安装,我们应该先安装伪分布式模式分布式模式.
Tagged on:
============================================= ============================================== 在亚马逊上购买最佳技术书籍,en,电工CT Chestnutelectric,en
============================================== ---------------------------------------------------------------- electrician ct chestnutelectric
error

Enjoy this blog? Please spread the word :)

Follow by Email
LinkedIn
LinkedIn
Share