Hadoop的关键术语, 简

概观:

在当前的技术环境, 大数据和分析是人们正在很多人的兴趣最重要的两个方面. 此牵引背后的明显的原因是 – 企业开始商业利益这些大数据和BI应用. Hadoop已经成为主流技术, 因此其覆盖范围和讨论也蔓延到高科技媒体. But, 我们观察到的是 – 人们仍然很难了解实际概念, 并常常对Hadoop和其他相关技术的一些模糊的概念.

In this article, 我们诚实的努力是为了解释一个非常简单的方法Hadoop的主要条款, 使技术和非技术人员可以把它理解.

Hadoop的生态系统 - 它什么确切的手段?

Hadoop是由管理的一个非常强大的开源平台 Apache基金会. Hadoop的平台是建立在Java技术并能够在分布式集群环境中处理异构数据的体积庞大. 它的缩放能力,使之成为分布式计算的完美契合.

Hadoop的生态系统包括Hadoop的核心组件及其他相关工具. 在核心部件, Hadoop Distributed File System (HDFS) 和MapReduce编程模型是两个最重要的概念. 在相关的工具, 蜂巢的SQL, 猪的数据流, 动物园管理员管理服务等都很重要. 我们将解释在细节这些条款.

Hadoop ecosystem

Hadoop的生态系统

此搜索: Hadoop的生态系统

为什么你需要了解的主要条款?

我们已经讨论了Hadoop是时下非常热门的话题, 每个人都在谈论它, 知情或不知情. 因此,问题是- 如果你正在讨论的东西或听的东西, 但不知道是什么确切的手段, 那么你将无法连接点或消化. 问题是更明显,当人们从不同的域, 像商务人士, 营销人员, 高层管理人员等. 因为这些人不需要知道 “Hadoop的工作原理?‘, 而他们更想知道“它如何能带来商业利益“. 为了实现商业利益, Hadoop的术语的理解一点点是跨所有层非常重要. 但在同一时间, 这些词语应在简单的方法无需复杂的行话来解释, 让读者舒服.

让我们来了解关键术语

在本节中,我们将探讨Hadoop中不同的条款和其生态系统, 一些解释. 为了清楚理解, 我们将两大类, 一个是 基本模块 另一种是 其他软件包和工具 它可以单独或在Hadoop之上安装. Hadoop的是指所有这些实体.

First, 让我们来看看其中谈到下基本模块的条件.

  • Apache Hadoop的: Apache Hadoop的 是在集群环境中处理大量数据的开源框架. 它使用可靠简单的MapReduce编程模型, 可扩展的分布式计算. 的存储和计算都分布在该框架.
  • 常见的Hadoop: 正如其名称所暗示的, 它包含了常见的实用工具,以支持不同的Hadoop模块. 它基本上是共同的工具和实用程序库. Hadoop的共同应用程序开发过程中,主要用于开发人员.
  • HDFS: HDFS (Hadoop Distributed File System) 是一种分布式文件系统,跨商品硬件跨度. 它扩展速度非常快,并提供高吞吐量. 数据块上的集群环境复制并存储在分布式方式.
  • MapReduce的: MapReduce的是在分布式环境中为大量的数据的并行处理的编程模型. MapReduce的方案有两个主要组成部分, 一种是图 () 方法, 它执行过滤和排序. 另一种是缩小 () 部分, 设计为从地图的一部分进行输出的总结.
  • 然而,另一个资源谈判 (纱): 它基本上是在Hadoop中可用的资源管理器 2. 纱的作用是在集群环境中管理和调度计算资源.

现在, 让我们检查Hadoop中的其他相关条款

  • HBase: HBase的是一个开源, 可扩展性, 分布式和非关系数据库. 这是写在Java和基于谷歌 大表. 底层存储文件系统HDFS是.
  • Hive: 蜂巢是数据仓库软件, 它支持阅读, 写和管理大容量存储在分布式存储系统中的数据的. 它提供了SQL一样被称为HiveQL查询语言 (HQL), 用于查询数据集. 蜂巢支持存储在HDFS和其他兼容的文件系统,如Amazon S3的等.
  • Apache Pig: 猪是大数据集分析高层次平台. 写脚本猪语言被称为猪拉丁语. 它基本上抽取底层MapReduce程序和无需编写实际的代码使开发人员更容易在MapReduce的工作模式.
  • Apache Spark: Spark (开源) 是Hadoop的数据集群计算框架和通用计算引擎 (大规模数据集). 它执行几乎 100 倍的速度相比,在内存中的MapReduce. And, 磁盘, 这几乎是 10 倍的速度. 星星之火可以像单机模式不同环境/模式下运行, 在Hadoop, 在EC2等. 它可以从HDFS访问数据, HBase, 蜂巢或任何其他的Hadoop数据源.
  • Sqoop: Sqoop是一个命令行工具来转移RDBMS和Hadoop数据库之间的数据. 它主要用于关系和非关系数据库之间导入/导出数据. The name “Sqoop’ 通过组合的其他两个术语'的最初和最后部分形成广场+空中接力“.
  • Oozie的: Oozie的基本上是一个Hadoop的工作流引擎. 它调度工作流管理Hadoop作业.
  • 动物园管理员: 阿帕奇的ZooKeeper是一个开源平台, 它提供了Hadoop的分布式应用的高性能协调服务. 它是用于维持配置信息的集中式服务, 命名注册表, 分布式同步和组服务.
  • 水槽: Apache的水槽是一个分布式的服务, 主要用于数据采集, 聚集和运动. 它非常有效地适用于大量的日志和事件数据.
  • 色调: 色调基本上是用于分析Hadoop的数据的网络界面. 它是开源项目, 支持Hadoop和其生态系统. 它的主要目的是为了提供更好的用户体验. 它提供拖放设施和编辑火花, 蜂巢和HBase的等.
  • 亨利马乌: 马胡特是快速构建可伸缩的机器学习和数据挖掘应用的开源软件.
  • Ambari: Ambari基本上是用于监视和管理Hadoop集群基于Web的工具. 它包括生态系统服务和工具,如HDFS支持, MapReduce的, HBase, 动物园管理员, 猪, Sqoop等. 它的三个主要功能置备, 管理和监控Hadoop集群.

作为Hadoop的生态系统正在不断发展, 新软件, 服务和工具也层出不穷. As a result, 会出现在大数据世界的新术语和行话. 我们需要密切关注和了解那些时间.

结论

在本文中,我们试图找出在Hadoop生态系统中最重要的关键术语. 我们还讨论了生态系统的一点点,为什么我们需要知道的条款. Hadoop已经成为主流技术, 因此人们更多地参与到它. So, 它是了解Hadoop的世界中使用的一些基本概念和术语正确的时间. 在未来, 会有很多新的概念和条款, 我们必须相应地更新自己.

Tagged on: ,
============================================= ============================================== 在亚马逊上购买最佳技术书籍,en,电工CT Chestnutelectric,en
============================================== ---------------------------------------------------------------- electrician ct chestnutelectric
error

Enjoy this blog? Please spread the word :)

Follow by Email
LinkedIn
LinkedIn
Share