Hadoop的關鍵術語, 簡

概觀:

在當前的技術環境, 大數據和分析是人們正在很多人的興趣最重要的兩個方面. 此牽引背後的明顯的原因是 – 企業開始商業利益這些大數據和BI應用. Hadoop已經成為主流技術, 因此其覆蓋範圍和討論也蔓延到高科技媒體. But, 我們觀察到的是 – 人們仍然很難了解實際概念, 並常常對Hadoop和其他相關技術的一些模糊的概念.

In this article, 我們誠實的努力是為了解釋一個非常簡單的方法Hadoop的主要條款, 使技術和非技術人員可以把它理解.

Hadoop的生態系統 - 它什麼確切的手段?

Hadoop是由管理的一個非常強大的開源平台 Apache基金會. Hadoop的平台是建立在Java技術並能夠在分佈式集群環境中處理異構數據的體積龐大. 它的縮放能力,使之成為分佈式計算的完美契合.

Hadoop的生態系統包括Hadoop的核心組件及其他相關工具. 在核心部件, Hadoop Distributed File System (HDFS) 和MapReduce編程模型是兩個最重要的概念. 在相關的工具, 蜂巢的SQL, 豬的數據流, 動物園管理員管理服務等都很重要. 我們將解釋在細節這些條款.

Hadoop ecosystem

Hadoop的生態系統

此搜索: Hadoop的生態系統

為什麼你需要了解的主要條款?

我們已經討論了Hadoop是時下非常熱門的話題, 每個人都在談論它, 知情或不知情. 因此,問題是- 如果你正在討論的東西或聽的東西, 但不知道是什麼確切的手段, 那麼你將無法連接點或消化. 問題是更明顯,當人們從不同的域, 像商務人士, 營銷人員, 高層管理人員等. 因為這些人不需要知道 “Hadoop的工作原理?‘, 而他們更想知道“它如何能帶來商業利益“. 為了實現商業利益, Hadoop的術語的理解一點點是跨所有層非常重要. 但在同一時間, 這些詞語應在簡單的方法無需複雜的行話來解釋, 讓讀者舒服.

讓我們來了解關鍵術語

在本節中,我們將探討Hadoop中不同的條款和其生態系統, 一些解釋. 為了清楚理解, 我們將兩大類, 一個是 基本模塊 另一種是 其他軟件包和工具 它可以單獨或在Hadoop之上安裝. Hadoop的是指所有這些實體.

First, 讓我們來看看其中談到下基本模塊的條件.

  • Apache Hadoop的: Apache Hadoop的 是在集群環境中處理大量數據的開源框架. 它使用可靠簡單的MapReduce編程模型, 可擴展的分佈式計算. 的存儲和計算都分佈在該框架.
  • 常見的Hadoop: 正如其名稱所暗示的, 它包含了常見的實用工具,以支持不同的Hadoop模塊. 它基本上是共同的工具和實用程序庫. Hadoop的共同應用程序開發過程中,主要用於開發人員.
  • HDFS: HDFS (Hadoop Distributed File System) 是一種分佈式文件系統,跨商品硬件跨度. 它擴展速度非常快,並提供高吞吐量. 數據塊上的集群環境複製並存儲在分佈式方式.
  • MapReduce: MapReduce的是在分佈式環境中為大量的數據的並行處理的編程模型. MapReduce的方案有兩個主要組成部分, 一種是圖 () 方法, 它執行過濾和排序. 另一種是縮小 () 部分, 設計為從地圖的一部分進行輸出的總結.
  • 然而,另一個資源談判 (紗): 它基本上是在Hadoop中可用的資源管理器 2. 紗的作用是在集群環境中管理和調度計算資源.

現在, 讓我們檢查Hadoop中的其他相關條款

  • HBase: HBase的是一個開源, 可擴展性, 分佈式和非關係數據庫. 這是寫在Java和基於谷歌 大表. 底層存儲文件系統HDFS是.
  • Hive: 蜂巢是數據倉庫軟件, 它支持閱讀, 寫和管理大容量存儲在分佈式存儲系統中的數據的. 它提供了SQL一樣被稱為HiveQL查詢語言 (HQL), 用於查詢數據集. 蜂巢支持存儲在HDFS和其他兼容的文件系統,如Amazon S3的等.
  • Apache Pig: 豬是大數據集分析高層次平台. 寫腳本豬語言被稱為豬拉丁語. 它基本上抽取底層MapReduce程序和無需編寫實際的代碼使開發人員更容易在MapReduce的工作模式.
  • Apache Spark: Spark (開源) 是Hadoop的數據集群計算框架和通用計算引擎 (大規模數據集). 它執行幾乎 100 倍的速度相比,在內存中的MapReduce. And, 磁盤, 這幾乎是 10 倍的速度. 星星之火可以像單機模式不同環境/模式下運行, 在Hadoop, 在EC2等. 它可以從HDFS訪問數據, HBase, 蜂巢或任何其他的Hadoop數據源.
  • Sqoop: Sqoop是一個命令行工具來轉移RDBMS和Hadoop數據庫之間的數據. 它主要用於關係和非關係數據庫之間導入/導出數據. The name “Sqoop’ 通過組合的其他兩個術語'的最初和最後部分形成廣場+空中接力“.
  • Oozie的: Oozie的基本上是一個Hadoop的工作流引擎. 它調度工作流管理Hadoop作業.
  • 動物園管理員: 阿帕奇的ZooKeeper是一個開源平台, 它提供了Hadoop的分佈式應用的高性能協調服務. 它是用於維持配置信息的集中式服務, 命名註冊表, 分佈式同步和組服務.
  • 水槽: Apache的水槽是一個分佈式的服務, 主要用於數據採集, 聚集和運動. 它非常有效地適用於大量的日誌和事件數據.
  • 色調: 色調基本上是用於分析Hadoop的數據的網絡界面. 它是開源項目, 支持Hadoop和其生態系統. 它的主要目的是為了提供更好的用戶體驗. 它提供拖放設施和編輯火花, 蜂巢和HBase的等.
  • 亨利馬烏: 馬胡特是快速構建可伸縮的機器學習和數據挖掘應用的開源軟件.
  • Ambari: Ambari基本上是用於監視和管理Hadoop集群基於Web的工具. 它包括生態系統服務和工具,如HDFS支持, MapReduce, HBase, 動物園管理員, 豬, Sqoop等. 它的三個主要功能置備, 管理和監控Hadoop集群.

作為Hadoop的生態系統正在不斷發展, 新軟件, 服務和工具也層出不窮. As a result, 會出現在大數據世界的新術語和行話. 我們需要密切關注和了解那些時間.

結論

在本文中,我們試圖找出在Hadoop生態系統中最重要的關鍵術語. 我們還討論了生態系統的一點點,為什麼我們需要知道的條款. Hadoop已經成為主流技術, 因此人們更多地參與到它. So, 它是了解Hadoop的世界中使用的一些基本概念和術語正確的時間. 在未來, 會有很多新的概念和條款, 我們必須相應地更新自己.

標籤:
============================================= ============================================== 在亞馬遜上購買最佳技術書籍,en,電工CT Chestnutelectric,en
============================================== ---------------------------------------------------------------- electrician ct chestnutelectric
error

Enjoy this blog? Please spread the word :)

Follow by Email
LinkedIn
LinkedIn
Share