Hadoop Schlüsselbegriffe, Vereinfacht

Übersicht:

In der aktuellen Technologie-Landschaft, Big Data und Analytics sind die beiden wichtigsten Bereiche, in denen Menschen viel Interesse nehmen. Der offensichtliche Grund für diese Traktion – Unternehmen werden immer aus diesen großen Datengeschäft profitieren und BI-Anwendungen. Hadoop ist jetzt ein Hauptstrom-Technologie werden, so seine Berichterstattung und Diskussion verbreitet sich auch über Tech-Medien. Aber, Was wir haben beobachtet, ist – Leute finden es immer noch schwierig, die tatsächlichen Konzepte zu verstehen, und machen oft eine vage Ahnung von Hadoop und anderen verwandten Technologien.

In this article, unsere ehrliche Anstrengung ist es, die Hadoop wichtigsten Begriffe auf eine sehr einfache Art und Weise zu erklären,, so dass die technische und nicht-technische Publikum kann es verstehen.

Hadoop Ökosystem - Was es genau Mittel?

Hadoop ist eine sehr leistungsfähige Open-Source-Plattform verwaltet von Apache Foundation. Hadoop-Plattform auf Java-Technologien gebaut und in der Lage Verarbeitung von großen Volumen von heterogenen Daten in einer verteilten Clusterumgebung. Die Skalierungsfunktion ist es eine perfekte Passform für Distributed Computing.

Hadoop Ökosystem besteht aus Hadoop Kernkomponenten und anderen zugehörigen Tools. In den Kernkomponenten, Hadoop Distributed File System (HDFS) und die MapReduce-Programmiermodell sind die beiden wichtigsten Konzepte. Unter den dazugehörigen Werkzeugen, Hive für SQL, Schwein für Datenfluß, Zookeeper für die Verwaltung von Dienstleistungen usw. sind wichtig. Wir werden diese Begriffe in Details erklären.

Hadoop Ökosystem

Bild 1: Hadoop Ökosystem

Warum brauchen Sie die wichtigsten Begriffe kennen?

Wir haben bereits diskutiert, dass Hadoop ein sehr beliebtes Thema ist heute, und jeder spricht darüber, wissentlich oder unwissentlich. Das Problem ist also- wenn Sie etwas oder das Hören von etwas diskutieren, aber nicht bewusst, was es genau Mittel, dann werden Sie nicht in der Lage sein, die Punkte zu verbinden oder sie zu verdauen. Das Problem ist sichtbar, wenn die Menschen aus einer anderen Domäne sind, wie Geschäftsleute, Marketing-Jungs, Top-Management usw.. Weil diese Menschen brauchen nicht zu wissen, "Wie funktioniert Hadoop?‘, sie sind eher daran interessiert zu wissen "wie es kann Unternehmen davon profitieren "bringen. Zur Realisierung der Business-Nutzen, ein wenig Verständnis für Hadoop Begriffe sind sehr wichtig in allen Schichten. Aber zur selben Zeit, die Begriffe sollten ohne komplexe Jargons in einfacher Weise erklärt werden, machen die Leser bequem.

Lassen Sie uns die wichtigsten Begriffe verstehen

In diesem Abschnitt werden wir verschiedene Begriffe in Hadoop und sein Ökosystem erkunden, mit einer Erklärung. Aus Gründen der Klarheit in Verständnis, wir werden zwei große Kategorien machen, eine ist die Basismodul und die andere ist die zusätzliche Softwarepakete und Tools die einzeln oder oben auf Hadoop werden installiert. Hadoop bezieht sich auf alle diese Entitäten.

First, lassen Sie uns auf die Bedingungen einen Blick haben, die Basismodul kommt unter.

Apache Hadoop: Apache Hadoop Framework ist ein Open-Source für die Verarbeitung großer Datenmengen in einer Cluster-Umgebung. Es verwendet einfache MapReduce-Programmiermodell für eine zuverlässige, skalierbare und verteilte Rechen. Die Speicherung und Berechnung werden beide in diesem Rahmen verteilt.

Hadoop gemeinsame: Wie der Name andeutet, es enthält gemeinsame Dienstprogramme verschiedene Hadoop-Module zur Unterstützung. Es ist im Grunde eine Bibliothek von gängigen Werkzeuge und Dienstprogramme. Hadoop gemeinsam ist vor allem von den Entwicklern bei der Anwendungsentwicklung.

HDFS: HDFS (Hadoop Distributed File System) ist ein verteiltes Dateisystem über Standardhardware Pannen. Er skaliert sehr schnell und bietet einen hohen Durchsatz. Die Datenblöcke werden in einer verteilten Art und Weise auf einer Cluster-Umgebung repliziert und gespeichert.

Karte verkleinern: MapReduce ist ein Programmiermodell für die parallele Verarbeitung von großen Datenmengen in einer verteilten Umgebung. MapReduce-Programm hat zwei Hauptkomponenten, ist die Karte () Verfahren, das führt zum Filtern und Sortieren. Die andere ist die Reduzierung der () Teil, auszuführen Zusammenfassung der Ausgabe von der Karte Teil ausgebildet.

Eine weitere Ressource Negotiator Doch (GARN): Es ist im Grunde ein Ressourcen-Manager in Hadoop 2. Die Rolle der GARN zu verwalten und in einer Cluster-Umgebung Computing-Ressourcen planen.

Now, let us check the other related terms in Hadoop

HBase: HBase is an open source, scalable, distributed and non-relational database. It is written in Java and based on Google’s Big Table. The underlying storage file system is HDFS.
Hive: Hive is data warehouse software, which supports reading, writing and managing large volume of data stored in a distributed storage system. It provides SQL like query language known as HiveQL (HQL), for querying the dataset. Hive supports storage in HDFS and other compatible file systems like Amazon S3 etc.

Apache Pig: Pig is a high level platform for large data set analysis. The language to write Pig scripts are known as Pig Latin. It basically abstracts the underlying MapReduce programs and makes it easier for developers to work on MapReduce model without writing the actual code.

Apache Spark: Spark (open source) is a cluster computing framework and general compute engine for Hadoop data (large scale data-set). It performs almost 100 times faster compared to MapReduce in memory. And, for disk, it is almost 10 times faster. Spark can run on different environments/mode like stand-alone mode, on Hadoop, on EC2 etc. It can access data from HDFS, HBase, Hive or any other Hadoop data source.

Sqoop: Sqoop is a command line tool to transfer data between RDBMS and Hadoop data bases. It is mainly used for import/export data between relational and non-relational databases. Der Name ‘Sqoop’ is formed by combining the initial and last part of two other terms ‘Sql+Hadoop’.

Oozie: Oozie is basically a Hadoop work flow engine. It schedules work flows to manage Hadoop jobs.

ZooKeeper: Apache ZooKeeper is an open source platform, which provides high performance coordination service for Hadoop distributed applications. It is a centralized service for maintaining configuration information, naming registry, distributed synchronization and group services.

Flume: Apache Flume is a distributed service, mainly used for data collection, aggregation and movement. It works very efficiently with large amount of log and event data.

Hue: Hue is basically a web interface for analyzing Hadoop data. It is open source project, supports Hadoop and its eco-system. Its main purpose is to provide better user experience. It provides drag and drop facilities and editors for Spark, Hive and HBase etc.

Mahout: Mahut is open source software for building scalable machine learning and data mining applications quickly.

Ambari: Ambari is basically a web based tool for monitoring and managing Hadoop clusters. It includes support for eco-system services and tools like HDFS, Karte verkleinern, HBase, ZooKeeper, Pig, Sqoop etc. Its three main functionalities are provisioning, managing and monitoring Hadoop clusters.

As Hadoop eco-system is continuously evolving, new software, services and tools are also emerging. Als Ergebnis, there will be new terms and jargons in the big data world. We need to keep a close watch and understand those in time.

Fazit

In this article we have tried to identify the most important key terms in the Hadoop eco-system. We have also discussed a little bit about the eco-system and why we need to know the terms. Hadoop ist jetzt ein Hauptstrom-Technologie werden, so people are getting more involved into it. So, es ist die richtige Zeit, um einige grundlegende Konzepte und Begriffe in der Hadoop Welt verwendet zu verstehen. In der Zukunft, Es wird eine Menge neuer Konzepte und Begriffe verfügbar, und wir müssen uns entsprechend aktualisieren.

Share on Facebook

Save

Stichworte:Big Data, Hadoop

TechAlpine – All About Technology

www.techalpine.com

Hadoop Schlüsselbegriffe, Vereinfacht

Enjoy this blog? Please spread the word :)