термини Hadoop ключовите, опростен

Преглед:

В сегашната технология пейзаж, Големите данни и анализи са двата най-важни области, където хората са като голям интерес. Очевидната причина за това сцепление е – предприятия стават бизнес полза от тези големи данни и BI приложения. Hadoop сега се превърна в главен поток технология, така че си покритие и дискусия също се разпространява отвъд технологични медии. Но, това, което ние наблюдавахме е – хората все още е трудно да се разбере реалните понятия, и често се направи някаква смътна представа за Hadoop и други свързани с тях технологии.

In this article, нашето искрено усилие е да обясни основните термини Hadoop по много прост начин, така че технически и нетехнически аудитория може да го разбере.

Hadoop еко-система - какво точно означава?

Hadoop е един много мощен отворен код платформа, управлявана от Фондация Apache. Hadoop платформа е изградена върху Java технологии и може да обработи огромен обем от разнородни данни в разпределени струпани среда. Нейната мащабиране способност го прави идеалният избор за разпределени изчисления.

Hadoop еко-система се състои от Hadoop основни компоненти и други свързани с тях инструменти,. В основните компоненти, Hadoop Distributed File System (HDFS) и модела на MapReduce програмиране са двата най-важни понятия. Сред свързаните инструменти, Hive за SQL, Прасета за потока на, Zookeeper за управление на услуги и т.н., са важни. Ние ще обясним тези термини в детайли.

Hadoop ecosystem

Hadoop екосистема

Image1: Hadoop еко-система

Защо трябва да знаете основните термини?

Вече обсъдихме, че Hadoop е много популярна тема в днешно време, и всички говорят за него, съзнателно или несъзнателно. Така че проблемът е- ако обсъждаме нещо или слушане на нещо, но не знаят какво да го точно средства, тогава няма да бъде в състояние да се свържете точките или да го осмисли. Проблемът е по-видими, когато хората са от друг домейн, като хора от бизнеса, маркетингови момчета, топ мениджмънта и т.н.. Тъй като тези хора не трябва да знаят "Как работи Hadoop?‘, по-скоро те са по-заинтересовани да се знае "как тя може да донесе полза за бизнеса ". За да се реализира на бизнес полза, малко разбиране на Hadoop отношение сме много важно във всички слоеве. Но в същото време, условията трябва да бъдат обяснени на прост начин, без сложни жаргоници, вземане на читателите удобно.

Нека да разберат основните термини

В този раздел ще разгледаме различни термини в Hadoop и неговата екосистема, с някакво обяснение. За по-голяма яснота в разбирането, ние ще направим две големи категории, един е основен модул а другият е допълнителни софтуерни пакети и инструменти който може да се инсталира отделно или в горната част на Hadoop. Hadoop се отнася за всички тези лица.

First, нека да разгледаме условията което се регистрира в база модул.

  • Apache Hadoop: Apache Hadoop е рамка с отворен код за обработка на голям обем от данни в среда с клъстери. Той използва прост MapReduce програмен модел за надеждна, мащабируема и разпределени изчислителни. Съхранението и изчисляване както са разпределени в тази рамка.
  • Hadoop обща: Както подсказва името, тя съдържа общи комунални услуги за подкрепа на различни Hadoop модули. Той е в основата на библиотеката на общи инструменти и помощни програми. Hadoop общо се използва основно от разработчици време за разработка на приложения.
  • HDFS: HDFS (Hadoop Distributed File System) е разпределена файлова система се разпростира в цяла стока хардуер. Тя везни много бързо и осигурява висока производителност. блокове от данни се повтарят и се съхраняват в разпределена начин на среда с клъстери.
  • MapReduce: MapReduce е програмен модел за паралелна обработка на голям обем от данни в среда на разпределена. MapReduce програма има два основни компонента, един е картата () метод, който изпълнява филтриране и сортиране. Другият е Намаляване () част, предназначен за извършване на резюме на изхода от страна Карта.
  • Още друг ресурс преговарящ (прежди): Тя е основно за управление на ресурсите на разположение в Hadoop 2. Ролята на прежда е да управлява и да насрочи изчислителни ресурси в среда с клъстери.

Now, нека да провери други свързани с условията в Hadoop

  • HBase: HBase е с отворен код, мащабируема, разпределени и не-релационна база данни. Той е написан на Java, и въз основа на Google Big Таблица. Основният файл съхранение системата е HDFS.
  • Hive: Hive е хранилище на данни софтуер, който поддържа четене, писане и управление на голям обем от данни, съхранявани в разпределена система за съхранение. Тя осигурява SQL като език за заявки известен като HiveQL (HQL), за заявки набора от данни. Hive поддържа съхранение в HDFS и други съвместими файлови системи като Amazon S3 и т.н..
  • Apache Pig: Pig е висока платформа ниво за голям набор от данни анализ. Езикът да напише Прасета скриптове са известни като прасе Латинска. По същество това резюмета на основните програми MapReduce и го прави по-лесно за разработчиците да работят на MapReduce модел без писмено действителният код.
  • Apache Spark: Spark (отворен код) е рамка клъстер компютри и обща изчислителна машина за Hadoop данни (голям мащаб набор от данни). Той изпълнява почти 100 пъти по-бързо в сравнение с MapReduce в памет. And, за диск, тя е почти 10 пъти по-бързо. Spark може да работи с различни среди / режим като самостоятелен режим, на Hadoop, по EC2 и т.н.. Той може да получи достъп до данни от HDFS, HBase, Hive или всеки друг източник на данни Hadoop.
  • Sqoop: Sqoop е инструмент за командния ред за прехвърляне на данни между RDBMS и бази данни Hadoop. Тя се използва главно за данни за внос / износ между релационни и не-релационни бази данни. The name "Sqoop’ се формира чрез комбиниране на началната и последната част от две други условия "плл+имахООП ".
  • Oozie: Oozie е основно двигател на Hadoop работния поток. Той графици работят потоци за управление на Hadoop работни места.
  • Zookeeper: Apache Zookeeper е платформа с отворен код, която осигурява висока производителност координация услуга за Hadoop разпределени приложения. Тя е централизирана услуга за поддържане на информация за конфигурацията, регистър именуване, разпределени за синхронизация и групови услуги.
  • воденичен улей: Apache улей е разпределена услуга, използва главно за събиране на данни, агрегация и движение. Той работи много ефективно с голям размер на регистрационните и събития данни.
  • оттенък: Hue е в основата на уеб интерфейс за анализ на Hadoop данни. Това е проект с отворен код, подкрепя Hadoop и неговата екосистема. Нейната основна цел е да се осигури по-добро потребителско изживяване. Тя осигурява влачене и пускане съоръжения и редактори за Spark, Hive и HBase т.н..
  • водач на слон: Mahut е софтуер с отворен код за изграждане на мащабируеми машинно обучение и извличане на данни приложения бързо.
  • Ambari: Ambari е в основата на уеб базиран инструмент за наблюдение и управление на Hadoop клъстери. Това включва подкрепа за еко-системни услуги и инструменти като HDFS, MapReduce, HBase, Zookeeper, прасе, Sqoop т.н.. Нейните три основни функции са провизии, управление и контрол на Hadoop клъстери.

Както Hadoop еко-система непрестанно се развива, новият софтуер, услуги и инструменти, също се появяват. Като резултат, ще има нови термини и жаргоници в големия свят на данни. Ние трябва да се наблюдава внимателно и да разберат тези във времето.

Заключение

В тази статия ние се опитахме да се идентифицират най-важните ключови термини в еко-система Hadoop. Ние също така се обсъжда по-малко за еко-системата и защо ние трябва да знаем условията. Hadoop сега се превърна в главен поток технология, така че хората стават все по-голямо участие в нея. So, това е най-подходящото време да се разбере някои основни понятия и термини, използвани в света Hadoop. В бъдеще, ще има много нови понятия и термини на разположение, и ние трябва да се актуализира съответно.

Tagged on: ,
============================================= ============================================== Buy best TechAlpine Books on Amazon
============================================== ---------------------------------------------------------------- electrician ct chestnutelectric
error

Enjoy this blog? Please spread the word :)

Follow by Email
LinkedIn
LinkedIn
Share