Hadoop ძირითადი ტერმინები, Simplified

მიმოხილვა:

მიმდინარე ტექნოლოგიების პეიზაჟი, დიდი მონაცემები და ანალიტიკა ორი ყველაზე მნიშვნელოვანი სფეროა, სადაც ადამიანები იღებენ ბევრი ინტერესი. აშკარა მიზეზი ამ წევის არის – საწარმო მიღების ბიზნეს სარგებელი აქედან დიდი მონაცემები და BI განაცხადების. Hadoop არის გახდეს ძირითადი ნაკადი ტექნოლოგია, ამიტომ მისი გაშუქება და დისკუსია ასევე გავრცელების მიღმა tech მედია. მაგრამ, რაც ჩვენ არ შეინიშნება – ადამიანი მაინც უჭირთ იმის გაგება, ფაქტობრივი ცნებები, და ხშირად რამდენიმე ბუნდოვანი წარმოდგენა Hadoop და სხვა მასთან დაკავშირებული ტექნოლოგიების.

In this article, ჩვენი პატიოსანი ძალისხმევა არის ასახსნელად Hadoop გასაღები თვალსაზრისით ძალიან მარტივი გზა, ასე რომ ტექნიკური და არასამთავრობო ტექნიკური აუდიტორიის მესმის, რომ ეს.

Hadoop ეკო სისტემა - რა ზუსტად საშუალება?

Hadoop არის ძალიან ძლიერი ღია პლატფორმა მართავს Apache ფონდი. Hadoop პლატფორმა აგებულია Java ტექნოლოგიები და დამუშავებისთვის დიდი მოცულობის ჰეტეროგენული მონაცემების გავრცელებული ეშვება გარემო. მისი სკალირების შესაძლებლობების ხდის სრულყოფილი fit განაწილებული გამოთვლითი.

Hadoop ეკო სისტემა შედგება Hadoop ძირითადი კომპონენტები და სხვა დაკავშირებული ინსტრუმენტები. ძირითადი კომპონენტები, Hadoop Distributed File System (HDFS) და MapReduce პროგრამირების მოდელი არის ორი ყველაზე მნიშვნელოვანი ცნებები. მათ შორის დაკავშირებული ინსტრუმენტები, Hive for SQL, ღორის dataflow, Zookeeper მართვის მომსახურების ა.შ. მნიშვნელოვანია. ჩვენ აგიხსნით ამ თვალსაზრისით დეტალურად.

Hadoop ecosystem

Hadoop ეკოსისტემის

Image1: Hadoop ეკო სისტემა

ამიტომ, თქვენ უნდა იცოდეს ძირითადი ტერმინები?

ჩვენ უკვე განვიხილეთ, რომ Hadoop არის ძალიან პოპულარული თემა დღეს, და ყველას ლაპარაკი, შეგნებულად თუ შეუგნებლად. ასე რომ, პრობლემა ის არის,- იმ შემთხვევაში, თუ მსჯელობენ რაღაც ან მოსმენის რაღაც, მაგრამ არ იცის, თუ რა ზუსტად საშუალება, მაშინ თქვენ ვერ შეძლებთ დაკავშირება წერტილების ან დაიჯესტი ეს. პრობლემა ის არის, უფრო თვალსაჩინო, როდესაც ადამიანები არიან სხვადასხვა დომენის, როგორიცაა საქმიანი ადამიანები, მარკეტინგი ბიჭები, დაბრუნება მართვა და ა.შ.. იმის გამო, რომ ეს ადამიანები არ უნდა იცოდეს "როგორ Hadoop მუშაობს?‘, არამედ ისინი უფრო დაინტერესებული იცოდეს "როგორ შეიძლება ის, რომ ბიზნეს სარგებელი '. იმისათვის, რომ ხვდები, ბიზნეს სარგებელი, ცოტა გაგება Hadoop თვალსაზრისით ძალიან მნიშვნელოვანია მთელი ფენების. მაგრამ, ამავე დროს,, თვალსაზრისით უნდა განმარტებული მარტივი გზა გარეშე რთული jargons, მიღების მკითხველს კომფორტული.

მოდით, გვესმოდეს, ძირითადი პირობები

ამ სექციაში ჩვენ შეისწავლის სხვადასხვა ტერმინები Hadoop და მის ეკოსისტემას, რამდენიმე ახსნა. სიცხადე გაგება, ჩვენ გახდის ორ ფართო კატეგორიად, ერთი არის ბაზის მოდული და მეორე არის დამატებითი პროგრამული უზრუნველყოფის პაკეტები და ინსტრუმენტები რომელიც შეიძლება დამონტაჟდეს ცალკე ან თავზე Hadoop. Hadoop ეხება ყველა ამ პირებს.

First, მოდით აქვს შევხედოთ თვალსაზრისით, რომელიც ექვემდებარება ბაზის მოდული.

  • Apache Hadoop: Apache Hadoop არის ღია ჩარჩო დამუშავების დიდი მოცულობის მონაცემების ეშვება გარემო. იგი იყენებს მარტივი MapReduce პროგრამირების მოდელი საიმედო, scalable და განაწილებული გამოთვლითი. შენახვისა და გამოთვლები ორივე ნაწილდება ამ ჩარჩო.
  • Hadoop საერთო: როგორც სახელი ვარაუდობს, იგი შეიცავს საერთო კომუნალური მხარდასაჭერად სხვადასხვა Hadoop მოდულები. ეს, ძირითადად, ბიბლიოთეკაში საერთო იარაღები და ხელსაწყოები. Hadoop გავრცელებული ძირითადად გამოიყენება დეველოპერები განაცხადის განვითარების.
  • HDFS: HDFS (Hadoop Distributed File System) არის განაწილებული ფაილური სისტემა მოიცავს მთელს სასაქონლო ტექნიკა. ეს სასწორები ძალიან სწრაფი და უზრუნველყოფს მაღალი წარმადობით. მონაცემთა ბლოკები გაიმეორა და ინახება განაწილებული გზა on ეშვება გარემო.
  • MapReduce: MapReduce არის პროგრამირების მოდელი პარალელურად დამუშავება დიდი მოცულობის მონაცემების გავრცელება გარემო. MapReduce პროგრამა აქვს ორი ძირითადი კომპონენტი, ერთი არის რუკა () მეთოდი, რომელიც ახორციელებს ფილტრაცია და დახარისხება. მეორე არის შემცირება () ნაწილი, მიზნად ისახავს შეასრულოს შემაჯამებელი გამომავალი რუკა ნაწილი.
  • კიდევ ერთი რესურსი მომლაპარაკებელი (ნართი): ეს, ძირითადად, რესურსების მენეჯერი ხელმისაწვდომია Hadoop 2. როლი ნართი, მართვა და დანიშნოს კომპიუტერული რესურსების ეშვება გარემო.

Now, მოდით შეამოწმოს მასთან დაკავშირებული სხვა პირობები Hadoop

  • HBase: HBase არის ღია, scalable, გავრცელება და არასამთავრობო რელატიური მონაცემთა ბაზაში. ეს არის დაწერილი Java და ეფუძნება Google- ის დიდი მაგიდა. ძირითადი შენახვის ფაილი სისტემა HDFS.
  • Hive: Hive მონაცემთა საწყობი პროგრამული უზრუნველყოფა, რომელიც მხარს უჭერს მოსმენით, წერილობით და მართვის დიდი მოცულობის მონაცემები ინახება განაწილებული შენახვის სისტემა. ის უზრუნველყოფს SQL, როგორც შეკითხვის ენაზე ცნობილია, როგორც HiveQL (HQL), ამისთვის querying მონაცემთა ნაკრებს. Hive მხარს უჭერს შენახვის HDFS და სხვა თავსებადი ფაილის სისტემები, როგორიცაა Amazon S3 და ა.შ..
  • Apache Pig: Pig მაღალი დონის პლატფორმა დიდი მონაცემები კომპლექტი ანალიზი. ენა დაწერა Pig სკრიპტები ცნობილია, როგორც ღორის ლათინური. ეს ძირითადად აბსტრაგირებას ფუძემდებლური MapReduce პროგრამები და ხდის უფრო დეველოპერები მუშაობა MapReduce მოდელი გარეშე წერა ფაქტობრივი კოდი.
  • Apache Spark: Spark (საჯარო წყარო) კასეტური კომპიუტერული ფარგლებში და ზოგადად compute ძრავი Hadoop მონაცემები (ფართომასშტაბიანი მონაცემთა მითითებული). იგი ასრულებს თითქმის 100 ჯერ უფრო სწრაფად, ვიდრე MapReduce მეხსიერება. And, დისკზე, ის თითქმის 10 ჯერ უფრო სწრაფად. Spark შეგიძლიათ გაუშვათ სხვადასხვა გარემოში / რეჟიმში, როგორიცაა ცალკე რეჟიმი, on Hadoop, on EC2 ა.შ.. მას შეუძლია მონაცემების HDFS, HBase, Hive ან ნებისმიერი სხვა Hadoop მონაცემთა წყარო.
  • Sqoop: Sqoop არის ბრძანების ინსტრუმენტი გადასცეს მონაცემები შორის RDBMS და Hadoop მონაცემთა ბაზები. იგი ძირითადად გამოიყენება იმპორტის / ექსპორტის მონაცემები შორის რელატიური და არასამთავრობო რელატიური მონაცემთა ბაზები. სახელი "Sqoop’ იქმნება კომბინაციით საწყის და ბოლო ნაწილი ორ სხვა თვალსაზრისით "კვ+ჰქონდაoop ".
  • Oozie: Oozie ძირითადად Hadoop სამუშაო ნაკადი სისტემა. ეს გრაფიკები მუშაობა ნაკადების მართვა Hadoop სამუშაო.
  • ZooKeeper: Apache ZooKeeper არის ღია პლატფორმა, რომელიც უზრუნველყოფს მაღალი ხარისხის საკოორდინაციო მომსახურება Hadoop განაწილებული პროგრამები. ეს არის ცენტრალიზებული მომსახურება შენარჩუნების კონფიგურაციის ინფორმაცია, დასახელებისგან რეესტრის, განაწილებული სინქრონიზაცია და მომსახურებაზე.
  • flume: Apache Flume არის განაწილებული მომსახურება, ძირითადად გამოიყენება მონაცემთა შეგროვების, აგრეგაციას და მოძრაობა. იგი მუშაობს ძალიან ეფექტურად დიდი რაოდენობით შესვლა და მოვლენის მონაცემების.
  • Hue: Hue ძირითადად ვებ ინტერფეისი ანალიზის Hadoop მონაცემები. ეს არის ღია პროექტის, მხარს უჭერს Hadoop და მის ეკოსისტემას. მისი მთავარი მიზანია უზრუნველყოს უკეთესი მომხმარებლის, გამოცდილება. ის უზრუნველყოფს გადააადგილება ობიექტები და რედაქტორები Spark, Hive და HBase ა.შ..
  • Mahout: Mahut არის ღია პროგრამული მშენებლობის scalable მანქანა სწავლისა და მონაცემების მოპოვება განაცხადების სწრაფად.
  • Ambari: Ambari ძირითადად ვებ დაფუძნებული ინსტრუმენტი მონიტორინგისა და მართვის Hadoop მტევანი. იგი მოიცავს მხარდაჭერა ეკო სისტემის მომსახურების და ინსტრუმენტები, როგორიცაა HDFS, MapReduce, HBase, ZooKeeper, Pig, Sqoop ა.შ.. მისი სამი ძირითადი ფუნქციები არიან უზრუნველყოფის, მართვა და მონიტორინგი Hadoop მტევანი.

როგორც Hadoop ეკო სისტემა მუდმივად ვითარდება, ახალი პროგრამული უზრუნველყოფა, მომსახურება და ინსტრუმენტები ასევე განვითარებადი. როგორც შედეგი, იქნება ახალი ვადები და jargons დიდი მონაცემთა ბაზების მსოფლიოში. ჩვენ უნდა დააკვირდეს და მესმის იმ დროს.

დასკვნა

ამ სტატიაში ჩვენ შევეცადეთ, რათა დადგინდეს ყველაზე მნიშვნელოვანი გასაღები ტერმინები Hadoop ეკო სისტემა. ჩვენ ასევე განვიხილეთ ცოტა შესახებ ეკო სისტემა და ამიტომ ჩვენ უნდა ვიცოდეთ თვალსაზრისით. Hadoop არის გახდეს ძირითადი ნაკადი ტექნოლოგია, ასე რომ ხალხს უფრო ჩართული შევიდა. So, ეს არის დრო, რომ გავიგოთ ზოგიერთი ძირითადი ცნებები და ტერმინები, Hadoop მსოფლიოში. მომავალში, იქ ბევრი ახალი ცნებები და ტერმინები ხელმისაწვდომია, და ჩვენ უნდა განახლდეს ვდებთ შესაბამისად.

============================================= ============================================== Buy best TechAlpine Books on Amazon
============================================== ---------------------------------------------------------------- electrician ct chestnutelectric
error

Enjoy this blog? Please spread the word :)

Follow by Email
LinkedIn
LinkedIn
Share