Ποια είναι η σημασία της Hadoop Αρχιτεκτονική στην επιτυχία Παραγωγής?

Επισκόπηση:

Hadoop είναι μια πλατφόρμα που είναι σχεδόν συνώνυμη με την Big Data. Πρόκειται ουσιαστικά για ένα ανοικτό πλαίσιο πηγή που επιτρέπει την αποθήκευση και την επεξεργασία των συγκεντρωμένα σύνολα δεδομένων σε μεγάλη κλίμακα. Πρωταρχικά, η αρχιτεκτονική Hadoop είναι γνωστό ότι αποτελείται από τέσσερις μεγάλες ενότητες, which are HDFS (Hadoop Distributed File System), Hadoop Common, YARN και MapReduce. Κάθε μία από αυτές τις ενότητες είναι ρυθμισμένο να εκτελεί ορισμένα ειδικά καθήκοντα, που έρχονται μαζί στο σύνολό της να ανταποκριθεί στις απαιτήσεις επεξεργασίας δεδομένων. Μία από τις βασικές πτυχές για την επιτυχία της παραγωγής είναι η αρχιτεκτονική Hadoop. Αυτή η αρχιτεκτονική προσφέρει πολλά βασικά χαρακτηριστικά που είναι υπεύθυνοι για τη δημοτικότητά του πάνω από άλλα πλαίσια, από τώρα. However, υπάρχουν και μερικά άλλα πράγματα που εξετάζουν για την επιτυχή εφαρμογή του Hadoop. Αυτό σημαίνει, δεν είναι μόνο για να έχουμε ένα κατάλληλο σύστημα αποθήκευσης αρχείων ή το 24×7 τρέξιμο των εφαρμογών, αλλά και πώς ενσωματώνει με τη συνολική αρχιτεκτονική και τα εργαλεία μιας επιχείρησης.

Αυτό το άρθρο θα συζητήσουμε σε μεγάλο βαθμό την αρχιτεκτονική Hadoop αναλυτικά μαζί με τα πλεονεκτήματα προσφέρει κάθε μονάδα. Εμείς θα καλύπτει επίσης θέματα επιτυχία της παραγωγής.

Μετά είναι μια απλή Hadoop διάγραμμα αρχιτεκτονικής για 2.0 εκδόσεις

Hadoop 2.0 architecture

Hadoop 2.0 architecture

Image 1: Hadoop 2.0 architecture

HDFS Architecture

Όπως έχει ήδη αναφερθεί, Hadoop ΚΑΕ σίγουρα είναι ένα από τα βασικά συστατικά του συνόλου του πλαισίου. Είναι η μονάδα η οποία είναι επιφορτισμένη με την παροχή μιας αξιόπιστης, μόνιμη και κατανεμημένο σύστημα αποθήκευσης σε διάφορες κόμβους που υπάρχουν σε ένα σύμπλεγμα Hadoop.

Now, ένα σύμπλεγμα αποτελείται συνήθως από διάφορα κόμβους που συνδέονται μαζί για να σχηματίσουν ένα πλήρες σύστημα αρχείων. Όλα τα δεδομένα που πρέπει να αποθηκεύονται είναι στη πρώτη σπάσει σε πολλά μικρά κομμάτια γνωστό ως μπλοκ. Αυτά τα μπλοκ που κατόπιν διανέμεται και αποθηκεύεται σε διάφορες κόμβους του συμπλέγματος. Αυτό είναι ο τρόπος με τον οποίο έχει κατασκευασθεί το σύστημα αρχείων Hadoop και έχει ορισμένα πλεονεκτήματα, καθώς και.

Ας ρίξουμε μια ματιά στα άλλα χαρακτηριστικά της ΚΑΕ.

Scalable

Λόγω της παρουσίας του κατανεμημένη αρχιτεκτονική του συστήματος αρχείων, λειτουργίες χάρτη Hadoop και να μειώσει λειτουργούν σαν ένα αεράκι. Αυτές οι λειτουργίες μπορούν να εκτελεστούν εύκολα σε μικρά υποσύνολα των αρχικών δεδομένων, προσφέροντας έτσι τεράστια επεκτασιμότητα. Αυτό είναι επίσης ένα πρόσθετο πλεονέκτημα για τις επιχειρήσεις, καθώς μπορούν να προσθέσουν απλά διακομιστές γραμμικά, όταν τα δεδομένα τους φαίνεται να αυξάνεται.

Εύκαμπτος

Μια άλλη πολύ συμφέρουσα πτυχή της ΚΑΕ είναι ιδιαίτερα ευέλικτη φύση της όσον αφορά την αποθήκευση των δεδομένων. Όντας ανοικτού κώδικα, Hadoop μπορεί εύκολα να τρέξει σε υλικό αγαθό, η οποία εξοικονομεί κόστος τρομερά. Also, το σύστημα αρχείων Hadoop μπορεί να αποθηκεύσει οποιοδήποτε είδος των δεδομένων, αν είναι δομημένη, αδόμητα, σχηματοποιημένα ή ακόμη και κωδικοποιημένων.

Hadoop καθιστά ακόμη δυνατή για αδόμητα δεδομένα να είναι πολύτιμη σε έναν οργανισμό κατά τη διάρκεια μιας διαδικασίας λήψης αποφάσεων, κάτι που ήταν σχεδόν ανήκουστο πριν.

Αξιόπιστος

Το σύστημα αρχείων Hadoop είναι ανεκτική σε σφάλματα, πράγμα που σημαίνει ότι τα δεδομένα που αποθηκεύονται σε ΚΑΕ είναι να αναπαραχθεί σε τουλάχιστον δύο άλλες τοποθεσίες. Thus, σε περίπτωση που υπάρχει μια κατάρρευση του συστήματος ή δύο, υπάρχει πάντα ένα τρίτο σύστημα που θα έχει ένα αντίγραφο όλων των δεδομένων σας. Το σύστημα μπορεί στη συνέχεια κατανέμουν το φόρτο εργασίας σε αυτή την τοποθεσία και τα πάντα μπορεί να λειτουργήσει κανονικά.

Υποβάλλω / O

Η αποτελεσματικότητα οποιουδήποτε συστήματος αρχείων εξαρτάται από το πώς εκτελεί τις εργασίες I / O. στην ΚΑΕ, δεδομένα προστίθενται, δημιουργώντας ένα νέο αρχείο και να γράψει τα δεδομένα υπάρχει. After this, το αρχείο είναι κλειστό και οι γραπτές δεδομένα δεν μπορούν να διαγραφούν ή να τροποποιηθούν πια. Αλλά τα νέα δεδομένα μπορεί να προσαρτηθεί από το εκ νέου άνοιγμα του αρχείου. Έτσι, το βασικό θεμέλιο της ΚΑΕ είναι «Ενιαία εγγραφής και ανάγνωσης πολλαπλών’ model.

Τοποθέτηση μπλοκ

στην ΚΑΕ, ένα αρχείο είναι ένας συνδυασμός των πολλαπλών μπλοκ. Για την προσθήκη ενός νέου μπλοκ, NameNode εκχωρεί ένα μοναδικό αναγνωριστικό μπλοκ και να το προσθέσετε στο αρχείο. Μετά από αυτό το νέο μπλοκ επίσης να αναπαραχθεί σε πολλαπλές DataNodes.

ΚΑΕ πολιτική τοποθέτηση μπλοκ είναι παραμετροποιήσιμο, έτσι ώστε οι χρήστες να μπορούν να πειραματιστούν με διαφορετικές εναλλακτικές λύσεις για να πάρει βελτιστοποιημένες λύσεις. Από προεπιλογή, ΚΑΕ πολιτική τοποθέτηση μπλοκ προσπαθεί να ελαχιστοποιήσει το κόστος εγγραφής και τη μεγιστοποίηση της απόδοσης ανάγνωσης, διαθεσιμότητα και αξιοπιστία. Για την εφαρμογή της παρούσας, όταν ένα νέο μπλοκ προστίθεται σε ένα αρχείο, το πρώτο αντίγραφο τοποθετείται στον ίδιο κόμβο, όπου ο συγγραφέας είναι παρούσα. After this, η 2η και 3η ρεπλίκα τοποθετείται σε δύο διαφορετικούς κόμβους σε ένα ξεχωριστό ράφι. Τώρα το υπόλοιπο από τα αντίγραφα τοποθετούνται τυχαία. Αλλά ο περιορισμός είναι ότι, ένας κόμβος δεν μπορεί να κρατήσει περισσότερο από ένα αντίγραφο και ένα ράφι δεν μπορεί να κρατήσει περισσότερο από δύο αντίγραφα.

Παρακάτω εικόνα δείχνει ένα τυπικό περίπτωση τοποθετήσεις ρεπλίκα σε ένα περιβάλλον ράφι (όπως περιγράφεται στο παραπάνω τμήμα)

replica placement

τοποθέτηση ρεπλίκα

Image2: Δείχνει την τοποθέτηση αντίγραφο σε περιβάλλον δύο ράφι

Hadoop Κοινή / Hadoop Πυρήνα

Hadoop κοινό αποτελείται από το κοινό σύνολο των υπηρεσιών κοινής ωφέλειας για την υποστήριξη Hadoop αρχιτεκτονική. Αυτά είναι βασικά βάσης APIs για να βοηθήσει άλλες ενότητες επικοινωνούν μεταξύ τους. Είναι, επίσης, θεωρείται ως ένα σημαντικό μέρος της Hadoop αρχιτεκτονικής, όπως τα ΚΑΕ, MapReduce και νημάτων. Παρέχει μια αφαίρεση στην κορυφή των υποκείμενων βασικά χαρακτηριστικά όπως το σύστημα αρχείων, OS κ.λπ..

ΝΗΜΑΤΑ Υποδομών

YARN, ή 'Yet Έναnother Resource Negotiator », είναι η ενότητα σε Hadoop που είναι υπεύθυνο για τη διαχείριση των υπολογιστικών πόρων. Ως τέτοια, διαθέτει επεξεργαστές ή μνήμη, με βάση την εργασία που είναι στο χέρι. Now, Νήμα είναι κατά κύριο λόγο αποτελείται από δύο βασικά μέρη - το Διαχειριστή Πόρων και τον Διαχειριστή Κόμβος.

  • Resource Manager

Ο Διαχειριστής Πόρων, η οποία αναφέρεται επίσης ως η κύρια, έχει μια ενιαία παρουσία σε ένα σύμπλεγμα και τρέχει διάφορες υπηρεσίες. Καταγράφει όπου βρίσκονται οι εργαζόμενοι και επίσης διαχειρίζεται το Scheduler Πόρων, η οποία εκχωρεί πόρους.

  • Node Manager

Ο Διαχειριστής Κόμβος συμβαίνει να είναι ο εργαζόμενος της υποδομής και μπορεί να υπάρχουν πολλά από αυτά σε ένα σύμπλεγμα Hadoop. Κάθε ένα από αυτά Διευθυντές Κόμβος προσφέρουν πόρους στο σύμπλεγμα. ικανότητας των πόρων μετράται με τη μορφή της μνήμης και vcores (μερίδιο των πυρήνων CPU). Ο Διαχειριστής Πόρων χρησιμοποιεί πόρους από το Διευθυντή Κόμβος, όταν χρειάζεται να εκτελέσετε μια εργασία.

Hadoop νήμα έχει ορισμένες πολύ συμφέρουσα πτυχές που ένα σημαντικό μέρος της αρχιτεκτονικής κάνουν. Αυτά έχουν περιγραφεί λεπτομερώς.

Multi-tenancy

Ένα από τα μεγαλύτερα πλεονεκτήματα Hadoop νήματος είναι ότι υποστηρίζει δυναμική διαχείριση των πόρων. Παρά την κοινή χρήση των πόρων του ίδιου συμπλέγματος, είναι σε θέση να εκτελεί πολλαπλές μηχανές και φόρτο εργασίας. And, όπως ακριβώς και ΚΑΕ, Νήμα είναι επίσης εξαιρετικά επεκτάσιμη, το οποίο προσφέρει τεράστιες δυνατότητες προγραμματισμού, δεν έχει σημασία τι μπορεί να είναι ο φόρτος εργασίας.

Ευρωστία

Hadoop ΝΗΜΑΤΑ προσφέρει στιβαρότητα, η οποία σας επιτρέπει να ανοίξετε ασφαλείας των δεδομένων σας σε μια ποικιλία από εργαλεία και τεχνολογίες που μπορούν να σας βοηθήσουν να πάρετε το καλύτερο από την επεξεργασία δεδομένων. οικοσύστημά της είναι καλά setup για να καλύψει τις ανάγκες των διαφόρων προγραμματιστές όσο και τους οργανισμούς της μικρής και μεγάλης κλίμακας.

In fact, Hadoop σήμερα έρχεται με πολλά γνωστά έργα όπως Hive, MapReduce, Zookeeper, HBase, HCatalog, και πολλά άλλα. Also, καθώς η αγορά για Hadoop συνεχίζει να επεκτείνεται, Τα νεότερα εργαλεία προστεθεί σε αυτόν τον αριθμό κάθε μέρα.

Μετά είναι ένα τυπικό ΝΗΜΑΤΑ διάγραμμα αρχιτεκτονικής.

YARN Architecture diagram

διάγραμμα ΝΗΜΑΤΑ Αρχιτεκτονική

image3: διάγραμμα ΝΗΜΑΤΑ Αρχιτεκτονική

πλαίσιο MapReduce

MapReduce λέγεται ότι είναι η καρδιά του συστήματος Hadoop. Είναι το πλαίσιο προγραμματισμού που επιτρέπει για τη συγγραφή των αιτήσεων για παράλληλη επεξεργασία μεγάλου όγκου δεδομένων σύνολα διαθέσιμα σε αρκετές εκατοντάδες ή χιλιάδες servers σε ένα σύμπλεγμα Hadoop.

Η βασική ιδέα πίσω εργασίας του είναι η χαρτογράφηση και τη μείωση των καθηκόντων. Η λειτουργία Map είναι υπεύθυνος για το φιλτράρισμα και τη διαλογή των δεδομένων, ενώ η λειτουργία Μείωση εκτελεί ορισμένες εργασίες περίληψη. MapReduce φτάνει πάρα πολύ με το μερίδιο που της αναλογεί σημαντικές πτυχές που βοηθούν στην επίτευξη της επιτυχίας της παραγωγής, which are

Ευκαμψία

MapReduce μπορεί να επεξεργαστεί τα δεδομένα όλων των τύπων, αν είναι δομημένη, ημι-δομημένων ή αδόμητων. Αυτό είναι ένα από τα βασικά θέματα που αποτελούν σημαντικό μέρος της όλης αρχιτεκτονικής Hadoop κάνουν.

Προσιτότητα

Ένα ευρύ φάσμα των γλωσσών που υποστηρίζονται από MapReduce, η οποία επιτρέπει στους προγραμματιστές να εργάζονται άνετα. In fact, MapReduce παρέχει υποστήριξη για Java, Python και C , καθώς επίσης και για τις γλώσσες υψηλού επιπέδου, όπως Apache Pig και Hive.

Scalability

Όντας αναπόσπαστο κομμάτι της αρχιτεκτονικής Hadoop, MapReduce έχει τέλεια σχεδιασμένο με τρόπο ώστε να ταιριάζει με τα τεράστια επίπεδα κλιμάκωσης που προσφέρει η ΚΑΕ. Αυτό εξασφαλίζει απεριόριστη επεξεργασίας δεδομένων, όλα κάτω από μία ολοκληρωμένη πλατφόρμα.

Πώς Hadoop συστατικά εξασφαλίσει την επιτυχία της παραγωγής?

Σε ένα περιβάλλον παραγωγής, επεκτασιμότητα είναι ένα από τα βασικά κριτήρια για την επιτυχία των επιχειρήσεων. Because, εάν η αίτηση δεν μπορεί να κλιμακωθεί (η οποία τρέχει σε ΚΑΕ) κατά τις ώρες αιχμής, τότε δεν θα είναι σε θέση να υποστηρίξει την αύξηση αριθμού των πελατών. Ως αποτέλεσμα, η επιχείρηση θα χάσουν χρήματα. So, από αρχιτεκτονική άποψη, είναι πολύ σημαντικό να έχουμε κλιμακούμενη δυνατότητες αποθήκευσης και επεξεργασίας, η οποία Hadoop μπορεί να προσφέρει με κατανεμημένο σύστημα αρχείων του (HDFS).

Η άλλη ΚΑΕ χαρακτηριστικά όπως ευελιξία για την υποστήριξη κάθε είδους δεδομένων; αξιοπιστία (υπαιτιότητα ανεκτική) σε περίπτωση κατάρρευσης του συστήματος και προσθέτει αξία σε ένα περιβάλλον παραγωγής. File I / O και την τοποθέτηση μπλοκ είναι επίσης σημαντική, δεδομένου ότι υποστηρίζει τη διαχείριση των δεδομένων είναι πολύ αποτελεσματικά σε περιβάλλον συμπλέγματος. Έτσι, μπορούμε να συμπεράνουμε ότι η επιτυχία της παραγωγής του κάθε εφαρμογή Hadoop εξαρτάται majorly κατά την ίδια την αρχιτεκτονική ΚΑΕ.

Σε μία τυπική σύμπλεγμα 4000 nodes, μπορούμε να έχουμε γύρω από 65 εκατομμύρια αρχεία και 80 εκατομμύρια τεμάχια. Κάθε μπλοκ έχει 3 αντίγραφα, έτσι ώστε κάθε κόμβος θα έχει 60,000 μπλοκ. Αυτή είναι μια τυπική περίπτωση στην διαχείριση των δεδομένων Yahoo. Γι 'αυτό δίνει μια ιδέα ναύλο για το περιβάλλον συμπλέγματος και την αποθήκευση δεδομένων.

αρχιτεκτονική ΝΗΜΑΤΑ παρέχει μια αποτελεσματική διαχείριση των πόρων που είναι εισάγει στο Hadoop 2.0 architecture. Εξασφαλίζει τη σωστή διαχείριση των πόρων στο περιβάλλον παραγωγής.

Εκτός από τα συστατικά, προγραμματισμού MapReduce βοηθά στην παράλληλη επεξεργασία των δεδομένων σε ένα κατανεμημένο περιβάλλον. Έτσι, μια ταχύτερη επεξεργασία επιτυγχάνεται στο σύστημα παραγωγής για τη στήριξη του πραγματικού κόσμου απαιτήσεις.

Συμπέρασμα

Είναι γνωστό ότι η Big Data έχει οριστεί να κυριαρχήσει τις επικείμενες φορές στην επεξεργασία δεδομένων, και με το οικοσύστημα Hadoop που ευδοκιμεί σήμερα, αναμένεται επίσης να είναι η πρωτοπόρος στον τομέα. Σχεδόν όλα τα εργαλεία τα δεδομένα που βασίζονται κάνουν τον τρόπο τους με Hadoop, προκειμένου να αντιμετωπιστούν οι προκλήσεις που αναμένεται να αντιμετωπίσει στο εγγύς μέλλον. αρχιτεκτονική Hadoop είναι φτιαγμένο για να διαχειριστεί αυτές τις τεράστιες ποσότητες δεδομένων σε ένα κατανεμημένο περιβάλλον. Κάθε ένας και κάθε στοιχείο της πλατφόρμας Hadoop γίνεται για να χειριστεί συγκεκριμένους τύπους λειτουργιών. So, στο σύνολό τους εξασφαλίζει την επιτυχία της παραγωγής του κάθε bigdata εφαρμογής. Αλλά πρέπει επίσης να θυμόμαστε ότι οι σχετικές τεχνολογίες bigdata διαδραματίζουν επίσης σημαντικό ρόλο στην ανάπτυξη εφαρμογών και την επιτυχία της στην πραγματική ζωή σενάρια.

Tagged on:
============================================= ============================================== Buy best TechAlpine Books on Amazon
============================================== ---------------------------------------------------------------- electrician ct chestnutelectric
error

Enjoy this blog? Please spread the word :)

Follow by Email
LinkedIn
LinkedIn
Share