Apache Mahout και μηχανική μάθηση

Επισκόπηση: Με τόσα πολλά πλαίσια ανάπτυξης γύρω από, καθίσταται σημαντικό το γεγονός ότι θα πρέπει να είμαστε σε θέση να αναβαθμίσουν την εφαρμογή μας σε κάθε δεδομένη χρονική στιγμή. Μηχάνημα τεχνικές όπως η ομαδοποίηση και κατηγοριοποίηση της μάθησης έχουν γίνει δημοφιλής σε αυτό το πλαίσιο. Apache Mahout είναι ένα πλαίσιο που μας βοηθά να επιτύχουν επεκτασιμότητα.

In this document, Θα μιλήσουμε για Apache Mahout και τη σημασία της.

Εισαγωγή: Apache Mahout είναι ένα έργο ανοικτού πηγαίου κώδικα από το Ίδρυμα Apache Software ή ASF που έχει τον πρωταρχικό στόχο της δημιουργίας αλγορίθμου μηχανικής μάθησης. Εισάγεται από μια ομάδα προγραμματιστών από το έργο Apache Lucene, Apache Mahout έχει ως στόχο να -

  • Κατασκευάστηκε και να υποστηρίξει μια κοινότητα χρηστών ή συνεργατών έτσι ώστε η πρόσβαση στον πηγαίο κώδικα για το πλαίσιο δεν περιορίζεται σε μια μικρή ομάδα προγραμματιστών.
  • Επικεντρωθείτε στα πρακτικά προβλήματα, παρά απαρατήρητη ή αναπόδεικτη θέματα.
  • Παρέχει κατάλληλη τεκμηρίωση.

Χαρακτηριστικά του Apache Mahout:

Apache Mahout έρχεται με μια σειρά από χαρακτηριστικά και τις λειτουργίες ειδικά όταν μιλάμε για ομαδοποίηση και φιλτράρισμα Συνεργατική. Τα πιο σημαντικά χαρακτηριστικά που αναφέρονται ως κάτω -

  • Γευτείτε το συνεργατικό φιλτράρισμαΓεύση είναι ένα έργο ανοικτού πηγαίου κώδικα για το συνεργατικό φιλτράρισμα. Είναι το μέρος του πλαισίου Mahout που παρέχει αλγόριθμους μηχανικής μάθησης για να αναβαθμίσουν τις εφαρμογές μας. Γεύση χρησιμοποιείται για προσωπικές συστάσεις. Αυτές τις μέρες, όταν ανοίγουμε μια ιστοσελίδα μας βρείτε πολλές προτάσεις που σχετίζονται με την ιστοσελίδα που έχουμε περιήγηση. Το παρακάτω σχήμα δείχνει το διάγραμμα αρχιτεκτονική της Γεύσης -
Taste Architecture diagram

Γευτείτε διάγραμμα Αρχιτεκτονική

Figure 1: Γευτείτε διάγραμμα Αρχιτεκτονική

  • Χάρτης μείωση ενεργοποιημένη εφαρμογές - Αρκετές χάρτη μειώνουν έχουν ενεργοποιηθεί συγκεντρωμένα εφαρμογές που υποστηρίζονται στο Mahout. Αυτό περιλαμβάνει K-μέση, ασαφής, Θόλος
  • Κατανεμημένα Navie Bayes και δωρεάν Navie Bayes - Apache οδηγός ελέφαντος έχει εφαρμογή τόσο για Navie Bayes και δωρεάν Bayes. Για τα απλότητας Navie bayes αναφέρεται ως Bayes και δωρεάν αναφέρονται ως CBayes. Bayes χρησιμοποιούνται στην ταξινόμηση κειμένου, ενώ οι CBayes είναι προέκταση του Bayes τα οποία χρησιμοποιούνται σε περίπτωση «Σύνολα Δεδομένων».
  • Υποστηρίζει Matrix και άλλες συναφείς βιβλιοθήκες διάνυσμα.

Ρύθμιση Apache Mahout:

Ρύθμιση Apache Mahout είναι πολύ απλή και μπορεί να πραγματοποιηθεί με τα ακόλουθα βήματα -

  • Step 1 - Για να ρυθμίσετε τον Apache Mahout, θα πρέπει να έχουν τα ακόλουθα εγκατασταθεί -
    • JDK 1.6 or higher
    • Μυρμήγκι 1.7 or higher
    • Maven 2.9 ή υψηλότερο - Σε περίπτωση που θέλουμε να οικοδομήσουμε από τον πηγαίο κώδικα
  • Step 2 - Αποσυμπιέστε το αρχείο, sample.zip και να αντιγράψετε τα περιεχόμενα σε κάποιο φάκελο λένε "apache-οδηγός ελέφαντος-παραδείγματα".
  • Step 3 - Πηγαίνετε μέσα στο φάκελο - "apache-οδηγός ελέφαντος-παραδείγματα» και εκτελέστε την ακόλουθη -
    • μυρμήγκι εγκαταστήσετε

Το τελευταίο βήμα κατεβάζει τα αρχεία Wikipedia και καταρτίζει τον κωδικό.

μηχανή σύσταση:

κινητήρα σύσταση είναι μια υποκατηγορία του συστήματος φιλτραρίσματος των πληροφοριών που μπορεί να προβλέψει την αξιολόγηση ή τις προτιμήσεις του χρήστη μπορεί να δώσει σε ένα στοιχείο. Mahout παρέχει εργαλεία και τεχνικές που είναι χρήσιμες για την κατασκευή κινητήρων σύσταση χρησιμοποιώντας τη βιβλιοθήκη "γεύση". Χρησιμοποιώντας τη βιβλιοθήκη Γεύση μπορούμε να οικοδομήσουμε μια γρήγορη και ευέλικτη Συνεργατική κινητήρα Filtering. Γεύση αποτελείται από τα ακόλουθα πέντε βασικά συστατικά που συνεργάζονται με τους χρήστες, στοιχεία και τις προτιμήσεις -

  • Μοντέλο Δεδομένων - Αυτό χρησιμοποιείται ως ένα σύστημα αποθήκευσης για τους χρήστες, στοιχεία και τις προτιμήσεις.
  • Ομοιότητα των χρηστών - Αυτή είναι μια διεπαφή που χρησιμοποιείται για τον καθορισμό της ομοιότητας μεταξύ δύο χρηστών.
  • Στοιχείο Ομοιότητα - Μια διεπαφή η οποία χρησιμοποιείται για τον καθορισμό της ομοιότητας μεταξύ δύο στοιχείων.
  • συστάσεων - Μια διεπαφή που χρησιμοποιείται για την παροχή συστάσεων.
  • Γειτονιά του χρήστη - Μια διεπαφή η οποία χρησιμοποιείται για να υπολογίσει και να υπολογίσει μια γειτονιά των χρηστών ίδιας κατηγορίας η οποία μπορεί να χρησιμοποιηθεί από τον συστήνοντες.

Χρησιμοποιώντας αυτά τα στοιχεία και τις εφαρμογές τους, μπορούμε να οικοδομήσουμε ένα πολύπλοκο σύστημα σύστασης. Ο κινητήρας αυτός σύσταση μπορεί να χρησιμοποιηθεί τόσο σε πραγματικό χρόνο τις συστάσεις και offline συστάσεις. Σε πραγματικό χρόνο συστάσεις μπορεί να χειριστεί τους χρήστες έως και μερικές χιλιάδες, ενώ οι συστάσεις σύνδεση μπορεί να χειριστεί τους χρήστες σε πολύ υψηλότερη αρίθμηση.

ομαδοποίηση:

Mahout υποστηρίζει πολλούς μηχανισμούς ομαδοποίησης. Αυτοί οι αλγόριθμοι γραμμένο στο χάρτη μειώσει. Κάθε ένας από αυτούς τους αλγορίθμους έχει τους δικούς της στόχους και κριτήρια. Τα σημαντικότερα από αυτά που αναφέρονται ως κάτω -

  • Στέγαστρο - Αυτή είναι η πιο γρήγορη αλγόριθμο ομαδοποίησης χρησιμοποιείται για να δημιουργήσει την αρχική τους σπόρους για άλλους αλγορίθμους ομαδοποίησης.
  • k – Μέσα ή Ασαφής k – σημαίνει - Αυτός ο αλγόριθμος δημιουργεί k συστάδες με βάση την απόσταση των αντικειμένων από το κέντρο του την προηγούμενη επανάληψη.
  • Σημαίνει - Shift - Αυτός ο αλγόριθμος δεν απαιτεί καμία προηγούμενη ενημέρωση σχετικά με τον αριθμό των συστάδων. Αυτό μπορεί να παράγει ένα αυθαίρετο σύμπλεγμα το οποίο μπορεί να αυξηθεί ή να μειωθεί σύμφωνα με την ανάγκη μας.
  • Dirichlet - Αυτός ο αλγόριθμος δημιουργεί συμπλέγματα με τον συνδυασμό ενός ή περισσοτέρων μοντέλα σύμπλεγμα. Έτσι έχουμε ένα πλεονέκτημα για να επιλέξετε το καλύτερο δυνατό, ένα από μια σειρά από συστάδες.

Από τις παραπάνω τέσσερις αλγορίθμους που απαριθμούνται, η πιο συχνά χρησιμοποιούμενη είναι η k - σημαίνει αλγόριθμος. Είτε πρόκειται για κάθε αλγόριθμο ομαδοποίησης, πρέπει να ακολουθήσετε τα παρακάτω βήματα -

  • Προετοιμάστε την είσοδο. If required, μετατρέψετε το κείμενο σε αριθμητική εκπροσώπηση.
  • Εκτελέστε τον αλγόριθμο της επιλογής σας, χρησιμοποιώντας οποιοδήποτε από τα έτοιμα προγράμματα Hadoop διαθέσιμο σε Mahout.
  • Σωστά την αξιολόγηση των αποτελεσμάτων.
  • Επαναλάβει αυτά τα βήματα, εάν απαιτείται.

κατηγοριοποίηση περιεχομένου:

Apache Mahout υποστηρίζει τα ακόλουθα δύο προσεγγίσεις για την κατηγοριοποίηση ή ταξινόμηση των περιεχομένων. Αυτά βασίζονται κυρίως σε Bayesian στατιστικές -

  • Η πρώτη προσέγγιση είναι κατ 'ευθείαν προς τα εμπρός Χάρτης μειώνουν ενεργοποιημένη Navie Bayes ταξινομητή. Ταξινομητές της κατηγορίας αυτής είναι γνωστό ότι είναι γρήγορη και ακριβής παρά το γεγονός ότι την υπόθεση ότι τα δεδομένα είναι εντελώς ανεξάρτητη. Αυτοί οι ταξινομητές σπάσει όταν το μέγεθος των δεδομένων αυξάνεται ή δεδομένων γίνεται αλληλοεξαρτώμενες. Navie Bayes ταξινομητής είναι μια διαδικασία δύο μέρη που κρατά ένα κομμάτι από τα χαρακτηριστικά ή απλά λέξεις που σχετίζονται με ένα έγγραφο. Αυτό το βήμα είναι γνωστό ως εκπαίδευση η οποία δημιουργεί επίσης ένα μοντέλο κοιτάζοντας παραδείγματα που έχουν ήδη ταξινομηθεί περιεχομένου. Το δεύτερο βήμα, γνωστή ως ταξινόμηση, χρησιμοποιεί το μοντέλο που δημιουργείται κατά τη διάρκεια της κατάρτισης και το περιεχόμενο ενός νέου, αόρατο έγγραφο. Όθεν, προκειμένου να τρέξει ταξινομητή Mahout του, θα πρέπει πρώτα να εκπαιδεύσει το μοντέλο και στη συνέχεια χρησιμοποιήστε το μοντέλο για να χαρακτηρίσει το νέο περιεχόμενο.
  • Η δεύτερη προσέγγιση, η οποία είναι επίσης γνωστή ως συμπληρωματική Naive Bayes, προσπαθεί να διορθώσει μερικά από τα ζητήματα με τον Naive Bayes προσέγγιση και εξακολουθεί να διατηρεί την απλότητα και την ταχύτητα που προσφέρονται από Navie Bayes.

Τρέχοντας το Navie Bayes ταξινομητή:

Η Navie Bayes ταξινομητής απαιτεί την εκτέλεση των παρακάτω μυρμήγκι στόχους, προκειμένου να εκτελέσει -

  • μυρμήγκι προετοιμάσει-docs - Αυτό προετοιμάζει το σύνολο των εγγράφων που απαιτούνται για την κατάρτιση.
  • μυρμήγκι προετοιμάσει-test-docs - Αυτό προετοιμάζει το σύνολο των εγγράφων που απαιτούνται για τη δοκιμή.
  • μυρμήγκι τρένο - Μόλις τα δεδομένα εκπαίδευσης και δοκιμές που, θα πρέπει να εκτελέσετε την τάξη TrainClassifier χρησιμοποιώντας το στόχο - "μυρμήγκι τρένο".
  • μυρμήγκι δοκιμή - Μόλις οι παραπάνω στόχοι εκτελούνται με επιτυχία, θα πρέπει να εκτελέσετε αυτό το στόχο που παίρνει τα έγγραφα εισόδου του δείγματος και προσπαθεί να τις ταξινομήσει με βάση το μοντέλο που δημιουργήθηκε, ενώ η κατάρτιση.

Summary: Σε αυτό το άρθρο έχουμε δει ότι Apache Mahout χρησιμοποιείται ευρέως για την ταξινόμηση κειμένου χρησιμοποιώντας αλγόριθμους μηχανικής μάθησης. Η τεχνολογία εξακολουθεί να αυξάνεται και μπορεί να χρησιμοποιηθεί για διαφορετικούς τύπους ανάπτυξης εφαρμογών. Let us summarize our discussion in the form of following bullets –

  • Apache Mahout είναι ένα έργο ανοικτού πηγαίου κώδικα από την Apache εισάγεται από μια ομάδα προγραμματιστών από το έργο Apache Lucene. Πρωταρχικός στόχος του προγράμματος αυτού είναι η δημιουργία αλγόριθμο που μπορεί να διαβάσει γλώσσα μηχανής.
  • Apache Mahout έχει τα ακόλουθα σημαντικά χαρακτηριστικά -
    • Γευτείτε το συνεργατικό φιλτράρισμα.
    • ενεργοποιημένη MapReduce υλοποιήσεις.
    • Εφαρμογή τόσο για Κατανεμημένα Navie Bayes και δωρεάν Navie Bayes.
    • Υποστηρίζει μήτρας και άλλες βιβλιοθήκες συναφή φορέα με βάση.
============================================= ============================================== Buy best TechAlpine Books on Amazon
============================================== ---------------------------------------------------------------- electrician ct chestnutelectric
error

Enjoy this blog? Please spread the word :)

Follow by Email
LinkedIn
LinkedIn
Share