Apache Mahout და მანქანა სწავლის

მიმოხილვა: ამდენ განვითარების ფარგლებში გარშემო, ხდება მნიშვნელოვანია, რომ ჩვენ უნდა შეეძლოს გავაფართოვოთ ჩვენი პროგრამა ნებისმიერ მოცემულ მომენტში დრო. მანქანა სწავლის ტექნიკას, როგორიცაა კლასტერიზაცია და კატეგორიზაციის პოპულარული გახდა ამ კონტექსტში. Apache Mahout არის ჩარჩო, რომელიც გვეხმარება, რათა მივაღწიოთ scalability.

In this document, ვილაპარაკებ Apache Mahout და მისი მნიშვნელობა.

შესავალი: Apache Mahout არის ღია პროექტის Apache პროგრამული უზრუნველყოფის ფონდის და ASF რომელსაც აქვს პირველადი მიზანი მანქანა სწავლის ალგორითმი. გააცნო ჯგუფის მიერ დეველოპერები Apache Lucene პროექტის, Apache Mahout აქვს მიზანი -

  • აშენების და მხარი დაუჭიროს საზოგადოების წევრებს და ავტორების ისე, რომ ხელმისაწვდომობის კოდის ფარგლებში არ შემოიფარგლება მცირე ჯგუფი დეველოპერები.
  • ფოკუსირება პრაქტიკული პრობლემები, ვიდრე უხილავი და დადგა საკითხი.
  • სათანადო დოკუმენტაცია.

თვისებები Apache Mahout:

Apache Mahout გააჩნია მასივი თვისებები და ფუნქციები განსაკუთრებით მაშინ, როდესაც ჩვენ ვსაუბრობთ კლასტერიზაცია და კოლაბორაცია ფილტრაცია. ყველაზე მნიშვნელოვანი თვისებები ჩამოთვლილი ქვეშ -

  • გასინჯვა კოლაბორაცია ფილტრაცია - Taste არის ღია პროექტის ერთობლივი ფილტრაცია. ეს არის ნაწილი Mahout ფარგლებში, რომელიც უზრუნველყოფს მანქანა სწავლის ალგორითმები გავაფართოვოთ ჩვენი პროგრამები. Taste გამოიყენება პირადი რეკომენდაციები. ამ დღეებში, როდესაც ჩვენ გახსნა ნახვა, ჩვენ უამრავი დაკავშირებული რეკომენდაციები ნახვა, რომ ჩვენ ათვალიერებს. შემდეგ ნახაზზე არქიტექტურა სქემა Taste -
Taste Architecture diagram

გასინჯვა არქიტექტურა სქემა

Figure 1: გასინჯვა არქიტექტურა სქემა

  • რუკა შემცირების საშუალება შესრულება - რამდენიმე რუკა შეამციროს საშუალება ეშვება შესრულება მხარდაჭერა Mahout. ეს მოიცავს K-საშუალო, საეჭვო, Canopy
  • განაწილებული Navie Bayes და მისასალმებელია Navie Bayes - Apache mahout აქვს განხორციელების ორივე Navie Bayes და მისასალმებელია Bayes. სიმარტივის Navie Bayes მოხსენიებულია როგორც Bayes და მისასალმებელია მოხსენიებულია როგორც CBayes. Bayes გამოიყენება ტექსტი კლასიფიკაცია ხოლო CBayes არიან გაგრძელების Bayes რომლებიც გამოიყენება იმ შემთხვევაში, თუ "მონაცემთა".
  • იგი მხარს უჭერს Matrix და მასთან დაკავშირებული სხვა ვექტორი ბიბლიოთეკები.

შექმნის Apache Mahout:

შექმნის Apache Mahout არის ძალიან მარტივი და შეიძლება განხორციელდეს შემდეგი ნაბიჯები -

  • Step 1 - იმისათვის, რომ setup Apache Mahout, ჩვენ უნდა ჰქონდეს შემდეგი დაყენებული -
    • JDK 1.6 or higher
    • Ant 1.7 or higher
    • Maven 2.9 ან უფრო მაღალი - იმ შემთხვევაში, ჩვენ გვინდა, რომ ავაშენოთ კოდის
  • Step 2 - Unzip ფაილი, sample.zip და ასლის შინაარსი ზოგიერთ ფოლდერი ამბობენ "apache-mahout-მაგალითები".
  • Step 3 - გადავიდეთ შიგნით საქაღალდე - "apache-mahout მაგალითები," და აწარმოებს შემდეგი -
    • ant ინსტალაცია

ბოლო ნაბიჯი იწერს Wikipedia ფაილი და ადგენს კოდი.

რეკომენდაცია ძრავის:

რეკომენდაცია ძრავის ქვეკლასით ინფორმაცია ფილტრაციის სისტემა, რომელიც შეიძლება პროგნოზირება ნიშანი ან შეღავათებით შესახებ შეუძლია ნივთი. Mahout უზრუნველყოფს ინსტრუმენტები და ტექნიკა, რომელიც არის სასარგებლო აშენება რეკომენდაციით ძრავების გამოყენებით "Taste ბიბლიოთეკა. გამოყენება Taste ბიბლიოთეკა ჩვენ შეგვიძლია ავაშენოთ სწრაფი და მოქნილი კოლაბორაცია ფილტრაცია ძრავის. Taste შედგება შემდეგი ხუთი ძირითადი კომპონენტების რომელიც მუშაობს მომხმარებლები, ნივთები და შეღავათებით -

  • მონაცემთა მოდელი - ეს გამოიყენება როგორც შენახვის სისტემის მომხმარებლებს, ნივთები და ასევე შეღავათებით.
  • შესახებ მსგავსება - ეს არის ინტერფეისი გამოიყენება განსაზღვრავს მსგავსება შორის ორი მომხმარებლები.
  • საქონელი მსგავსება - ინტერფეისი, რომელიც გამოიყენება განსაზღვრავს მსგავსება შორის ორი ელემენტი.
  • Recommender - ინტერფეისი, რომელიც გამოიყენება, რათა რეკომენდაციები.
  • შესახებ სამეზობლო - ინტერფეისი, რომელიც გამოიყენება გამოთვლაც და გამოვთვალოთ სამეზობლოში მომხმარებლებს ამავე კატეგორიაში, რომელიც შეიძლება გამოყენებული იქნას სარეკომენდაციო.

გამოყენება ამ კომპონენტები და მათი შესრულება, ჩვენ შეგვიძლია ავაშენოთ კომპლექსი რეკომენდაციით სისტემა. ამ რეკომენდაციის სისტემა შეიძლება გამოყენებულ იქნას, როგორც რეალურ დროში და რეკომენდაციები გასულია რეკომენდაციები. რეალურ დროში რეკომენდაციები შეუძლია მომხმარებლებს მდე რამდენიმე ათასი, ხოლო გასულია რეკომენდაციები შეუძლია მომხმარებლებს გაცილებით მაღალია count.

კლასტერული:

Mahout მხარს უჭერს მრავალი კლასტერული მექანიზმები. ეს ალგორითმები იწერება რუკა შეამციროს. თითოეული ეს ალგორითმები აქვს საკუთარი კომპლექტი მიზნების და კრიტერიუმების. მნიშვნელოვანი პირობა არის ჩამოთვლილი როგორც ქვეშ -

  • Canopy - ეს არის ყველაზე სწრაფი კლასტერული ალგორითმი გამოიყენება, რათა შეიქმნას პირველადი თესლი სხვა კლასტერული ალგორითმები.
  • k – საშუალებით ან Fuzzy k – ნიშნავს - ეს ალგორითმი ქმნის k მტევანი ეფუძნება მანძილი ელემენტი ცენტრში წინა iteration.
  • ნიშნავს - Shift - ეს ალგორითმი არ საჭიროებს რაიმე წინასწარი რაოდენობის შესახებ ინფორმაცია მტევანი. ეს შეიძლება თვითნებური კასეტური რომელიც შეიძლება გაიზარდა ან შემცირდა როგორც პოსტი საჭიროება.
  • დირიხლეს - ეს ალგორითმი ქმნის მტევანი აერთიანებს ერთი ან მეტი კასეტური მოდელები. აქედან გამომდინარე, ჩვენ უპირატესობა აირჩიოთ საუკეთესო ერთი რიგი მტევანი.

აქედან ოთხი ალგორითმები ჩამოთვლილი, ყველაზე ხშირად გამოყენებული არის k - ნიშნავს ალგორითმი. იქნება ეს რაიმე კლასტერული ალგორითმი, ჩვენ უნდა დაიცვას ეს ნაბიჯი -

  • მომზადება შეყვანის. If required, გარდაქმნას ტექსტი რიცხვითი წარმომადგენლობა.
  • შეასრულოს ალგორითმი თქვენი არჩევანი გამოყენებით ნებისმიერ Hadoop მზად პროგრამები ხელმისაწვდომი Mahout.
  • სწორად შეაფასოს შედეგები.
  • Iterate ამ ნაბიჯებს, საჭიროების შემთხვევაში,.

Content კატეგორიების:

Apache Mahout უჭერს შემდეგ ორ მიდგომას კატეგორიზაცია და დაალაგეთ შინაარსი. ეს ძირითადად ეფუძნება Bayesian სტატისტიკა -

  • პირველი მიდგომა არის სწორი ნაბიჯია რუკა შეამციროს ჩართულია Navie Bayes კლასიფიკატორი. კლასიფიკატორების ამ კატეგორიაში ცნობილია, რომ იყოს სწრაფი და ზუსტი მიუხედავად იმისა, რომ იმ მოსაზრებას, რომ მონაცემები სრულიად დამოუკიდებელი. ეს კლასიფიკატორების ნგრევა, როდესაც ზომა მონაცემები მიდის ან მონაცემების ხდება ურთიერთდამოკიდებულ. Navie Bayes კლასიფიკატორი არის ორ ნაწილად პროცესი, რომელიც ინარჩუნებს სიმღერა თვისებები ან უბრალოდ სიტყვა, რომელიც დაკავშირებულია დოკუმენტი. ეს ნაბიჯი ცნობილია, როგორც სწავლება, რომელიც ასევე ქმნის მოდელს ეძებს მაგალითები უკვე კლასიფიცირდება შინაარსი. მეორე ნაბიჯი, ცნობილია, როგორც კლასიფიკაცია, იყენებს მოდელს რომელსაც ქმნის დროს სასწავლო და შინაარსის ახალი, უხილავი დოკუმენტი. აქედან გამომდინარე,, იმისათვის, რომ აწარმოებს Mahout ის კლასიფიკატორი, ჩვენ უნდა მოვამზადოთ მოდელი და შემდეგ გამოიყენოთ მოდელი დაალაგეთ ახალი შინაარსი.
  • მეორე მიდგომა, რომელიც ასევე ცნობილია, როგორც დამატებითი გულუბრყვილო Bayes, ცდილობს გამოასწოროს ზოგიერთი საკითხები გულუბრყვილო Bayes მიდგომა და კვლავ ინარჩუნებს სიმარტივის და სიჩქარე მიერ შემოთავაზებული Navie Bayes.

გაშვებული Navie Bayes კლასიფიკატორის:

Navie Bayes კლასიფიკატორის მოითხოვს შესრულებაში შემდეგ ant სამიზნეების, რათა შესრულდეს -

  • ant მომზადება-docs - ეს ამზადებს კომპლექტი დოკუმენტები, რომლებიც აუცილებელია სასწავლო.
  • ant მომზადება ტესტი-docs - ეს ამზადებს კომპლექტი დოკუმენტები, რომლებიც საჭიროა ტესტირება.
  • ant მატარებელი - მას შემდეგ, რაც სასწავლო და ტესტების მონაცემები მითითებული, ჩვენ უნდა აწარმოებს TrainClassifier კლასის გამოყენებით სამიზნე - "ჭიანჭველა მატარებელი".
  • ant ტესტი - მას შემდეგ, რაც ზემოთ სამიზნეების შესრულებული წარმატებით, ჩვენ უნდა აწარმოებს ამ სამიზნე, რომელიც იღებს ნიმუში შეტანის დოკუმენტები და ცდილობს დაალაგეთ მათ საფუძველზე მოდელი, რომელიც შეიქმნა, ხოლო სასწავლო.

Summary: ამ სტატიაში ჩვენ ვნახეთ, რომ Apache Mahout ფართოდ გამოიყენება ტექსტის კლასიფიკაციის გამოყენებით მანქანა სწავლის ალგორითმები. ტექნოლოგია კვლავ იზრდება და შეიძლება გამოყენებულ იქნას სხვადასხვა სახის განაცხადის განვითარების. მოდით შევაჯამოთ ჩვენი დისკუსიის სახით შემდეგ ტყვია -

  • Apache Mahout არის ღია პროექტის Apache გააცნო ჯგუფის მიერ დეველოპერები Apache Lucene პროექტის. ძირითადი მიზანი ამ პროექტის შექმნა ალგორითმი, რომელიც შეგიძლიათ წაიკითხოთ მანქანა ენის.
  • Apache Mahout აქვს შემდეგი მნიშვნელოვანი მახასიათებლები -
    • გასინჯვა კოლაბორაცია ფილტრაცია.
    • MapReduce ჩართულია შესრულება.
    • განხორციელება ორივე განაწილებული Navie Bayes და მისასალმებელია Navie Bayes.
    • მხარდაჭერა matrix და მასთან დაკავშირებული სხვა ვექტორი დაფუძნებული ბიბლიოთეკები.
============================================= ============================================== Buy best TechAlpine Books on Amazon
============================================== ---------------------------------------------------------------- electrician ct chestnutelectric
error

Enjoy this blog? Please spread the word :)

Follow by Email
LinkedIn
LinkedIn
Share