Apache Mahout dhe të mësuarit e makinës

Përmbledhje: Me kaq shumë kornizat e zhvillimit rreth, ajo bëhet e rëndësishme që ne duhet të jetë në gjendje për të shkallës deri kërkesën tonë në çdo pikë të caktuar kohe. Machine teknika si grupim dhe kategorizimit të mësuarit janë bërë popullore në këtë kontekst. Apache Mahout është një kornizë që na ndihmon për të arritur scalability.

In this document, Unë do të flas për Apache Mahout dhe rëndësinë e tij.

Parathënie: Apache Mahout është një projekt burim të hapur nga Apache Software Foundation ose FSHB e cila ka qëllimin kryesor të krijimit të makinës të mësuarit algoritëm. Prezantuar nga një grup i zhvilluesve nga projekti i Apache Lucene, Apache Mahout ka për qëllim për të -

  • Të ndërtuar dhe mbështetur një komunitet të përdoruesve apo kontribuesve në mënyrë që qasja në kodin burimor për kornizën nuk kufizohet në një grup të vogël të zhvilluesit.
  • Të përqëndrohet në problemet praktike, më tepër se çështje të padukshme ose të pavërtetuar.
  • Të sigurojë dokumentacionin e duhur.

Karakteristikat e Apache Mahout:

Apache Mahout vjen me një sërë karakteristikash dhe funksionalitete sidomos kur flasim për Klasterat dhe bashkëpunuese Filtrim. Karakteristikat më të rëndësishme janë të shënuara si në -

  • Shijoni Bashkëpunuese Filtrim - shije është një projekt me kod të hapur për filtrim bashkëpunuese. Kjo është pjesë e kornizës Mahout e cila ofron algoritme të mësuarit e makinës për të shkallës deri aplikacionet tona. Shije është përdorur për rekomandimet personale. Këto ditë kur kemi hapur një faqe interneti të gjeni shumë rekomandime që kanë të bëjnë në faqen e internetit që po shfletojnë. Figura e mëposhtme tregon diagramin arkitekturës e shije -
Taste Architecture diagram

Shijoni Arkitekturë diagram

Figure 1: Shijoni Arkitekturë diagram

  • Harta reduktuar Implementimi aktivizuar - Harta Disa ulin mundësuar implementimet grumbulluara janë të mbështetur në Mahout. Kjo perfshin K-thotë, mjegullt, tendë
  • Shpërndarë Navie Bayes dhe kompliment Navie Bayes - Apache mahout ka zbatim për të dy Navie Bayes dhe Plotësuese Bayes. Për thjeshtësi Bayes Navie janë të referuara si Bayes dhe kompliment janë të referuara si CBayes. Bayes janë përdorur në klasifikimin tekst ndërsa CBayes janë zgjatje e Bayes të cilat përdoren në rast të 'dhënash'.
  • Ai mbështet Matrix dhe biblioteka të tjera të ngjashme vektoriale.

Ngritja Apache Mahout:

Vendosja e Apache Mahout është shumë e thjeshtë dhe mund të kryhet në hapat vijues -

  • Step 1 - Në mënyrë që të instalimit Apache Mahout, ne duhet të kemi në vijim të instaluar -
    • JDK 1.6 or higher
    • milingonë 1.7 or higher
    • Maven 2.9 ose më e lartë - Në rast se ne duam të ndërtojmë nga kodi burim
  • Step 2 - Unzip skedarin, sample.zip dhe kopje përmbajtjen në një dosje thonë "apache-mahout-shembuj".
  • Step 3 - Go brenda dosje - "apache-mahout-shembuj" dhe të drejtuar sa më poshtë -
    • ant instaluar

Hapi i fundit shkarkime fotografi Wikipedia dhe harton kodin.

Rekomandimi Engine:

Rekomandimi engine është një nënklasë e sistemit të filtrimit të informacionit të cilat mund të parashikojnë vlerësim ose parapëlqimet e përdoruesit mund të japin një artikull. Mahout siguron mjete dhe teknika të cilat janë të dobishme për të ndërtuar motorët rekomanduese përdorur bibliotekën "Shijoni '. Duke përdorur bibliotekën Shijoni ne mund të ndërtojmë një motor të shpejtë dhe fleksibël Bashkëpunuese Filtrim. Shijoni përbëhet nga pesë komponente kryesore të mëposhtme të cilat punojnë me përdoruesit e, artikuj dhe preferencat -

  • Data Model - Kjo është përdorur si një sistem ruajtje për përdoruesit, artikuj dhe gjithashtu preferencat.
  • User Ngjashmëria - Kjo është një ndërfaqe e përdorur për të përcaktuar ngjashmërinë midis dy përdoruesve.
  • Item Ngjashmëria - Një ndërfaqe e cila është përdorur për të përcaktuar ngjashmërinë mes dy artikuj.
  • rekomanduesi - Një ndërfaqe e cila është përdorur për të ofruar rekomandime.
  • User lagjes - Një ndërfaqe e cila është përdorur për të llogaritur dhe të llogaritur një lagje të përdoruesve të njëjtës kategori të cilat mund të përdoren nga rekomanduesit.

Përdorimi i këtyre komponentëve dhe implementimin e tyre, ne mund të ndërtojmë një sistem kompleks rekomandim. Ky motor rekomandim mund të përdoret në të dyja rekomandimet kohë reale dhe rekomandimet offline. Rekomandimet e vërtetë kohë mund të trajtojë përdoruesit deri në disa mijëra, ndërsa rekomandimet offline mund të trajtojë përdoruesit në akuzë shumë më të lartë.

clustering:

Mahout mbështet shumë mekanizma clustering. Këto algoritme janë shkruar në hartën e zvogëluar. Secila nga këto algoritme ka vendosur tyre të qëllimeve dhe kritereve. Ato të rëndësishme janë të shënuara si në -

  • tendë - Kjo është më e algorithm shpejtë clustering përdoren për të krijuar fara fillestare për algoritme të tjera clustering.
  • k – Mjetet ose k Fuzzy – do të thotë - Kjo algorithm krijon grupe k bazuar në distancën e artikujve nga qendra e përsëritje të mëparshëm.
  • Do të thotë - Shift - Kjo algorithm nuk kërkon ndonjë informacion paraprak në lidhje me numrin e grupimeve. Kjo mund të prodhojë një grumbull arbitrare e cila mund të rritet apo ulet si për nevojën tonë.
  • Dirichlet - Kjo algorithm krijon grupe duke kombinuar një ose më shumë modele grumbull. Kështu ne kemi marrë një avantazh për të zgjedhur një më të mirë të mundshme nga një numër i grupeve.

Nga katër algoritme e mësipërme të listuara, më e përdorur zakonisht është k - thotë algoritëm. Të jetë kjo ndonjë algorithm clustering, ne duhet të ndiqni këto hapa -

  • Përgatitja e dhëna. If required, kthyer tekstin në përfaqësimin numerik.
  • Execute algoritmin e zgjedhjes suaj duke përdorur ndonjë prej programeve të gatshme Hadoop në dispozicion në Mahout.
  • Duhet vlerësuar rezultatet.
  • Iterate këto hapa, nëse kërkohet.

përmbajtja Kategorizimi:

Apache Mahout mbështet dy qasje e mëposhtme për të kategorizuar ose klasifikuar përmbajtjen. Këto janë bazuar kryesisht në statistikat Bayesian -

  • Qasja e parë është e drejtë përpara Harta ulin aktivizuar Navie Bayes klasifikues. Classifiers e kësaj kategorie janë të njohur të jetë i shpejtë dhe i saktë pavarësisht që supozimin se të dhënat është plotësisht e pavarur. Këto classifiers prishen kur madhësia e të dhënave shkon lart ose të dhënave bëhet e ndërvarura. Navie Bayes klasifikues është një proces me dy pjesë e cila mban një udhë nga tiparet apo thjesht fjalë të cilat kanë të bëjnë me një dokument. Ky hap është i njohur si trajnim i cili gjithashtu krijon një model duke shikuar në shembujt e përmbajtjes klasifikuar tashmë. Hapi i dytë, i njohur si klasifikim, përdor modelin e cila është krijuar gjatë trajnimit dhe përmbajtjen e një të ri, dokumenti i paparë. Prandaj, në mënyrë që të kandidojë klasifikues Mahout-së, ne së pari duhet për të trajnuar modelin dhe pastaj të përdorin modelin për të klasifikuar përmbajtje të re.
  • Qasja e dytë, i cili është i njohur edhe si plotësuese naiv Bayes, përpiqet për të korrigjuar disa nga çështjet me qasjen naiv Bayes dhe ende ruan thjeshtësinë dhe shpejtësinë e ofruar nga Navie Bayes.

Running Navie Bayes klasifikues:

Navie Bayes Klasifikues kërkon ekzekutimin objektivat e mëposhtme Ant për ekzekutimin -

  • ant përgatisë-docs - Kjo përgatit sërë dokumenteve të cilat janë të nevojshme për trajnim.
  • ant përgatisë-test-docs - Kjo përgatit sërë dokumenteve të cilat janë të nevojshme për testim.
  • treni ant - Pasi të dhënat e trajnimit dhe testet janë vendosur, ne kemi nevojë për të drejtuar klasës TrainClassifier përdorur objektivin - "treni Ant".
  • testi ant - Pasi objektivat e mësipërme janë ekzekutuar me sukses, ne kemi nevojë për të drejtuar këtë objektiv që merr dokumentet e dhëna mostër dhe të përpiqet për të klasifikuar ato bazuar në modelin që është krijuar, ndërsa trajnimi.

Summary: Në këtë artikull ne kemi parë se Apache Mahout është përdorur gjerësisht për klasifikimin tekst duke përdorur algoritme të mësuarit e makinës. Teknologjia është ende në rritje dhe mund të përdoret për lloje të ndryshme të zhvillimit të aplikimit. Le të përmbledhim diskutimin tonë në formën e mëposhtme plumba -

  • Apache Mahout është një projekt burim të hapur nga Apache paraqitur nga një grup i zhvilluesve nga projekti i Apache Lucene. Qëllimi kryesor i këtij projekti është krijimi i algorithm të cilat mund të lexojnë gjuhën e makinës.
  • Apache Mahout ka karakteristikat e mëposhtme të rëndësishme -
    • Shijoni Bashkëpunuese Filtrim.
    • MapReduce aktivizuar Implementimi.
    • Zbatimi për të dy Distributed Navie Bayes dhe Plotësuese Navie Bayes.
    • Mbështet matricës dhe biblioteka të tjera vector lidhur bazuar.
============================================= ============================================== Buy best TechAlpine Books on Amazon
============================================== ---------------------------------------------------------------- electrician ct chestnutelectric
error

Enjoy this blog? Please spread the word :)

Follow by Email
LinkedIn
LinkedIn
Share