Apache Mahout ja masinõpe

Ülevaade: Nii palju arenguraamistikke ümber, muutub see oluline, et me peaks suutma ulatuslikke meie taotlus igal ajahetkel. Machine õppe tehnikaid nagu klastrite ja liigitamine on muutunud populaarseks selles kontekstis. Apache Mahout on raamistik, mis aitab meil saavutada mastaapsuse.

In this document, Räägin Apache Mahout ja selle tähtsus.

Sissejuhatus: Apache Mahout on avatud lähtekoodiga projekt Apache Software Foundation või ASF mille esmaseks eesmärgiks luua masinõpe algoritm. Võeti kasutusele grupp arendajaid Apache Lucene projekti, Apache Mahout uurimistöö eesmärgiks on -

  • Ehitamine ja toetada kasutajate kogukonnale või toetajad, nii et juurdepääs lähtekoodi raames ei ole piiratud väikese grupi arendajad.
  • Keskendu praktilisi probleeme, pigem nähtamatu või tõestamata küsimusi.
  • Vajalikud dokumendid.

Tunnused Apache Mahout:

Apache Mahout on varustatud hulga omadusi ja funktsioone, eriti kui me räägime klastrite ja Collaborative filtreerimine. Tähtsaimad on loetletud all -

  • Maitse Collaborative filtreerimine - maitse on avatud lähtekoodiga projekt koostööl filtreerimine. See on osa mahout raamistik, mis annab masin õppe algoritme ulatuslikke meie rakendused. Maitse kasutatakse isiklike soovituste. Nendel päevadel, kui me avada veebileht leiame palju soovitusi, mis on seotud veebisaidi, et me vaatamas. Järgnev joonis näitab arhitektuuri diagramm Maitse -
Taste Architecture diagram

Maitse arhitektuuri diagramm

Figure 1: Maitse arhitektuuri diagramm

  • Kaart vähendada lubatud rakendused - Mitmed kaart vähendavad lubatud rühmitatud rakendused toetatakse Mahout. See hõlmab K-keskmine, udune, baldahhiin
  • Distributed Navie Bayesi ja tasuta Navie Bayesi - Apache mahout on rakendamisel nii Navie Bayesi ja tasuta Bayesi. Lihtsuse Navie Bayesi nimetatakse nagu Bayesi ja tasuta nimetatakse nagu CBayes. Bayesi kasutatakse teksti klassifikatsiooni samas CBayes on laiendus Bayesi, mida kasutatakse juhul, "andmekogude".
  • Ta toetab Matrix ja muu seotud vektor raamatukogud.

Seadistamine Apache Mahout:

Seadistamine Apache Mahout on väga lihtne ja saab läbi järgmised sammud -

  • Step 1 - Selleks, et setup Apache Mahout, meil peaks olema järgmised paigaldatud -
    • JDK 1.6 or higher
    • sipelgas 1.7 or higher
    • maven 2.9 või kõrgem - Kui me tahame ehitada lähtekoodist
  • Step 2 - Unzip faili, sample.zip ja kopeerimiseks mõnel kausta öelda "apache-mahout-näited".
  • Step 3 - Mine kausta sees - "apache-mahout-näited" ja käivitage järgmine -
    • ant paigaldada

Viimane etapp laeb Wikipedia failid ja koostab koodi.

soovitus Mootor:

Soovitus mootor on alamklass teabe filtreerimise süsteem, mis ei suuda ennustada hinnangud või eelistusi kasutaja saab anda objekt. Mahout pakub tööriistu ja tehnikaid, mis on kasulik ehitada soovitus mootorid kasutades "Maitse" raamatukogu. Kasutades Maitse raamatukogu saame ehitada kiire ja paindlik Collaborative filtreerimine mootori. Maitse koosneb viiest järgmisest põhikomponendid, mis töötavad koos kasutajatega, kaupade ja eelistusi -

  • Data Model - Seda kasutatakse säilitamissüsteem kasutajad, kaupade ja eelistustest.
  • Kasutaja sarnasus - See on liides, mida kasutatakse määratlemaks sarnasuse kasutajad.
  • Punkt sarnasus - Tekib liides, mida kasutatakse määratleda sarnasuse kaks toodet.
  • Soovitaja - Liides, mida kasutatakse, et anda soovitusi.
  • Kasutaja Ümbruskonna - Tekib liides, mida kasutatakse, et arvutada ja arvutada naabruses kasutajate samasse kategooriasse, mida saab kasutada poolt soovitajad.

Kasutades neid komponente ja nende rakendused, saame ehitada keerulisi soovitus süsteemi. See soovitus mootor saab kasutada nii reaalajas soovitusi ja offline soovitused. Reaalajas soovitusi saab hakkama kasutajate kuni mõne tuhandeid samas foorumis soovitusi saab hakkama kasutajatele palju suurem arv.

Clustering:

Mahout toetab paljusid klastrite mehhanismid. Need algoritmid on kirjutatud kaardi vähendada. Kõik need algoritmid on oma eesmärkide nimel ja kriteeriumid. Oluline need on loetletud all -

  • Canopy - See on kõige kiireks klasterdamiseks algoritmist luua esialgne seemned teiste klastrite algoritme.
  • k – Tähendab või udune k – tähendab - See algoritm loob k klastrite põhineb kaugus kirjete kaugusel eelmise iteratsiooni.
  • Keskmised - Shift - See algoritm ei vaja eelnevat teavet klastrite arv. Seda saab toota suvaline klastri mida saab suurendada või vähendada vastavalt meie vajadust.
  • Dirichlet - See algoritm loob klastrid kombineerides ühe või mitme klastri mudelid. Seega saame ära valida parima võimaliku üks mitmest klastrite.

Pole üle nelja algoritme loetletud, enamkasutatavad on k - tähendab algoritmi. Olgu see siis mis tahes klastrite algoritm, peame järgima neid samme -

  • Valmistage sisend. If required, tekst muuta numbriline esitus.
  • Käivitatakse algoritm oma valiku abil tahes Hadoop valmis programmid saadaval Mahout.
  • Korralikult tulemuste hindamiseks.
  • Käi neid samme, kui vaja.

Sisu kategoriseerimine:

Apache Mahout toetab järgmise kahe lähenemisviisi kategoriseerida või klassifitseerida sisu. Need põhinevad peamiselt Bayesi statistika -

  • Esimene lähenemine on otse edasi kaart vähendavad lubatud Navie Bayesi klassifitseerija. Klassifikaatorid Selle kategooria on teatavasti kiire ja täpne kuigi neil on eeldus, et andmed on täiesti sõltumatu. Need klassifikaatorid murda, kui andmete suurus tõuseb või andmeid saab sõltuvuses. Navie Bayesi klassifitseerija on kaheosaline protsess, mis hoiab silma peal funktsioone või lihtsalt sõnad, mis on seotud dokument. See samm on tuntud koolitus, mis loob ka mudelit vaadates näiteid juba klassifitseeritud sisu. Teine etapp, tuntakse klassifitseerimise, kasutab mudelit, mis on loodud ajal koolituse ja sisu uus, nähtamatu dokumendi. siit, et käivitada Mahout on klassifitseerija, peame kõigepealt treenida mudeli ja seejärel kasutada mudelit liigitada uue sisu.
  • Teine lähenemine, mis on tuntud ka kui Täiendav Naive Bayes, püüab parandada mõningaid küsimusi naiivne Bayesi lähenemine ja ikka jääb lihtsus ja kiirus pakutud Navie Bayesi.

Running Navie Bayesi klassifikaator:

Navie Bayesi klassifikaator nõuab täidesaatva järgmised ant eesmärgid, et täita -

  • ant valmistada docs - See valmistab dokumentide kogum, mis on vajalik koolitus.
  • ant valmistada-test-dokumente - See valmistab mitmesuguseid dokumente, mis on vajalikud testimine.
  • ant rong - Kui koolituse ja testid andmed on toodud, peame kulgema TrainClassifier klassi kasutades eesmärgi - "ant rongi".
  • ant test - Kui eespool nimetatud eesmärgid täideti edukalt, meil on vaja käivitada selle eesmärgi, mis võtab proovi sisestada dokumente ja püüab neid klassifitseerida põhineb mudel, mis loodi treeningu ajal.

Summary: Käesolevas artiklis me oleme näinud, et Apache Mahout kasutatakse laialdaselt teksti liigitamiseks kasutatakse masinõpe algoritmid. Tehnoloogiat kasvab endiselt ja võib kasutada eri tüüpi rakenduste arendamisele. Olgem kokku meie arutelu vormis järgmised täppe -

  • Apache Mahout on avatud lähtekoodiga projekt Apache kehtestatud grupp arendajaid Apache Lucene projekti. Esmane Selle projekti eesmärk on luua algoritm, mida saab lugeda masin keeles.
  • Apache Mahout on järgmised olulised omadused -
    • Maitse Collaborative filtreerimine.
    • MapReduce lubatud rakendused.
    • Rakendamine nii Distributed Navie Bayesi ja tasuta Navie Bayesi.
    • Toetab maatriks ja muu seotud vektor põhinev raamatukogud.
Tagged on: ,
============================================= ============================================== Buy best TechAlpine Books on Amazon
============================================== ---------------------------------------------------------------- electrician ct chestnutelectric
error

Enjoy this blog? Please spread the word :)

Follow by Email
LinkedIn
LinkedIn
Share