Apache Mahout ja koneoppimisen

Yleiskatsaus: Niin monia kehitysyhteistyöjärjestelyihin ympärillä, se on tärkeää, että meidän pitäisi pystyä mittakaavassa jopa meidän sovellus tiettynä ajankohtana. Koneoppimismenetelmiä kuten klusterointi ja luokittelu on tullut suosittuja tässä yhteydessä. Apache Mahout on kehys, joka auttaa meitä saavuttamaan skaalautuvuuden.

In this document, Aion puhua Apache Mahout ja sen merkitys.

Käyttöönotto: Apache Mahout on avoimen lähdekoodin projekti Apache Software Foundation tai ASF, joka on ensisijainen tavoite luoda koneoppimisen algoritmia. Käyttöön ryhmä kehittäjien Apache Lucene hanke, Apache Mahout on tavoitteena -

  • Rakenna ja tukea yhteisön käyttäjät tai avustajat jotta pääsy lähdekoodin puitteissa ei rajoitu pieni ryhmä kehittäjiä.
  • Keskity käytännön ongelmiin, pikemmin kuin näkymätön tai unproved kysymyksiä.
  • Toimitettava asianmukaiset asiakirjat.

Ominaisuudet Apache Mahout:

Apache Mahout mukana joukko ominaisuuksia ja toimintoja varsinkin kun puhumme klusterointi ja Collaborative suodatus. Tärkeimmät ominaisuudet on lueteltu alla -

  • Maku Collaborative Suodatus - Maku on avoimen lähdekoodin projekti yhteisöllisen suodatusta. Se on osa Mahout puitteet, joissa koneoppimisen algoritmeja mittakaavassa jopa meidän sovelluksia. Maku käytetään henkilökohtaisia ​​suosituksia. Nykyään kun avaamme sivuston löydämme runsaasti suosituksia, jotka liittyvät verkkosivuilla, että me selailun. Seuraava kuva esittää arkkitehtuurin kaavio Taste -
Taste Architecture diagram

Maku Arkkitehtuuri kaavio

Figure 1: Maku Arkkitehtuuri kaavio

  • Kartta vähentää käytössä toteutuksia - Useita kartta vähentävät käytössä ryhmittyneet toteutuksia tuetaan Mahout. Tämä sisältää K-keskiarvo, sumea, kuomu
  • Hajautettu Navie Bayes ja Hintaan Navie Bayes - Apache mahout on täytäntöönpanoa sekä Navie Bayes ja sisältyvät Bayes. Yksinkertaisuuden Navie Bayes viitataan kirjaimilla Bayes ja sisältyvät viitataan kirjaimilla CBayes. Bayes käytetään tekstinluokittelujärjestelmien kun CBayes ovat laajentaminen Bayes joita käytetään kun kyseessä on "Datasets".
  • Se tukee Matrix ja muut siihen liittyvät vektori kirjastot.

Perustamalla Apache Mahout:

Asettaminen Apache Mahout on hyvin yksinkertainen ja voidaan suorittaa seuraavissa vaiheissa -

  • Step 1 - Jotta asennus Apache Mahout, meillä pitäisi olla asennettuna seuraavat ohjelmat -
    • JDK 1.6 or higher
    • Muurahainen 1.7 or higher
    • Maven 2.9 tai suurempi - Jos haluamme rakentaa lähdekoodista
  • Step 2 - Pura tiedosto, sample.zip ja kopioida joissakin kansioon sanoa "apache-mahout-esimerkkejä".
  • Step 3 - Mene sisälle kansio - "apache-mahout-esimerkkejä" ja suorita seuraava -
    • ant asentaa

Viimeinen vaihe lataa Wikipedia tiedostot ja kokoaa koodin.

Suositus Engine:

Suositus moottori on alaluokka tiedon suodattaminen, joka voi ennustaa luokitus tai asetuksia käyttäjä voi antaa kohteen kohdalle. Mahout tarjoaa työkaluja ja tekniikoita, jotka ovat hyödyllisiä rakentaa suositus moottoreita käyttämällä "Maku" kirjasto. Käyttämällä Maku kirjasto voimme rakentaa nopeasti ja joustavasti Collaborative suodatus moottori. Maku koostuu seuraavista viidestä ensisijaiset komponentit, jotka toimivat käyttäjät, eriä ja mieltymykset -

  • Data Model - Tätä käytetään tallennusjärjestelmän käyttäjille, kohteita ja myös mieltymykset.
  • Käyttäjä Samankaltaisuus - Tämä on liitäntä, jota käytetään määrittelemään samankaltaisuuteen kahden käyttäjien.
  • Kohta Samankaltaisuus - Rajapinta, jota käytetään määrittelemään samankaltaisuuteen kahden kohdetta.
  • Recommender - Rajapinta, jota käytetään antamaan suosituksia.
  • Käyttäjä Neighborhood - Rajapinta, jota käytetään laskemaan ja laskea naapuruston käyttäjiä samaan ryhmään, jota voidaan käyttää Suosittelijat.

Käyttämällä näitä komponentteja ja niiden toteutukset, voimme rakentaa monimutkaisia ​​suositus järjestelmä. Tämä suositus moottori voidaan käyttää sekä reaaliaikaisesti suosituksia ja offline suositukset. Reaaliaikainen suositukset voivat käsitellä käyttäjiä jopa muutamia tuhansia, kun taas offline suositukset pystyy käsittelemään käyttäjien paljon suurempi määrä.

Clustering:

Mahout tukee useita klusterointi mekanismeja. Nämä algoritmit on kirjoitettu kartta vähentää. Kukin näistä algoritmien on omat tavoitteet ja kriteerit. Tärkeä niistä on lueteltu alla -

  • canopy - Tämä on kaikkein nopea klusterointialgoritmi käytetään luomaan alkuperäisen siemeniä muille klusterointialgoritmeja.
  • k – Keinot tai Fuzzy k – tarkoittaa - Tämä algoritmi luo k ryppäitä etäisyydestä kohteita päässä edellisen iteraation.
  • Mean - Vaihto - Tämä algoritmi ei vaadi etukäteen tietoa klusterien lukumäärä. Tämä voi tuottaa mielivaltaisen klusteri, joka voidaan lisätä tai vähentää kohti meidän tarve.
  • Dirichlet'n - Tämä algoritmi luo klustereita yhdistämällä yhden tai useamman klusterin malleja. Näin saadaan etua valita paras mahdollinen useista klustereita.

Out of edellä mainitut neljä algoritmit luettelossa, yleisimmin käytetty on k - välineet algoritmi. On se jokin klusterointialgoritmi, meidän on noudatettava näitä ohjeita -

  • Valmista tulo. If required, muuntaa tekstin numeerinen edustus.
  • Suorita algoritmi, valinnan käyttämällä jotakin Hadoop valmiiksi ohjelmia saatavilla Mahout.
  • Arvioida asianmukaisesti.
  • Kerrata nämä vaiheet tarvittaessa.

sisällön Luokittele:

Apache Mahout tukee seuraavia kahta lähestymistapaa kategorisoida tai luokitella sisältöä. Ne perustuvat pääasiassa Bayes tilastoihin -

  • Ensimmäinen lähestymistapa on suoraviivainen Kartta vähentävät käytössä Navie Bayes-luokitin. Luokitteluosuudet tämän luokan tiedetään olevan nopea ja tarkka huolimatta oletetaan, että data on täysin riippumaton. Nämä luokittimet hajottaa kun datan koko nousee tai data tulee riippuvainen. Navie Bayes luokitin on kaksiosainen prosessi, joka pitää kirjaa ominaisuuksia tai yksinkertaisesti sanoja, jotka liittyvät asiakirjan. Tämä vaihe tunnetaan koulutusta, joka luo myös mallia katsomalla esimerkkejä jo luokiteltu sisältöä. Toinen vaihe, tunnetaan luokittelu, käyttää mallia, joka syntyy koulutuksen aikana ja sisältö uuden, näkymätön asiakirja. Siten, toimiakseen Mahout n luokittelija, meidän on ensin kouluttaa mallia ja sitten käyttää mallia luokitella uutta sisältöä.
  • Toinen lähestymistapa, joka tunnetaan myös nimellä Täydentävä naiivi Bayes, yrittää korjata joitakin kysymyksiä kanssa Naiivi Bayes lähestymistapa ja edelleen ylläpitää yksinkertaisuus ja nopeus tarjoamia Navie Bayes.

Running Navie Bayes luokitin:

Navie Bayes luokitin edellyttää suorittamalla seuraava muurahainen tavoitteita, jotta voitaisiin suorittaa -

  • ant valmistella-docs - Tämä valmistelee joukon asiakirjoja, joita tarvitaan koulutusta.
  • ant valmistella-test-docs - Tämä valmistelee joukon asiakirjoja, joita tarvitaan testausta.
  • ant juna - Kun koulutus ja kokeet tiedot asetetaan, Meidän täytyy suorittaa TrainClassifier luokan avulla tavoite - "ant juna".
  • ant testi - Kun edellä mainitut tavoitteet toteutetaan onnistuneesti, meidän täytyy suorittaa tämän tavoitteen, joka vie näytteen tulo asiakirjat ja yrittää luokitella niitä perustuu malliin, joka luotiin, kun koulutus.

Summary: Tässä artikkelissa olemme nähneet, että Apache Mahout käytetään laajasti tekstinluokittelujärjestelmien käyttämällä koneoppimisen algoritmeja. Tekniikka kasvaa edelleen ja sitä voidaan käyttää erilaisten sovellusten kehittäminen. Olkaamme yhteenveto keskusteluamme muodossa seuraavat luoteja -

  • Apache Mahout on avoimen lähdekoodin projekti Apache käyttöön joukko kehittäjien Apache Lucene hanke. Ensisijainen tavoite tässä projektissa on luoda algoritmi, joka voi lukea konekieli.
  • Apache Mahout on seuraavat tärkeät ominaisuudet -
    • Maku Collaborative Suodatus.
    • MapReduce käytössä toteutukset.
    • Toteutus molemmille Distributed Navie Bayes ja sisältyvät Navie Bayes.
    • Tukee matriisin ja muiden siihen liittyvien vektori perustuu kirjastot.
============================================= ============================================== Osta parhaat tekniset kirjat Amazonista,en,sähköasentaja CT -kastaja,en
============================================== ---------------------------------------------------------------- electrician ct chestnutelectric
error

Enjoy this blog? Please spread the word :)

Follow by Email
LinkedIn
LinkedIn
Share