Apache Mahout eta ikasketa automatikoa

Orokorra: hainbeste garapen-esparru inguruan, garrantzitsua bihurtzen da hori eskalatzeko gure aplikazioaren denbora edozein puntutan jakin batean gai izan behar dugu. Makina ikaskuntza clustering eta kategorizazio bezalako teknikak popular bihurtu dute testuinguru honetan. Apache Mahout duten eskalagarritasuna lortzea digu laguntzen esparru bat da.

In this document, egingo Apache Mahout eta bere garrantzia buruz hitz I.

Sarrera: Apache Mahout source open Apache Software Foundation edo ASFko proiektu bat sortzeko makinen ikasketa algoritmoa helburua adierazten ditu. Sartu Apache Lucene proiektuko garatzaileen talde batek, Apache Mahout izateko helburua du -

  • Eraiki eta erabiltzaile edo laguntzaileen komunitatean bat onartzen, beraz, iturburu-kodea sartzeko esparrua ez da garatzaileen talde txiki bat mugatu.
  • arazo praktikoei Focus, baizik ikusezin edo zarela gai baino.
  • dokumentazio egokia eskaintzea.

Apache Mahout ezaugarriak:

Apache Mahout ezaugarri eta funtzionalitate array bat dator batez ere, clustering eta elkarlana buruz hitz egin dugu. ezaugarri garrantzitsuenak pean sailkatzen dira -

  • Taste elkarlana - Taste elkarlana egiteko kode irekiko proiektu bat da. Mahout esparru ematen makinen ikasketa-algoritmoak eskalatzeko gure aplikazio zati da. Taste gomendio pertsonalak egiteko erabiltzen da. Egun hauetan, webgune bat zabalduko dugu webgune erlazionatutako gomendioak hori arakatzen ari gara ugari aurkitu dugu. Hurrengo irudian arkitektura Taste of diagraman erakusten -
Taste Architecture diagram

Taste Arkitektura-diagrama

Figure 1: Taste Arkitektura-diagrama

  • Mapa gaituta inplementazioak murrizteko - Hainbat mapa murrizketa gaituta taldekatuta inplementazio Mahout onartzen dira. Horretan sartzen K-bestekoa, fuzzy, Puente
  • Banatutako Navie Bayes eta osagarriak Navie Bayes - Apache mahout bai Navie Bayes eta osagarriak Bayes for ezartzeko ditu. For soiltasun Navie bayes dira Bayes eta osagarriak gisa aipatzen dira CBayes gisa aipatzen. Bayes-en testu sailkapena erabiltzen dira CBayes du Bayes luzapen horrek 'Datu multzoak' kasuan erabiltzen diren bitartean.
  • Matrix eta antzeko bektore liburutegiak onartzen ditu.

Konfiguratzeko Apache Mahout:

Konfiguratzeko Apache Mahout oso erraza da, eta egin daiteke urrats hauek ere -

  • Step 1 - Setup Apache Mahout ahal izateko, honakoak instalatuta eduki behar dugu -
    • JDK 1.6 or higher
    • Ant 1.7 or higher
    • Maven 2.9 edo handiagoa - Kasu horretan iturburu kodea batetik eraiki nahi dugun
  • Step 2 - Fitxategia deskonprimitu, sample.zip eta edukiak kopiatu karpeta batzuk esan "apache-mahout-adibide".
  • Step 3 - "Apache-mahout-adibide" eta jarraian exekutatu - karpeta barruan Joan -
    • ant instalatu

Azken urratsa deskargatzen Wikipedia fitxategiak eta kodea jasotzen.

Gomendio Engine:

Gomendio motorra da informazio iragazketa sistema azpiklase bertan puntuazioa edo lehentasunak erabiltzaile iragartzeko elementu bat eman ahal. Mahout eskaintzen tresnak eta bertan daude lagungarria gomendioa motore 'Taste' liburutegia erabiliz eraikitzeko teknikak. Taste liburutegia erabiltzen azkarra eta malgua elkarlana motor bat eraiki ahal izango dugu. Taste ondoko bost erabiltzaileekin lan horrek osagai nagusia osatzen, elementuak eta lehentasunak -

  • Datu Model - Hau erabiltzaile biltegiratze sistema gisa erabiltzen da, elementuak eta, gainera, lehentasunak.
  • Erabiltzaile antzekotasuna - Hau bi erabiltzaileren arteko antzekotasuna definitzeko erabiltzen interfazea da.
  • Item antzekotasuna - bertan bi elementuen arteko antzekotasuna definitzeko erabiltzen da interfaze An.
  • Recommender - bertan gomendioak emateko erabiltzen da interfaze An.
  • Erabiltzaile Barrio - bertan konputatu eta bertan Gomendatzaile arabera erabili ahal izango da kategoria bereko erabiltzaile auzoan kalkulatzeko erabiltzen da interfaze An.

osagai horien eta beren inplementazioak erabiliz, gomendioa sistema konplexu bat eraiki ahal izango dugu. gomendioa motor honek bai denbora errealean gomendioak eta offline gomendioak ere erabili ahal izango dira. Real denbora gomendioak erabiltzaileek sortu kudea ditzakeen milaka gutxi offline gomendioak erabiltzaile kudea ditzakeen bitartean count askoz handiagoa ere.

clustering:

Mahout clustering mekanismo asko onartzen. algoritmo hauek mapa murrizteko idatzitako. algoritmo horietako bakoitzak bere helburu eta irizpide multzo propioa du. garrantzitsuenak pean sailkatzen dira -

  • Puente - Horixe da, clustering azkar beste clustering algoritmoak hasierako haziak sortzeko erabilitako algoritmoa da.
  • k – Bitartekoak edo Fuzzy k – esan - Algoritmo honek sortzen k klusterrak oinarritutako elementuak distantziaren aurreko iterazio erdigunetik on.
  • Mean - Shift - Algoritmo honek ez du klusterrak kopuru buruzko aurretiko edozein informazio eskatzeko. Hau kluster arbitrario bat eta horrek handitu daiteke edo gure beharra per gisa jaitsi egin daiteke ekoizteko.
  • Dirichlet - Algoritmo honek sortzen klusterrak kluster eredu bat edo konbinatuz arabera. Horrela, abantaila bat lortuko dugu, ahalik eta klusterrak zenbaki bat onena bat hautatzeko.

Goiko lau algoritmoen Out zerrendatu, gehien erabiltzen k da - algoritmoa esan. Izango da edozein clustering algoritmo, Urrats hauek jarraitu behar dugu -

  • Prestatu sarrera. If required, bihurtzeko zenbakizko ordezkaritza sartu testua.
  • Exekutatu zure aukera algoritmoa du Hadoop prest programak edozein Mahout eskuragarri erabiliz.
  • Ondo emaitzak ebaluatzeko.
  • Batetik bestera joateko urrats horiek behar bada.

Edukia sailkatzeko:

Apache Mahout honako bi planteamendu onartzen sailkatzeko edo edukiak sailkatzeko. Horiek batez ari estatistikak bayesiarraren on -

  • Lehen hurbilketa da sinplean Map murrizketa gaituta Navie Bayes sailkatzailea. Kategoria honen Classifiers ezagutzen dira azkarrak eta zehatzak izan hipotesi datu hori erabat independentea izan arren. sailkatzaile hauek deskonposatzen datuak tamaina gora doa edo datu bihurtzen interdependenteak. Navie bayes sailkatzailea bi-parte prozesu horrek ezaugarri edo, besterik gabe, hitz horrek dokumentu batekin lotutako pista bat mantentzen da. Urrats hori da prestakuntza horrek ere eredu bat sortzen du dagoeneko sailkatu eduki adibide begiratuz bezala ezagutzen. Bigarren urratsa, sailkapen bezala ezagutzen, hau da, prestakuntza zehar sortutako eredua eta berri baten edukia erabiltzen, ikusezin dokumentuan. Hori dela, Ordena Mahout en sailkatzailea exekutatu, lehen behar dugu modeloa trebatzea eta ondoren, eredua erabili eduki berriak sailkatzen.
  • Bigarren hurbilketa, hori ere osagarria Naive Bayes bezala ezagutzen, du Naive Bayes planteamendu gai batzuk zuzentzeko saiatzen da, eta oraindik ere sinpletasuna eta abiadura Navie Bayes-ek eskaintzen mantentzen.

du Navie Bayes sailkatzailea carrera:

The Navie Bayes sailkatzailea beharrezkoa da ant helburuak exekutatzean izateko exekutatu in -

  • ant prestatu-docs - Hau diren prestakuntza behar diren dokumentu multzo prestatzen.
  • ant prestatu-test-docs - Hau diren probak egiteko behar diren dokumentu multzo prestatzen.
  • ant trena - Behin prestakuntza eta probak datuak ezartzen dira, "Ant trena" - helburu erabiliz TrainClassifier klase exekutatu behar dugu.
  • ant proba - Aurreko helburu Behin arrakastaz exekutatu dira, helburu hau lagin sarrera dokumentuak hartzen duten eta horiek sailkatzeko oinarritutako sortu zen prestakuntza bitartean eredua saiatzen exekutatu behar dugu.

Summary: Artikulu honetan ikusi dugu Apache Mahout zabalduta dago testu sailkatzeko erabiltzen makinen ikasketa-algoritmoak erabiliz. Teknologia da oraindik ere hazten ari da eta aplikazioen garapen-mota desberdinak erabili ahal izango dira. Dezagun gure balak ondorengo formularioa eztabaida laburbiltzen digu -

  • Apache Mahout source open Apache proiektu bat garatzaileen talde batek sartua Apache Lucene proiektutik da. Proiektu honen helburu nagusia da algoritmoa zein makina hizkuntza irakurri ahal sortzeko.
  • Apache Mahout honako ezaugarri garrantzitsu ditu -
    • Taste elkarlana.
    • MapReduce gaituta inplementazio.
    • bai banatua Navie Bayes eta osagarriak Navie Bayes inplementazioa.
    • matrix eta antzeko bektore horiek liburutegi onartzen.
============================================= ============================================== Buy best TechAlpine Books on Amazon
============================================== ---------------------------------------------------------------- electrician ct chestnutelectric
error

Enjoy this blog? Please spread the word :)

Follow by Email
LinkedIn
LinkedIn
Share