Apache Mahout kaj maŝina lernado

Superrigardo: Kun tiom multe da evoluadaj kadroj ĉirkaŭ, Ĝi fariĝas grava ke ni devus esti kapablaj grimpi supre nian aplikon ĉe ajna donita punkton de tempo. Maŝino lernanta teknikojn kiel clustering kaj categorization fariĝis populara en ĉi tiu kunteksto. Apache Mahout estas kadro kiu helpas nin atingi scalability.

En ĉi tiu dokumento, Mi parolos pri Apache Mahout kaj ĝia graveco.

Enkonduko: Apache Mahout estas malferma fonta projekto de Apache Softvara Fundamento aŭ ASF kiu havas la primaran celon krei maŝinon lernanta algoritmon. Enkondukita de grupo de ellaborantoj de la Apache Lucene projekto, Apache Mahout havas la celon al –

  • Konstruo kaj subteni komunumon de uzantoj aŭ kontribuantoj por ke aliro al la fonta kodo por la kadro ne estas limigita al malgranda grupo de ellaborantoj.
  • Fokuso sur la praktikaj problemoj, Prefere ol nevidata aŭ unproved aferoj.
  • Provizi konvenan dokumentaron.

Ĉefaĵoj de Apache Mahout:

Apache Mahout venas kun aro de ĉefaĵoj kaj funkcioj precipe kiam ni parolas pri Clustering kaj Collaborative Filtranta. La plej gravaj ĉefaĵoj estas enlistigita kiel nesufiĉe –

  • Gusti Collaborative FiltrantaGusto Estas malferma fonta projekto por collaborative filtranta. Ĝi estas la parto de la Mahout kadro kiu provizas maŝinon lernanta algoritmojn grimpi supre niajn aplikojn. Gusto estas uzita por propraj rekomendoj. Ĉi tiuj tagoj kiam ni malfermas retejon ni trovas multe de rekomendoj rilatita al la retejo ke ni estas foliumantaj. La sekvanta cifero montras la arkitekturan skemon de Gusto –
Taste Architecture diagram

Gusta Arkitekturo skemo

Cifero 1: Gusta Arkitekturo skemo

  • Mapo reduktas ebligita efektivigojn – Plura mapo reduktas ebligita clustered efektivigoj estas subtenita en Mahout. Tio ĉi inkluzivas K-mezumo, Malpreciza, Canopy
  • Distribuis Navie Bayes kaj Complimentary Navie Bayes – Apache mahout havas la efektivigon por ambaŭ Navie Bayes kaj Complimentary Bayes. Por simpleco Navie bayes estas plu-gvidita kiel Bayes kaj Complimentary estas plu-gvidita kiel CBayes. Bayes estas uzita en teksta klasifiko dum la CBayes estas etendaĵo de Bayes kiu estas uzita en kazo de ‘Datasets'.
  • Ĝi subtenas Matricon kaj aliaj rilataj vektoraj bibliotekoj.

Instalanta Apache Mahout:

Instalanta Apache Mahout estas tre simpla kaj povas esti efektivigita en la sekvantaj paŝoj –

  • Paŝo 1 – Por aranĝo Apache Mahout, Ni devus havi la sekvantaron instalis –
    • JDK 1.6 Aŭ pli alta
    • Formiko 1.7 Aŭ pli alta
    • Fakulo 2.9 Aŭ pli alta – En kazo ni deziras konstrui de la fonta kodo
  • Paŝo 2 – Unzip la dosiero, Ekzemplo.Zipo kaj kopii la enhavojn en iu teko diras “apache-mahout-ekzemploj”.
  • Paŝo 3 – Iri en la teko – “apache-mahout-ekzemploj” kaj kuri la sekvantaron –
    • Formiko instalas

La lasta paŝo elŝutas la Vikipediajn dosierojn kaj kompilas la kodon.

Rekomenda Motoro:

Rekomenda motoro estas subklaso de informo filtranta sistemon kiu povas antaŭvidi la takson aŭ preferan uzanton povas doni al ero. Mahout provizas ilojn kaj teknikojn kiu estas helpema konstrui rekomendajn motorojn uzanta la ‘Guston' biblioteko. Uzanta Gustan bibliotekon ni povas konstrui rapidan kaj flekseblan Collaborative Filtranta motoron. Gusto konsistas de la sekvanta kvin primaraj eroj kiu laboro kun uzantoj, eroj kaj preferoj –

  • Datuma Modelo – Tio ĉi estas uzita kiel tenada sistemo por uzantoj, Eroj kaj ankaŭ preferoj.
  • Uzanta Simileco – Tio ĉi estas fasado uzita difini la similecon inter du uzantoj.
  • Era Simileco – Fasado kiu estas uzita difini la similecon inter du eroj.
  • Recommender – Fasado kiu estas uzita provizi rekomendojn.
  • Uzanta Kvartalo – Fasado kiu estas uzita komputi kaj kalkuli kvartalon de uzantoj de sama kategorio kiu povas esti uzita de la Recommenders.

Uzanta ĉi tiujn erojn kaj iliajn efektivigojn, Ni povas konstrui kompleksan rekomendan sistemon. Ĉi tiu rekomenda motoro povas esti uzita en ambaŭ veraj tempaj rekomendoj kaj elRetaj rekomendoj. Veraj tempaj rekomendoj povas pritrakti uzantojn ĝis malabundaj miloj dum la elRetaj rekomendoj povas pritrakti uzantojn en multe da pli alta kalkulo.

Clustering:

Mahout subtenas multaj clustering mekanismoj. Ĉi tiuj algoritmoj estas skribita en mapo reduktas. Ĉiu de ĉi tiuj algoritmoj havas ilian propran aron de celoj kaj kriterioj. La grava ones estas enlistigita kiel nesufiĉe –

  • Canopy – Tio ĉi estas la plej rapida clustering algoritmo uzita krei komencajn semojn por alia clustering algoritmoj.
  • K – Mezumoj aŭ Malpreciza k – Mezumoj – Ĉi tiu algoritmo kreas k grapolojn bazita sur la distanco de la eroj de la centro de la antaŭa iteration.
  • Malbona – Movo – Ĉi tiu algoritmo ne postulas ajnan antaŭan informon pri la nombro de grapoloj. Tio ĉi povas produkti arbitran grapolon kiu povas esti pliigita aŭ malpliigita kiel por nia bezono.
  • Dirichlet – Ĉi tiu algoritmo kreas grapolojn de kombinanta unu aŭ pli da grapolaj modeloj. Kaj tiel ni akiras avantaĝon elekti la plej bonan ebla unu de nombro de grapoloj.

Ekstere de la supra kvar algoritmoj enlistigis, La plej ofte uzita estas la k – rimeda algoritmo. Esti ĝi ajna clustering algoritmo, Ni devas sekvi ĉi tiujn paŝojn –

  • Prepari la enigon. Se postulita, Transformi la tekston en numera reprezentado.
  • Efektivigi la algoritmon de via elekto de uzanta iun ajn de la Hadoop pretaj programoj havebla en Mahout.
  • Konvene taksi la rezultojn.
  • Iterate ĉi tiuj paŝas se postulita.

Kontentigi Klasifikanta:

Apache Mahout subtenas la sekvantan du alproksimiĝoj klasifiki aŭ klasifiki la enhavojn. Ĉi tiuj estas plejparte bazita sur Bayesian statistiko –

  • La unua alproksimiĝo estas rekte antaŭa Mapo reduktas ebligita Navie bayes classifier. Classifiers de ĉi tiu kategorio estas konata esti rapida kaj preciza malgraŭ havanta la antaŭsupozon ke la datumo estas tute sendependa. Ĉi tiuj classifiers rompiĝo malsupren kiam la grandeco de la datumo iras supre aŭ datumo fariĝas interdependa. Navie bayes classifier estas du-parta procezo kiu tenas vojeton de la ĉefaĵoj aŭ simple vortoj kiu asociis kun dokumento. Ĉi tiu paŝo estas konata kiel trejnanta kiun ankaŭ kreas modelon de rigardanta ekzemplojn de jam klasifikita enhavon. La dua paŝo, Sciita kiel klasifiko, Uzas la modelon kiu estas kreita dum la trejna kaj la enhavo de nova, Nevidata dokumento. Tial, Por kuri Mahout’s classifier, Ni unue devas trejni la modelon kaj tiam uzi la modelon klasifiki novan enhavon.
  • La dua alproksimiĝo, Kiu estas ankaŭ sciita kiel Kompletiga Naiva Bayes, Provoj ĝustigi kelkaj de la aferoj kun la Naiva Bayes alproksimiĝo kaj ankoraŭ daŭrigas la simplecon kaj rapidi proponita de Navie Bayes.

Kuranta la Navie Bayes Classifier:

La Navie Bayes Classifier postulas efektiviganta la sekvantajn formikajn celojn por efektivigi –

  • Formiko preparas-docs – Tio ĉi preparas la aron de dokumentoj kiu estas postulita por trejnanta.
  • Formiko preparas-testo-docs – Tio ĉi preparas la aron de dokumentoj kiu estas postulita por elprovado.
  • Formika trajno – Unufoje la trejna kaj testa datumo estas fiksita, Ni devas kuri la TrainClassifier klaso uzanta la celan – “formikan trajnon”.
  • Formika testo – Unufoje la supraj celoj estas efektivigita sukcese, Ni devas kuri ĉi tiun celon kiu prenas la ekzemplajn enigajn dokumentojn kaj provojn klasifiki ilin bazita sur la modelo kiu estis kreita dum trejnanta.

Resuma: En ĉi tiu artikolo ni vidis ke Apache Mahout estas ĝenerale uzita por teksta klasifiko de uzanta maŝinon lernanta algoritmojn. La teknologio estas ankoraŭ kreskanta kaj povas esti uzita por malsamaj tipoj de aplika evoluado. Lasi nin resumi nian diskuton en la formo sekvi kuglojn –

  • Apache Mahout estas malferma fonta projekto de Apache enkondukita de grupo de ellaborantoj de la Apache Lucene projekto. Primara Celo de ĉi tiu projekto estas krei algoritmon kiu povas legi maŝinan lingvon.
  • Apache Mahout havas la sekvantajn gravajn ĉefaĵojn –
    • Gusti Collaborative Filtranta.
    • MapReduce ebligita efektivigojn.
    • Efektivigo por ambaŭ Distribuis Navie Bayes kaj Complimentary Navie Bayes.
    • subtena matrico kaj alia rilata vektoro bazita bibliotekojn.
Etikedita sur: ,
============================================= ============================================== Buy best TechAlpine Books on Amazon
============================================== ---------------------------------------------------------------- electrician ct chestnutelectric
error

Enjoy this blog? Please spread the word :)

Follow by Email
LinkedIn
LinkedIn
Share