Apache mahout եւ մեքենա ուսուցման

Overview: With այնքան շատ զարգացման շրջանակներում շուրջ, դա դառնում է կարեւոր, որ մենք պետք է կարողանանք լայնածավալ մեր դիմումը ցանկացած տվյալ պահին. Machine սովորում մեթոդներ, ինչպիսիք են clustering եւ բաժին դարձել հայտնի է այս համատեքստում. Apache mahout շրջանակային, որ օգնում է մեզ հասնել scalability.

In this document, Ես խոսել Apache mahout եւ դրա կարեւորության.

Ներածություն: Apache mahout բաց կոդով ծրագիր է Apache Software Foundation կամ ASF, որն ունի առաջնային նպատակն է `ստեղծել մեքենա ուսուցման ալգորիթմի. Ներկայացրել է մի խումբ ծրագրավորողներ են Apache Lucene ծրագրի, Apache mahout նպատակ ունի -

  • Կառուցել եւ աջակցել համայնքին օգտվողների կամ ներդրում, այնպես, որ մուտք է կոդով համար շրջանակում չի սահմանափակվում մի փոքր խմբի մշակողների.
  • Կենտրոնանալ գործնական խնդիրների, այլ ոչ թե անտեսանելի կամ unproved հարցերի.
  • Համապատասխան փաստաթղթեր.

Առանձնահատկությունները Apache mahout:

Apache mahout գալիս որպես զանգված հատկանիշների եւ ֆունկցիոնալ, հատկապես այն ժամանակ, երբ մենք խոսում ենք clustering եւ համագործակցային զտիչ. Ամենակարեւոր հատկանիշները, որոնք նշված են որպես տակ -

  • Համտեսել համագործակցային Ֆիլտրացման - համ բաց կոդով ծրագիր համատեղ զտման. Դա այն մասն է mahout շրջանակներում, որն ապահովում մեքենա ուսուցման ալգորիթմներ սանդղակի մինչեւ մեր դիմումները. Ճաշակը համար օգտագործվում է անձնական առաջարկությունների. Այս օրերին, երբ մենք բացում է կայքը, մենք գտնում ենք շատ առաջարկությունների հետ կապված կայքում, որ մենք թերթելիս. Հետեւյալ գործիչ ցույց է տալիս ճարտարապետական ​​դիագրաման համ -
Taste Architecture diagram

Համտեսել Architecture դիագրաման

Figure 1: Համտեսել Architecture դիագրաման

  • Քարտեզ նվազեցնել ակտիվացված ներդումները - Մի քանի քարտեզ կրճատել հնարավորություն clustered implementations աջակցում են mahout. սա ներառում է K-Mean, խուճուճ, հովանոց
  • Բաշխված Navie Bayes եւ կոմպլեմենտար Navie Bayes - Apache mahout ունի իրականացումը, այնպես էլ Navie Bayes եւ կոմպլեմենտար Bayes. Պարզության համար Navie Bayes են կոչվում են որպես Bayes եւ կոմպլեմենտար են կոչվում են որպես CBayes. Bayes օգտագործվում են տեքստային դասակարգման իսկ CBayes են երկարաձգում Bayes, որոնք օգտագործվում դեպքում «հավաքածուների».
  • Այն աջակցում է Matrix եւ այլ հարակից վեկտորի գրադարաններ.

Setting up Apache mahout:

Setting up Apache mahout շատ պարզ է եւ կարող է իրականացվել հետեւյալ քայլերի

  • Step 1 - Որպեսզի setup Apache mahout, Մենք պետք է ունենա հետեւյալ տեղադրել -
    • JDK 1.6 or higher
    • մրջյուն 1.7 or higher
    • Maven 2.9 կամ ավելի բարձր - Եթե մենք ուզում ենք կառուցել կոդով
  • Step 2 - Unzip ֆայլը, sample.zip եւ պատճենել բովանդակությունը ինչ-որ թղթապանակ ասում եք "Apache-mahout-օրինակները».
  • Step 3 - Գնա ներսում թղթապանակում «Apache-mahout-օրինակներ», եւ վարում է հետեւյալը.
    • Ant տեղադրել

Վերջին քայլը ներլցումներ Վիքիփեդիայի ֆայլերը եւ կազմում կոդը.

Հանձնարարական Engine:

Հանձնարարական շարժիչը է ենթադաս տեղեկատվական զտիչ համակարգ, որը կարող է կանխատեսել վարկանիշի կամ նախասիրությունների օգտվողը կարող է տալ մի կետի. Mahout տրամադրում գործիքներ եւ մեթոդներ, որոնք օգտակար է կառուցել երաշխավորագիր շարժիչների օգտագործելով «համը» գրադարան. Օգտագործելով համը գրադարան, մենք կարող ենք կառուցել արագ եւ ճկուն համագործակցային զտիչ շարժիչով. Համը բաղկացած է հետեւյալ հինգ հիմնական բաղադրիչներից, որոնք աշխատում օգտվողների, իրեր եւ նախապատվությունները -

  • Data Model - Սա օգտագործվում է որպես պահեստային համակարգի օգտվողների համար, իրեր եւ նաեւ նախապատվություններ.
  • Օգտվող Նմանություն - Սա ինտերֆեյսը օգտագործվում է սահմանել նմանություն միջեւ օգտվողների.
  • Նյութի Նմանություն - Ինտերֆեյս, որը օգտագործվում է սահմանել նմանություն երկու կետեր.
  • recommender - Ինտերֆեյս, որը օգտագործվում է ապահովել առաջարկություններ.
  • Օգտվող Հարեւանության - Ինտերֆեյս, որը օգտագործվում է հաշվարկել եւ հաշվարկել է հարեւանություն օգտվողների նույն կարգի, որը կարող է օգտագործվել է Recommenders.

Օգտագործելով այդ բաղադրիչները եւ դրանց ընթացք, մենք կարող ենք կառուցել համալիր հանձնարարական համակարգ. Այս առաջարկությունը շարժիչը կարող է օգտագործվել երկու իրական ժամանակային առաջարկությունների եւ օֆլայն առաջարկությունների. Real Time առաջարկությունները կարող են կարգավորել օգտվողներին մինչեւ մի քանի հազարավոր իսկ օֆլայն առաջարկությունները կարող եք գործածել օգտվողների շատ ավելի բարձր հաշվարկի.

clustering:

Mahout աջակցում է բազմաթիվ clustering մեխանիզմներ. Այս ալգորիթմները գրված են քարտեզի վրա նվազեցնելու. Յուրաքանչյուր այդ ալգորիթմների ունի սեփական շարք նպատակների եւ չափանիշների. Կարեւոր նորերը թվարկված են մինչեւ

  • հովանոց - Սա առավել արագ clustering ալգորիթմը օգտագործվում է ստեղծել նախնական սերմերը այլ clustering ալգորիթմների.
  • k – Նշանակում է, թե Fuzzy k – նշանակում է ` Այս ալգորիթմը ստեղծում k կլաստերների հիման վրա հեռավորության կետերը կենտրոնում նախորդ բազմակրկնություն.
  • Նշանակում Shift - Այս ալգորիթմը չի պահանջում որեւէ նախնական տեղեկություն թվի մասին կլաստերների. Սա կարող է արտադրել կամայական կլաստերի, որը կարող է աճել կամ նվազել, քանի որ ըստ մեր անհրաժեշտության.
  • Դիրիխլեի - Այս ալգորիթմը ստեղծում կլաստերների համատեղելով մեկ կամ ավելի կլաստերի մոդելներ. Այսպիսով, մենք ստանում առավելություն է ընտրել լավագույն հնարավոր մեկը մի շարք կլաստերների.

Դուրս վերը նշված չորս ալգորիթմներ նշված, առավել հաճախ օգտագործվում է k - նշանակում է ալգորիթմ. Լինի դա որեւէ clustering ալգորիթմ, մենք պետք է հետեւեք այս քայլերին -

  • Պատրաստել մուտքագրման. If required, փոխարկել տեքստը մեջ թվային ներկայացուցչության.
  • Իրականացնում է ալգորիթմ ձեր ընտրությամբ օգտագործելով որեւէ Hadoop պատրաստի ծրագրերի հասանելի է mahout.
  • Պատշաճ կերպով գնահատելու արդյունքները.
  • Կրկնել այդ քայլերը, եթե պահանջվում է.

բովանդակության categorizing:

Apache mahout աջակցում է հետեւյալ երկու մոտեցումները դասակարգումը, կամ դասակարգել բովանդակությունը. Դրանք հիմնականում հիմնված Bayesian վիճակագրության -

  • Առաջինը մոտեցումը ուղիղ առաջ Քարտեզ կրճատել միացված Navie Bayes դասակարգչի. Դասակարգիչների այս կատեգորիայի հայտնի են արագ եւ ճշգրիտ, չնայած ունենալով ենթադրությունը, որ այդ տվյալները լիովին անկախ է. Այս դասակարգիչներ կոտրել ներքեւ, երբ չափը տվյալների ավելանում կամ տվյալների դառնում փոխկապակցված են. Navie Bayes դասակարգչի է երկու մաս գործընթաց է, որը շարունակում է հետեւել առանձնահատկություններ կամ պարզապես բառերի, որոնք կապված մի փաստաթուղթ. Այս քայլը, որը հայտնի է որպես վերապատրաստման, որը ստեղծում է նաեւ մի մոդել, ըստ նայում օրինակներից արդեն դասակարգված բովանդակության. Երկրորդ քայլը, հայտնի է որպես դասակարգման, օգտագործում է մոդելը, որը ստեղծվել է ուսուցման եւ բովանդակությունը նոր, անտեսանելի փաստաթուղթը. ուստի, որպեսզի են mahout ի դասակարգչի, մենք նախ պետք է պատրաստել մոդելը եւ ապա օգտագործել մոդելը դասակարգելու նոր բովանդակություն.
  • Երկրորդ մոտեցումը, որը նաեւ հայտնի է որպես Կոմպլեմենտար Միամիտ Bayes, փորձում է շտկել որոշ հարցերի հետ Միամիտ Bayes մոտեցման եւ դեռ պահպանում է պարզությունն ու արագությունը կողմից առաջարկվող Navie Bayes.

Վազում է Navie Bayes դասակարգչի:

The Navie Bayes Classifier պահանջում է կատարում հետեւյալ ant թիրախները, որպեսզի կատարել -

  • Ant պատրաստվելու փաստաթղթեր - Այս պատրաստում շարք փաստաթղթեր, որոնք անհրաժեշտ են վերապատրաստման.
  • Ant կպատրաստի փորձարկման փաստաթղթեր - Այս պատրաստում շարք փաստաթղթեր, որոնք անհրաժեշտ են փորձարկման.
  • Ant գնացքը - Երբ վերապատրաստման եւ թեստեր տվյալներն են սահմանվել, մենք պետք է գործարկել TrainClassifier դաս, օգտագործելով թիրախին «մրջյուն գնացքը».
  • Ant փորձարկում - Երբ վերը նշված թիրախների կատարվում են հաջողությամբ, մենք պետք է գործարկել այս թիրախին, որը տանում է ընտրանքում մուտքագրման փաստաթղթերը եւ փորձում դրանք դասակարգել հիման վրա մոդել, որը ստեղծվել, իսկ վերապատրաստում.

Summary: Այս հոդվածում մենք տեսանք, որ Apache mahout լայնորեն օգտագործվում է տեքստային դասակարգման օգտագործելով մեքենա ուսուցման ալգորիթմներ. Տեխնոլոգիան դեռ աճում է, եւ կարող է օգտագործվել տարբեր տեսակի կիրառման զարգացումը. Եկեք ամփոփել մեր քննարկումը ձեւով հետեւելու փամփուշտներ -

  • Apache mahout բաց կոդով ծրագիր է Apache ներկայացրել է մի խումբ ծրագրավորողներ ից Apache Lucene ծրագրի. Առաջնային նպատակը այս ծրագրի նպատակն է ստեղծել, ալգորիթմ, որը կարող է կարդալ մեքենա լեզուն.
  • Apache mahout ունի հետեւյալ կարեւոր հատկանիշները -
    • Համտեսել համագործակցային Ֆիլտրացման.
    • MapReduce միացված implementations.
    • Իրականացման համար, այնպես էլ Բաշխված Navie Bayes եւ կոմպլեմենտար Navie Bayes.
    • Աջակցում մատրիցան եւ այլ հարակից վեկտորի վրա հիմնված գրադարանները.
============================================= ============================================== Գնեք լավագույն տեխնոլոգիական գրքերը Amazon- ում,en,Էլեկտրականություն CT շագանակագույն էլեկտրաէներգիա,en
============================================== ---------------------------------------------------------------- electrician ct chestnutelectric
error

Enjoy this blog? Please spread the word :)

Follow by Email
LinkedIn
LinkedIn
Share