Hadoop հիմնական պայմանները, Պարզեցված

Overview:

Է ընթացիկ տեխնոլոգիական բնապատկերի, մեծ տվյալների եւ վերլուծություն են երկու կարեւորագույն ոլորտները, որտեղ մարդիկ են ունենում մեծ հետաքրքրություն. Ակնհայտ է պատճառը այս քաշում է – ձեռնարկությունները կարող են ստանում գործարար նպաստ դուրս այդ մեծ տվյալների եւ Bi դիմումները. Hadoop այժմ դարձել է հիմնական հոսքի տեխնոլոգիան, այնպես որ, նրա ծածկույթը եւ քննարկումը նույնպես տարածում է դուրս տեխնոլոգիական ԶԼՄ-ների. But, այն, ինչ մենք նկատել է – մարդիկ դեռ դժվարանում են հասկանալ, թե փաստացի հասկացությունները, եւ հաճախ որոշ աղոտ պատկերացում մասին Hadoop եւ այլ հարակից տեխնոլոգիաների.

In this article, մեր ազնիվ ջանք է բացատրել Hadoop հիմնական պայմանները, շատ պարզ ձեւով, այնպես որ տեխնիկական եւ ոչ տեխնիկական հանդիսատեսը կարող է հասկանալ այն.

Hadoop էկո-համակարգ - Ինչ է դա ուղիղ միջոցները?

Hadoop է շատ հզոր բաց կոդով հարթակ է կառավարվում է Apache հիմնադրամ. Hadoop հարթակ է կառուցվել է Java տեխնոլոգիաների եւ ունակ մշակման հսկայական ծավալի տարասեռ տվյալների բաշխված clustered միջավայրում. Դրա scaling կարողությունները դարձնում է կատարյալ պիտանի բաշխված computing.

Hadoop էկո-համակարգը բաղկացած Hadoop հիմնական բաղադրիչների եւ այլ հարակից գործիքներ. Իսկ հիմնական բաղադրիչների, Hadoop Distributed File System (HDFS) եւ MapReduce ծրագրավորման մոդելի են երկու կարեւորագույն հասկացությունները. Թվում հարակից գործիքներ, Փեթակ համար SQL, Pig համար DataFlow, Zookeeper կառավարման համար ծառայություններից եւ այլն կարեւոր են. Մենք պետք է բացատրել այդ պայմանները մանրամասնորեն.

Hadoop ecosystem

Hadoop էկոհամակարգը

Image1: Hadoop էկոհամակարգը

Ինչու է Ձեզ անհրաժեշտ է իմանալ, թե հիմնական պայմանները?

Մենք արդեն քննարկել է, որ Hadoop մի շատ հայտնի թեման մեր օրերում, եւ բոլորը խոսում դրա մասին, գիտակցաբար կամ անգիտակցաբար. Այնպես որ, խնդիրն այն է,- եթե դուք քննարկում ինչ-որ բան, կամ լսում ինչ-որ բանի, բայց ոչ թե ինչ է այն ուղիղ միջոցները, ապա դուք չեք կարողանա միացնել կետերը կամ մարսելու այն. Խնդիրն այն է, ավելի տեսանելի, երբ մարդիկ են տարբեր տիրույթում, նման գործարար մարդկանց, մարքեթինգային տղաները, Top կառավարում եւ այլն. Քանի որ այդ մարդիկ չեն, պետք է իմանալ, թե «Ինչպես Hadoop աշխատում?‘, ավելի շուտ նրանք ավելի շատ հետաքրքրում է իմանալ 'ինչպես դա կարող է բերել գործարար օգուտ '. Է իրականացնել բիզնեսի օգուտ, մի քիչ հասկանալու Hadoop առումով շատ կարեւոր է, ամբողջ բոլոր շերտերի. Սակայն, միեւնույն ժամանակ,, պայմանները պետք է բացատրել պարզ, առանց բարդ ժարգոններով, դարձնելով ընթերցողները հարմարավետ.

Եկեք հասկանանք հիմնական պայմանները

Այս բաժնում մենք ուսումնասիրել տարբեր տերմիններ Hadoop եւ դրա էկոհամակարգին, ինչ-որ բացատրության. Հստակության համար հասկանալու, մենք պետք է կատարել երկու լայն կատեգորիաները, մեկն է բազան մոդուլը իսկ մյուսը է լրացուցիչ ծրագրային փաթեթներ եւ գործիքներ որը կարող է տեղադրվել առանձին կամ գագաթին Hadoop. Hadoop վերաբերում է բոլոր այդ անձանց.

First, եկեք մի հայացք նետել այն պայմաններով, որոնք գալիս տակ բազային մոդուլի.

  • Apache Hadoop: Apache Hadoop բաց կոդով շրջանակ մշակման մեծ ծավալի տվյալների մի խմբված միջավայրում. Այն օգտագործում է պարզ MapReduce ծրագրավորման մոդել հուսալի, scalable եւ բաշխվում Համակարգչային. The պահպանման եւ հաշվարկման երկուսն էլ բաշխվում է սույն ծրագրի շրջանակներում.
  • Hadoop տարածված: Քանի որ անունը առաջարկում, այն պարունակում է ընդհանուր կոմունալ աջակցել տարբեր Hadoop մոդուլներ. Այն հիմնականում գրադարան ընդհանուր գործիքների եւ կոմունալ. Hadoop տարածված հիմնականում օգտագործվում է մշակողների ընթացքում դիմումը զարգացմանը.
  • HDFS: HDFS (Hadoop Distributed File System) ը բաշխվում ֆայլ համակարգ spans ամբողջ ապրանքաշրջանառության ապարատային. Այն կշեռքներ շատ արագ եւ ապահովում է բարձր. Data արգելափակում են replicated եւ պահվում է բաշխված ճանապարհով է խմբված միջավայրում.
  • MapReduce: MapReduce է ծրագրավորման մոդելի զուգահեռ մշակման մեծ ծավալի տվյալների բաշխված միջավայրում. MapReduce Ծրագիրն ունի երկու հիմնական բաղադրիչ, մեկն է Map () մեթոդ, որը կատարում զտիչ եւ դասավորում. Մյուսը է նվազեցնել () մաս, նախագծված է կատարել ամփոփում թողարկման ից Map մասի.
  • Եւս մեկ Resource բանակցող (մանվածք): Այն հիմնականում ռեսուրս մենեջեր հասանելի է Hadoop 2. Դերը մանվածք է կառավարել եւ ժամանակացույցը համակարգչային ռեսուրսները է խմբված միջավայրում.

Now, եկեք ստուգել այլ հարակից պայմանները Hadoop

  • HBase: HBase բաց աղբյուր, ընդլայնելի, բաշխվում եւ ոչ Հարաբերական բազա. Այն գրված է Java եւ հիմնված Google- ի Մեծ Աղյուսակ. Հիմքում ընկած պահեստավորում Ֆայլի համակարգը HDFS.
  • Hive: Փեթակ տվյալների պահեստ ծրագրային, որն աջակցում reading, գրելու եւ կառավարման մեծ ծավալի տվյալների պահվում է բաշխված պահեստավորման համակարգի. Այն ապահովում է SQL նման հարցման լեզվով հայտնի է որպես HiveQL (HQL), համար querying է տվյալների. Փեթակ աջակցում պահպանման HDFS եւ այլ համատեղելի ֆայլի համակարգերի, ինչպիսիք են Amazon S3 եւ այլն.
  • Apache Pig: Pig է բարձր մակարդակ հարթակ խոշոր տվյալները սահմանված վերլուծության. Այդ լեզուն է գրել Pig սցենարներ, հայտնի են որպես Pig լատիներեն. Այն հիմնականում թեզիսներին հիմքում ընկած MapReduce ծրագրերը եւ դարձնում այն ​​ավելի հեշտ է, մշակողները է աշխատել MapReduce մոդելի, առանց գրելու փաստացի կոդը.
  • Apache Spark: Spark (բաց աղբյուր) մի բույլ Համակարգչային շրջանակը եւ ընդհանրապես հաշվարկել շարժիչը համար Hadoop տվյալները (լայնածավալ տվյալների set). Այն իրականացնում է գրեթե 100 անգամ ավելի արագ `համեմատած MapReduce ի հիշատակ. And, համար սկավառակ, այն գրեթե 10 անգամ ավելի արագ. Կայծ կարող է վազում է տարբեր միջավայրերում / ռեժիմում նման առանձին ռեժիմում, է Hadoop, է EC2 այլն. Այն կարող է մուտք գործել տվյալների HDFS, HBase, Փեթակ կամ որեւէ այլ Hadoop տվյալների աղբյուրը.
  • Sqoop: Sqoop է հրամանի տող գործիք է փոխանցել տվյալների միջեւ RDBMS եւ Hadoop տվյալների բազաների. Այն հիմնականում օգտագործվում է ներմուծման / արտահանման տվյալների միջեւ Հարաբերական եւ ոչ Հարաբերական բազաների. The name 'Sqoop’ ձեւավորվում է համատեղելով նախնական եւ վերջին մասը երկու այլ պայմաններով 'SqL+ունեցելOOP '.
  • Oozie: Oozie հիմնականում Hadoop աշխատանքներ հոսքը շարժիչը. Այն ժամանակացույցերը աշխատանքային հոսքերի կառավարել Hadoop աշխատատեղեր.
  • Zookeeper: Apache Zookeeper է բաց կոդով հարթակ, որն ապահովում է բարձր կատարման համակարգման ծառայությունը Hadoop բաշխված դիմումների. Դա մի կենտրոնացված ծառայություն պահպանելու կոնֆիգուրացիայի տեղեկություններ, անվանակոչության ռեեստրի, բաշխված համաժամացման եւ խմբակային ծառայություններ.
  • flume: Apache flume է բաշխվում ծառայությունը, հիմնականում օգտագործվում է տվյալների հավաքագրման, միացք եւ շարժում. Այն աշխատում է շատ արդյունավետ մեծ քանակությամբ մուտք եւ իրադարձությունների տվյալները.
  • երանգ: Աղաղակ հիմնականում վեբ ինտերֆեյսի վերլուծելով Hadoop տվյալները. Այն բաց կոդով ծրագրի, աջակցում Hadoop եւ իր էկոհամակարգին. Դրա հիմնական նպատակն է ապահովել ավելի լավ օգտվողին փորձը. Այն ապահովում է քաշել եւ թողնել հարմարություններ եւ խմբագիրներ համար Spark, Փեթակ եւ HBase այլն.
  • mahout: Mahut բաց կոդով ծրագրային ապահովման համար կառուցելու ընդլայնելի մեքենայի ուսուցման եւ տվյալների հանքարդյունաբերության դիմումների արագ.
  • Ambari: Ambari հիմնականում վեբ վրա հիմնված գործիք մոնիտորինգի եւ կառավարման Hadoop կլաստերների. Այն ներառում է աջակցություն էկո-համակարգի ծառայությունների եւ գործիքների, ինչպիսին HDFS, MapReduce, HBase, Zookeeper, Խոզ, Sqoop եւ այլն. Դրա երեք հիմնական ֆունկցիոնալ են տրամադրման, կառավարման եւ մոնիտորինգի Hadoop կլաստերների.

Քանի որ Hadoop էկոհամակարգի շարունակաբար զարգանում է, նոր ծրագրային, ծառայությունները եւ գործիքներ են նաեւ զարգացող. Որպես արդյունք, կլինեն նոր պայմանները եւ ժարգոնները է մեծ տվյալների աշխարհում. Մենք պետք է պահել սերտ ժամացույց եւ հասկանալ նրանց ժամանակին.

Ամփոփում

Այս հոդվածում մենք փորձել ենք բացահայտել կարեւորագույն հիմնական պայմանները, որ Hadoop էկոհամակարգի. Մենք նաեւ քննարկել մի քիչ մասին էկոհամակարգի եւ ինչու մենք պետք է իմանալ, թե ժամկետները. Hadoop այժմ դարձել է հիմնական հոսքի տեխնոլոգիան, այնպես որ, մարդիկ ստանում են ավելի շատ ներգրավված դրա մեջ. So, որ դա ճիշտ ժամանակն է հասկանալ մի քանի հիմնական հասկացությունները եւ տերմինները օգտագործվում է Hadoop աշխարհում. ապագայում, կլինեն շատ նոր հայեցակարգերի եւ պայմաններով մատչելի, եւ մենք պետք է թարմացնել ինքներս համապատասխանաբար.

Tagged on: ,
============================================= ============================================== Գնեք լավագույն տեխնոլոգիական գրքերը Amazon- ում,en,Էլեկտրականություն CT շագանակագույն էլեկտրաէներգիա,en
============================================== ---------------------------------------------------------------- electrician ct chestnutelectric
error

Enjoy this blog? Please spread the word :)

Follow by Email
LinkedIn
LinkedIn
Share