Որն է կարեւորությունը Hadoop ճարտարապետության Production Success?

Overview:

Hadoop մի հարթակ է, որը գրեթե հոմանիշ մեծ տվյալների. Այն հիմնականում բաց աղբյուր շրջանակներում, որը թույլ է տալիս պահպանման եւ մշակման խմբված տվյալների սահմանում է մեծ մասշտաբով. առաջին հերթին, որ Hadoop ճարտարապետությունը հայտնի է բաղկացած չորս խոշոր մոդուլներ, որոնք HDFS (Hadoop Distributed File System), Hadoop Common, մանվածք իսկ MapReduce. Յուրաքանչյուր ոք այդ մոդուլների սահմանվում է կատարել որոշակի կոնկրետ առաջադրանքներ, որոնք գալիս են միասին, որպես ամբողջություն, հանդիպելու մշակման պահանջները. Մեկը առանցքային ասպեկտների արտադրության հաջողության է Hadoop ճարտարապետությունը. Այս ճարտարապետությունը առաջարկում է մի քանի առանցքային հատկանիշները, որոնք պատասխանատու են նրա ժողովրդականությունը նկատմամբ այլ ձեւաչափեր, քանի որ այժմ. However, կան նաեւ մի քանի այլ բաներ են համարում է հաջող իրականացման Hadoop. Սա նշանակում է, դա ոչ միայն այն մասին, ունենալով պատշաճ պահեստային համակարգ գրառումների կամ 24×7 վազում դիմումների, այլեւ թե ինչպես է այն ինտեգրվել է ընդհանուր ճարտարապետության եւ գործիքների ձեռնարկության.

Սույն հոդվածը հիմնականում քննարկելու են Hadoop ճարտարապետությունն մանրամասն հետ միասին առավելությունների ական մոդուլը առաջարկում. Մենք պետք է նաեւ ծածկել արտադրությունը հաջողություններ հարցեր.

Հետեւելով մի պարզ Hadoop ճարտարապետությունը դիագրամ համար 2.0 տարբերակները

Hadoop 2.0 architecture

Hadoop 2.0 architecture

պատկեր 1: Hadoop 2.0 architecture

HDFS Ճարտարապետություն

Ինչպես նշվել է արդեն, Hadoop HDFS անշուշտ մեկն է առանցքային բաղադրիչների ողջ շրջանակում. Դա այն մոդուլը, որը հանձնարարել է ապահովելու է հուսալի, մշտական ​​եւ բաշխվում պահեստային համակարգի ողջ մի քանի հանգույցների, որոնք ներկա է Hadoop կլաստերի.

Now, Կլաստերի սովորաբար բաղկացած է մի քանի հանգույցների, որոնք կապված են միասին ձեւավորել մեկ ամբողջական ֆայլի համակարգ. Բոլոր տվյալները, որոնք պետք է պահվում, որը սկզբում ներխուժել մի քանի փոքր կտորների հայտնի է որպես բլոկների. Այս արգելափակում են, ապա բաշխվում եւ պահվում ամբողջ մի քանի հանգույցների կլաստերի. Սա այն կարգը, ըստ որի Hadoop ֆայլի համակարգը կառուցվում է եւ այն ունի որոշակի առավելություններ, ինչպես նաեւ.

Եկեք մի հայացք մյուս հատկանիշները HDFS.

ընդլայնելի

Շնորհիվ ներկայությամբ բաշխված ֆայլային համակարգի ճարտարապետության, Hadoop քարտեզը եւ նվազեցնել գործառույթները աշխատել նման վեճ. Այս գործառույթները կարող է հեշտությամբ մահապատժի փոքր ենթաբազմությունների բնօրինակը տվյալների, դրանով իսկ առաջարկելով հսկայական scalability. Սա նաեւ ավելացված առավելությունը ձեռնարկությունների համար, քանի որ նրանք կարող են պարզապես ավելացնել սերվերներ գծային, երբ նրանց տվյալները կարծես աճում.

Ճկուն

Եվս մեկ շատ ձեռնտու ասպեկտը HDFS է նրա բարձր ճկուն բնությունը առումով պահպանման տվյալների. Լինելով բաց կոդով, Hadoop կարող է հեշտությամբ վազում է ապրանքաշրջանառության ապարատային, որը փրկում ծախսերը չափազանց. Also, որ Hadoop ֆայլի համակարգը կարող է պահել ցանկացած տեսակի տվյալների, արդյոք այն կառուցված է, չունեցող, չափագրված կամ նույնիսկ կոդավորված.

Hadoop նույնիսկ հնարավոր է դարձնում Unstructured տվյալներ է արժեքավոր մի կազմակերպության ընթացքում որոշումների կայացման գործընթացում, մի բան, որ եղել է գործնականում չլսված մինչեւ.

հուսալի

The Hadoop Ֆայլի համակարգը մեղքով հանդուրժող, ինչը նշանակում է, որ տվյալները պահվում են HDFS է replicated է առնվազն երկու այլ վայրերում. Thus, դեպքում կա փլուզման մի համակարգի կամ երկու, միշտ կա մի երրորդ համակարգ, որը կունենա պատճենը Ձեր բոլոր տվյալները. Այս համակարգը կարող է, ապա հատկացնել workloads է այս վայրում, եւ ամեն ինչ կարող է նորմալ աշխատել.

Պատկեր I / O

Արդյունավետությունը ցանկացած ֆայլի համակարգի կախված է այն բանից, թե ինչպես է դա կատարում է I / O գործողությունները. ի HDFS, Տվյալները ավելացված է ստեղծել նոր ֆայլ եւ գրել տվյալներ կան. այս ամենից հետո, ֆայլը փակվում է եւ գրված տվյալները չեն կարող ջնջվել, կամ փոփոխվել այլեւս. Բայց նոր տվյալները կարող են կցված են կրկին ֆայլը բացում. Այնպես որ, հիմնական հիմքը HDFS է «Single գրել եւ բազմակի կարդալ’ մոդել.

Արգելափակել զետեղում

ի HDFS, ֆայլ է մի համադրություն բազմաթիվ բլոկների. Համար, ավելացնելով նոր բլոկ, NameNode հատկացնում է յուրահատուկ արգելափակման իդենտիֆիկատորը եւ ավելացնել այն ֆայլը. Դրանից հետո այս նոր բլոկը նույնպես replicated է բազմաթիվ DataNodes.

HDFS թաղամաս Տեղադրում քաղաքականությունը կոնֆիգուրացվող, որպեսզի օգտվողները կարող են փորձարկել տարբեր այլընտրանքների ստանալ օպտիմիզացված լուծումներ. By default, HDFS թաղամաս տեղաբաշխման քաղաքականությունը փորձում է նվազագույնի հասցնել գրելու ծախսերը եւ մեծացնելու է կարդալ կատարումը, առկայությունը եւ հուսալիությունը. Իրականացնել սույն, երբ մի նոր թաղամաս ավելացված է ֆայլ, առաջին replica, որը տեղադրված է նույն հանգույցի, որտեղ գրողը ներկա. այս ամենից հետո, 2-րդ եւ 3-րդ կրկնօրինակը դիրքերում է երկու տարբեր հանգույցների մի առանձին դարակ. Այժմ մնացած նկարազարդված են տեղադրված պատահական. Բայց սահմանափակումը այն է, որ, ուռուցք չի կարող պահել, ավելի քան մեկ կրկնօրինակը եւ մեկ դարակ չի կարող պահպանել ավելի քան երկու Replicas.

Հետեւելով պատկերը ցույց է տալիս բնորոշ գործը replica տեղաբաշխման մի դարակ միջավայրում (ինչպես նկարագրված է վերը բաժնում)

replica placement

replica Տեղադրում

Image2: Ցույց է տալիս, replica տեղավորման մի երկու դարակ միջավայրում

Hadoop Common / Hadoop Core

Hadoop տարածված բաղկացած է ընդհանուր փաթեթի կոմունալ աջակցելու Hadoop ճարտարապետությունը. Սրանք հիմնականում բազան API- ները օգնել այլ մոդուլներ շփվել միմյանց հետ. Այն նաեւ համարվում է որպես կարեւոր մաս Hadoop ճարտարապետության նման HDFS, MapReduce եւ մանվածք. Այն ապահովում է ջրառի գագաթին հիմքում ընկած հիմնական հատկանիշները, ինչպիսիք են ֆայլային համակարգի, OS եւ այլն:.

մանվածք Infrastructure

մանվածք, կամ 'իսկիսկ Աnother Resource Negotiator ', է մոդուլ է Hadoop է, որ պատասխանատու է կառավարման հաշվողական ռեսուրսների. Որպես այդպիսին, է հատկացնում պրոցեսորների կամ հիշողությունը, հիման վրա խնդիր է, որ ձեռքի տակ. Now, Մանվածք հիմնականում կազմված է երկու հիմնական մասից ռեսուրսի կառավարիչ եւ ուռուցք մենեջեր.

  • Resource Manager

Ռեսուրս մենեջեր, որը նաեւ կոչվում է Վարպետի, ունի մեկ ներկայությունը կլաստերի եւ վարում է մի քանի ծառայություններ. Այն շարունակում է հետեւել, որտեղ աշխատողները գտնվում են, եւ նաեւ ղեկավարում Ռեսուրս Scheduler, ինչը վերագրում ռեսուրսներ.

  • Node մենեջեր

The Node Manager պատահում է աշխատողը ենթակառուցվածքների եւ այնտեղ կարող են լինել շատերը նրանցից մի Hadoop կլաստերի. Յուրաքանչյուր այդ հանգույցի մենեջերների առաջարկում ռեսուրսներ է կլաստերի. Նրա հզորությունը ռեսուրսների չափվում է ձեւով հիշողության եւ vcores (մասնաբաժինը Պրոցեսորներ cores). Ռեսուրս մենեջեր օգտագործում ռեսուրսներ հանգույց մենեջեր, երբ այն պետք է առաջադրվել մի խնդիր.

Hadoop մանվածք ունի որոշակի, շատ ձեռնտու ասպեկտներ, որ այն կարեւոր մասն է ճարտարապետության. Սրանք են ուրվագծվել մանրամասն.

Multi-tenancy

Մեկը Hadoop մանվածքի ամենամեծ առավելություններից այն է, որ աջակցում է դինամիկ ռեսուրսների կառավարման. Չնայած կիսելով ռեսուրսները, նույն կլաստերի, այն կարող է վազում է մի քանի շարժիչների եւ workloads. And, ճիշտ այնպես, ինչպես HDFS, Մանվածք նաեւ բարձր scalable, որն առաջարկում է զանգվածային Scheduling հնարավորությունները, անկախ նրանից, թե ինչ է ծանրաբեռնվածությունը կարող է լինել.

կայունության

Hadoop մանվածք առաջարկում է կայունության, որը թույլ է տալիս Ձեզ է բացել ձեր տվյալները մի շարք գործիքների եւ տեխնոլոգիաների, որոնք կարող են օգնել Ձեզ ստանալ լավագույն դուրս տվյալների մշակման. Դրա էկոհամակարգը է նաեւ կարգավորում է բավարարել կարիքները տարբեր մշակողների եւ նաեւ կազմակերպություններ փոքր եւ խոշոր մասշտաբով.

In fact, Hadoop ներկայումս հանդես է գալիս մի շարք հայտնի ծրագրեր, ինչպիսիք են փեթակ, MapReduce, Zookeeper, HBase, HCatalog, եւ շատ ավելին. Also, քանի որ շուկան Hadoop շարունակում է ընդլայնել, Ավելի նոր գործիքներ են ավելացվել են այս հաշվարկի ամեն օր.

Հետեւելով տիպիկ մանվածք ճարտարապետությունը դիագրամ.

YARN Architecture diagram

Մանվածք Ճարտարապետություն դիագրամ

image3: Մանվածք Ճարտարապետություն դիագրամ

MapReduce Framework

MapReduce է, որ պետք է սիրտը Hadoop համակարգի. Դա այն ծրագրավորման շրջանակներում, որը թույլ է տալիս գրավոր հայտերի զուգահեռ մշակման խոշոր տվյալների սահմանում առկա ամբողջ մի քանի հարյուր կամ հազարավոր սերվերների մի Hadoop կլաստերի.

Հիմնական գաղափարը ետեւում իր աշխատանքային է քարտեզագրում եւ նվազեցնել խնդիրների. Քարտեզը գործառույթը պատասխանատու է զտիչ եւ դասավորում տվյալների, իսկ Կրճատել գործառույթը իրականացնում է որոշակի ամփոփ գործողություններ. MapReduce եւս ժամանել իր արդար մասնաբաժինը կարեւոր ասպեկտների, որ օգնությունը հասնելու արտադրական հաջողությունների, որոնք

ճկունություն

MapReduce կարող է մշակել տվյալները բոլոր տեսակի, արդյոք այն կառուցված է, կիսամյակային կառուցվածքային կամ չունեցող. Սա մեկն է այն հիմնական ասպեկտների, որ այն կարեւոր մասն է ողջ Hadoop ճարտարապետության.

մատչելիությունը

Լայն շրջանակ լեզուների աջակցում է MapReduce, որը թույլ է տալիս ծրագրավորողներին աշխատել հարմարավետորեն. In fact, MapReduce տրամադրում աջակցություն Java, Python եւ C , ինչպես նաեւ բարձր մակարդակի լեզուներով, ինչպիսիք են Apache Pig եւ փեթակ.

Scalability

Լինելով անբաժանելի մասն է Hadoop ճարտարապետության, MapReduce արդեն կատարելապես նախագծված է այնպես, որ այն համապատասխանում է զանգվածային scalability մակարդակները կողմից առաջարկվող HDFS. Սա ապահովում է անսահմանափակ տվյալների մշակման, տակ մեկ ամբողջական հարթակ.

Ինչպես Hadoop բաղադրիչները ապահովել, արտադրության հաջողություն?

Մի արտադրական միջավայրում, scalability մեկն է այն հիմնական չափանիշների բիզնեսի հաջողության. Որովհետեւ, եթե հայտը չի կարող մասշտաբների (որը աշխատում է HDFS) ընթացքում պիկ ժամերին, ապա դա չի կարողանա աջակցել աճող թվով հաճախորդների. Արդյունքում, որ բիզնես կկորցնի գումար. So, ճարտարապետական ​​տեսանկյունից դա շատ կարեւոր է ունենալ ընդլայնելի պահեստավորման եւ մշակման հնարավորությունները, ինչը Hadoop կարող է ապահովել իր բաշխված ֆայլային համակարգի (HDFS).

Իսկ մյուս HDFS առանձնանում նման ճկունության աջակցելու համար ցանկացած տեսակի տվյալների; հուսալիություն (մեղքը հանդուրժող) դեպքում համակարգի փլուզման նաեւ ավելացնում արժեք է արտադրական միջավայրում. Պատկեր I / O եւ թաղամաս Տեղադրում է նաեւ կարեւոր է, քանի որ այն ապահովում է տվյալների կառավարման շատ արդյունավետ է խմբված միջավայրում. Այնպես որ, մենք կարող ենք եզրակացնել, որ արտադրությունը հաջողությունը ցանկացած Hadoop հայտի majorly կախված HDFS ճարտարապետության բուն.

Մի տիպիկ կլաստերի 4000 nodes, մենք կարող ենք ունենալ շուրջ 65 մլն ֆայլերը եւ 80 մլն արգելափակում. Յուրաքանչյուր թաղամաս ունի 3 մոդելային, որպեսզի յուրաքանչյուր հանգույց կունենա 60,000 արգելափակում. Սա տիպիկ դեպքն է Yahoo տվյալների կառավարման. Այնպես որ, դա տալիս է ուղեվարձի մասին գաղափար clustered շրջակա միջավայրի եւ տվյալների պահպանման.

Մանվածք ճարտարապետություն ապահովում է արդյունավետ ռեսուրսների կառավարման, որը ներկայացնում է Hadoop 2.0 architecture. Այն ապահովում է պատշաճ ռեսուրսների կառավարման արտադրության միջավայրում.

Բացի բաղադրիչների, MapReduce ծրագրավորում օգնում է զուգահեռ մշակման տվյալների բաշխված միջավայրում. Այնպես որ, ավելի արագ մշակման է հասնել արտադրության համակարգում աջակցել իրական աշխարհում պահանջները.

Ամփոփում

Այն նաեւ հայտնի է, որ Մեծ Data, որը սահմանվել է տիրել առաջիկա անգամ տվյալների մշակման, եւ հետ Hadoop էկոհամակարգի այն ծաղկում ներկայումս, ակնկալվում է նաեւ լինել առաջատար տիրույթում. Գրեթե բոլոր տվյալների վրա հիմնված գործիքներ են իրենց ճանապարհը, ինչպես Hadoop, որպեսզի հակազդելու մարտահրավերներին ակնկալվում է կանգնած, որ մոտ ապագայում. Hadoop ճարտարապետությունը, որը կառուցվել է կառավարել այդ հսկայական ծավալի տվյալներ է բաշխված միջավայրում. Յուրաքանչյուր բաղադրիչն Hadoop հարթակ է արվում կարգավորել կոնկրետ տեսակի ֆունկցիոնալ. So, որպես ամբողջություն, այն ապահովում է արտադրական հաջողությունը ցանկացած bigdata դիմումի. Բայց մենք նաեւ պետք է հիշել, որ դրա հետ կապված bigdata տեխնոլոգիաները նաեւ կարեւոր դեր խաղալ կիրառման տեղակայման եւ դրա հաջողությանը իրական կյանքում սցենարների.

============================================= ============================================== Գնեք լավագույն տեխնոլոգիական գրքերը Amazon- ում,en,Էլեկտրականություն CT շագանակագույն էլեկտրաէներգիա,en
============================================== ---------------------------------------------------------------- electrician ct chestnutelectric
error

Enjoy this blog? Please spread the word :)

Follow by Email
LinkedIn
LinkedIn
Share