Kio estas Hadoop distribuita dosieran sistemon (HDFS)?

Superrigardo: En ĉi tiu artikolo mi diskutos pri HDFS, Kiu estas la fundamenta dosiera sistemo de Apache Hadoop kadro. Hadoop Distribuita Dosieran Sistemon (HDFS) Estas distribuita tenadan spacon ke daŭroj trans miloj de komercaĵa ladaĵejo. Ĉi tiu dosiera sistemo provizas misfaran toleremon, Efika throughput, Alfluanta datuman aliron kaj fidindecon. La arkitekturo de HDFS estas taŭga por entenanta grandan volumon de datumo kaj ĝia rapida pretigo. HDFS estas parto de Apache eco-sistemo.

Enkonduko:

Apache Hadoop estas Softvara kadro Provizita de la malferma fonta komunumo. Tio ĉi estas helpema en entenanta kaj pretiganta de datumo-aroj de granda skalo sur grapoloj de Komercaĵa ladaĵejo. Hadoop estas licencita sub la Apache Licenco 2.0.

La Apache Hadoop kadro konsistas de la sekvantaj kapsuloj:

  • Hadoop Ofta – La ofta kapsulo enhavas bibliotekojn kaj ilojn kiu estas postulita de aliaj kapsuloj de Hadoop.
  • Hadoop Distribuita Dosieran Sistemon (HDFS) – Tio ĉi estas la distribuita dosieron-sistemo kiu entenas datumon sur la komercaĵaj maŝinoj. Tio ĉi ankaŭ provizas tre altan entuta bandwidth trans la grapolo.
  • Hadoop ŜPINITAĴO – Tio ĉi estas la rimedo-administrada platformo kiu estas priresponda por administrado komputas rimedojn super la grapoloj kaj uzanta ilin por enhorariganta de uzantoj’ Aplikoj.
  • Hadoop MapReduce – Tio ĉi estas la programara modelo uzita por granda skala datumo pretigo.

Ĉiuj la kapsuloj en Hadoop estas desegnita kun fundamenta antaŭsupozo ke ladaĵejaj malsukcesoj (Ĝi povas esti ununura maŝino aŭ tuta rako) Estas evidenta kaj tiel devus esti aŭtomate pritraktita en softvara apliko de la Hadoop kadro. Apache Hadoop’s HDFSaj eroj estas originale derivita de Google‘s MapReduce Kaj Google Dosiera Sistemo (GFS) Respektive.

Hadoop Distribuita Dosieran Sistemon (HDFS):

Hadoop Distribuita Dosieran Sistemon aŭ HDFS estas primara distribuita tenadon uzita de la Hadoop aplikoj. HDFSa grapolo unuavice konsistas de NameNode kaj la DataNode. La NameNode administras la dosieran sistemon metadata kaj DataNodes estas uzita enteni la realan datumon.

HDFS Architecture

HDFSa Arkitekturo

Bildo 1: HDFSa Arkitekturo

La HDFSa arkitektura skemo klarigas la bazajn interrilatadojn inter NameNode, La DataNodes, Kaj la klientoj. La ero de la kliento vokas la NameNode por dosiero metadata aŭ dosieraj modifaĵoj. La kliento tiam elfaras la realan dosieron I/O operacio rekte kun la DataNodes.

Salient Ĉefaĵoj de HDFS: La sekvantaro estas kelkaj de la salient ĉefaĵoj kiu povus esti de intereso al multaj uzantoj –

  • Hadoop, Inkluzivanta HDFS, Estas perfekta matĉo por distribuita tenadon kaj distribuis pretiganta uzanta malaltan kostan komercaĵon ladaĵejo. Hadoop estas scalable, Misfaro tolerant kaj tre simpla vastigi. MapReduce, Kiu estas bone sciita por ĝia simpleco kaj aplikebleco en kazo de granda aro de distribuita aplikojn.
  • HDFS Estas tre agordebla. La defaŭlta konfiguracia aranĝo estas bona sufiĉa por plejparto de la aplikoj. En generalo, La defaŭltaj konfiguraciaj bezonoj esti agordita nur por tre grandaj grapoloj.
  • Hadoop Estas skribita bazitan sur Java platformo Kaj estas subtenita sur preskaŭ ĉiuj gravaj platformoj.
  • Hadoop subtena obuso kaj obuso-kiel komandoj komuniki kun HDFS
  • La NameNode kaj DataNodes havas ilian propran konstruita en retserviloj kiu faras ĝin facile kontroli nunan statuson de la grapolo.
  • novaj ĉefaĵoj kaj ĝisdatigoj estas ofte efektivigita en HDFS. La sekvanta listo estas subgrupo de la utilaj ĉefaĵoj havebla en HDFS:
    • Dosieraj permesoj Kaj authentication.
    • Raka konscio: Tio ĉi helpas preni nodon’s fizika loko en konto dum enhorariganta taskojn kaj asignanta tenadon.
    • Safemode: Tio ĉi estas la administracia plejparte uzita manieron por daŭrigada celo.
    • Fsck: Tio ĉi estas ilo uzita diagnozi sanon de la dosiera sistemo, Kaj trovi forestantajn dosierojn aŭ blokojn.
    • Fetchdt: Tio ĉi estas ilo uzita venigi DelegationToken kaj enteni ĝin en dosiero sur la loka sistemo.
    • Rebalancer: Tio ĉi estas ilo uzita ekvilibrigi la grapolon kiam la datumo estas unevenly distribuita inter DataNodes.
    • altgradigo kaj repuŝo: Unufoje la softvaro estas altgradigita, Ĝi eblas al repuŝo al la HDFS' stato antaŭ la altgradigo en kazo de ajna neatendita problemo.
    • Duaranga NameNode: Ĉi tiu nodo elfaras periodajn kontrolpunktojn de la namespace kaj helpoj tenas la grandecon de dosiero enhavanta ŝtipon de HDFSaj modifaĵoj ene de certaj limoj ĉe la NameNode.
    • Kontrolpunkta nodo: Ĉi tiu nodo elfaras periodajn kontrolpunktojn de la namespace kaj helpoj minimumigas la grandecon de la ŝtipo entenita ĉe la NameNode enhavanta ŝanĝojn farita al la HDFS. Ĝi ankaŭ anstataŭigas la rolan/funkcion antaŭe plenigita de la Duaranga NameNode. Kiel alternativo, La NameNode permesas multoblajn nodojn kiel kontrolaj punktoj, Kiel longe kiel estas ne Rezervaj nodoj havebla (Registrita) Kun la sistemo.
    • Rezerva nodo: Tio ĉi povas esti difinita kiel etendaĵo al la Kontrolpunkta nodo. Kune kun checkpointing ĝi estas ankaŭ uzita ricevi rivereton de redaktas de la NameNode. Kaj tiel ĝi daŭrigas ĝian propran en-memora kopio de la namespace. Ĝi estas ĉiam en sync kun la aktiva NameNode kaj namespace stato. Nur unu Rezerva nodo estas permesita esti registrita kun la NameNode samtempe.

Celo de HDFS:

Hadoop havas celon uzi ofte haveblajn servilojn en tre granda grapolo, Kie ĉiu kaj ĉiu servilo havas aron de malaltekosta interna disko stiradoj. Por pli bona elfaro, La MapReduce APIaj provoj asigni la workloads sur ĉi tiuj serviloj kie la datumo estas entenita kiun estas esti pretigita. Tio ĉi estas konata kiel Datuma loko. Pro ĉi tiu fakto, En Hadoop medio, Ĝi ne estas rekomendita uzi Tenada areo reto (SAN), Aŭ Reto alligis tenadon (NAS). Por Hadoop deplojoj uzanta SAN aŭ NAS, La kroma reto communica­tion supre povas kaŭzi elfarajn ŝtopejojn, Precipe en kazo de pli granda clus­ters.

Nun lasas konsideras situacion kie ni havas grapolon de 1000-maŝino, Kaj ĉiu de ĉi tiuj maŝinoj havas tri internajn diskajn stiradojn. Sekve pensi de la malsukcesa indico de grapolo kunmetita de 3000 Malaltekostaj stiradoj + 1000 Malaltekostaj serviloj! Ni estas preskaŭ en interkonsento ĉi tie : La ero Malbona tempo al malsukceso (MTTF) Vi estas iranta sperti en Hadoop grapolo estas probable simila al la zipper sur la jako de via infano: Ĝi estas ligita malsukcesi. La plej bona parto pri Hadoop estas ke la realaĵo de la MTTF Aprezas asociita kun inexpen­sive ladaĵejo estas efektive bone komprenita kaj akceptita. Tio ĉi formas parton de la forto de Hadoop. Hadoop konstruis-en misfara toleremo kaj misfaro-kompensaj kapabloj. La sama iras por HDFS, Kiel la datumo estas disigita en blokoj kaj blokoj, Kaj kopioj de ĉi tiuj blokaj/blokoj estas entenita sur aliaj serviloj trans la Ha­doop grapolo. Fari ĝin kompreni en facila maniero ni povas diri ke individua dosiero estas efektive entenita kiel pli malgrandaj blokoj kiu estas reproduktita trans multoblaj serviloj en la tuta grapolo por ke la aliro al la dosiero estas pli rapida.

Ekzemplo: Nun ni diskutos kazan studon kompreni la HDFS

Lasi nin konsideri dosieron kiu enhavas la telefonajn nombrojn de ĉiuj la loĝantoj en Usono. Tiuj kiu havas ilian lastan komencanta kun A Povus esti entenita sur Servilo 1; Homoj havanta ilian lastan nomon kun B Estas sur Servilo 2, Kaj tiel plu. En Hadoop medio, Pecoj de ĉi tiu telefonlibro estos entenis distribuita sur la tuta grapolo. Rekonstrui la datumon de la tuta telefonlibro, Via programo devus aliri la blokojn de ĉiu servilo en la grapolo. Atingi pli altan haveblecan HDFS reproduktas pli malgrandajn pecojn de datumo al du suplementaj serviloj de nerepago. Unu povas paroli pri pleonasmo ĉi tie sed la argumento subteni pleonasmon estas eviti la malsukcesan kondiĉon kaj provizi misfaran tolereman solvon. Ĉi tiu pleonasmo povas esti pliigita aŭ malpliigita sur por-dosiera bazo aŭ por la tuta medio. Ĉi tiu pleonasmo proponas multoblajn utilojn; La plej evidenta unu estas la datumo estanta tre havebla. Krom tio ĉi, La datuma pleonasmo permesas la Hadoop grapolo rompi laboron supre en pli malgrandaj blokoj kaj kuri tiujn pli malgrandajn laborpostenojn sur ĉiuj la serviloj en la grapolo por pli bona scalability. Fine, Kiel fina uzanto ni akiras la utilon de datuma loko, Kiu estas kritika dum laboranta kun grandaj datumaj aroj.
Konkludo: Do ni vidis ke HDFS estas unu el la gravaj eroj en Apache Hadoop eco-sistemo. La dosiera sistemo estas la fundamenta tenada strukturo kiu estas tre potenca komparita al la loka dosiera sistemo. Do ĉiuj la grandaj datumaj aplikoj uzas la HDFS por ilia datuma tenado
Lasi nin konkludi nian diskuton kun la sekvantaj kugloj:

  • Apache Hadoop HDFS estas kadro provizita de la malferma fonta komunumo uzita enteni grandan aron de datumo en grapoloj
  • Hadoop kadro konsistas de la sekvanta kvar kapsuloj :
    • Hadoop Ofta
    • Hadoop Distribuita dosieran sistemon aŭ HDFS
    • Hadoop Ŝpinitaĵo
    • Hadoop Mapo reduktas
  • Unu HDFSa grapolo enhavas NameNode kaj DataNode.
  • La celo de HDFS estas uzi la malaltajn kostajn servilojn sur tre granda grapolo.

Hope vi ĝuis la artikolon kaj komprenis la bazajn konceptojn de HDFS. Teni legadon.

============================================= ============================================== Buy best TechAlpine Books on Amazon
============================================== ---------------------------------------------------------------- electrician ct chestnutelectric
error

Enjoy this blog? Please spread the word :)

Follow by Email
LinkedIn
LinkedIn
Share