Hadoop installationstilstande - Lad os udforske

Hadoop mode

Hadoop-tilstand

Oversigt: Apache Hadoop kan installeres i forskellige tilstande som pr kravet. Disse forskellige tilstande er konfigureret under installation. Som standard, Hadoop er installeret i standalone mode. De andre tilstande er Pseudo fordelt tilstand og distribueret mode. Formålet med denne tutorial er at forklare forskellige installationstilstande på en enkel måde, så læserne kan følge det og gøre deres eget arbejde.

In this article, Jeg vil diskutere forskellige installationstilstande og deres detaljer.

Indledning: Vi ved alle, at Apache Hadoop er et open source ramme, som gør det muligt distribueret behandling af store datasæt, der er på tværs af forskellige klynger ved hjælp af simple programmering. Hadoop har evnen til at skalere op til tusindvis af computere fra en enkelt server. I disse betingelser installation af Hadoop bliver mest kritiske. Vi kan installere Hadoop i tre forskellige tilstande –

  • standalone-tilstand – Single Node Cluster
  • Pseudo distribueret tilstand – Single Node Cluster
  • Distribueret tilstand. – Multi Node Cluster

Formålet med de forskellige installationstilstande: Når Apache Hadoop anvendes i et produktionsmiljø, multiple serverknuder anvendes til distribueret databehandling. Men for at forstå det grundlæggende og spille rundt med Hadoop, enkelt node installationen er tilstrækkelig. Der er en anden måde kendt som 'Pseudo fordelt’ mode. Denne tilstand bruges til at simulere multi node miljø på en enkelt server.

I dette dokument vil vi diskutere, hvordan du installerer Hadoop på Ubunto Linux. Det være sig enhver tilstand, systemet skal have java-version 1.6.x installeret på den.

Standalone installation tilstand: Now, Lad os tjekke enkeltstående tilstand installationen ved at følge trinene nedenfor nævnte.

Installer Java –
Java (JDK version 1.6.x) enten fra Sun / Oracle eller Open Java er påkrævet.

  • Step 1 – Hvis du ikke er i stand til at skifte til OpenJDK stedet for at bruge proprietære Sun JDK / JRE, installere sun-java6 fra Canonical Partner Repository ved at bruge følgende kommando.

Bemærk: Den Canonical Partner Repository indeholder gratis omkostninger closed source tredjeparts software. Men Canonical har ikke adgang til kildekoden i stedet de bare pakke og teste det.

Tilsæt kanoniske partner til de apt repositories hjælp –

[Code]

$ sudo add-apt-repository “deb http://archive.canonical.com/lucid partner”

[/Code]

  • Step 2 – Opdater listen kilde.

[Code]

$ sudo apt-get update

[/Code]

  • Step 3 – Installer JDK-version 1.6.x fra Sun / Oracle.

[Code]

$ sudo apt-get install sun-java6-JDK

[/Code]

  • Step 4 – Når JDK installation er overstået sørge for, at det er korrekt opsætning ved hjælp – udgave 1.6.x fra Sun / Oracle.

[Code]

bruger @ ubuntu:~# java -version java version “1.6.0_45” Java(TM) SE Runtime Environment (bygge 1.6.0_45-B02) Java HotSpot(TM) Client VM (bygge 16,4-B01, mixed mode, sharing)

[/Code]

Tilføj Hadoop Bruger

  • Step 5 – Tilføj en dedikeret Hadoop unix bruger ind i dig system under at isolere denne installation fra anden software –

[Code]

$ sudo adduser hadoop_admin

[/Code]

Download Hadoop binære og installere

  • Step 6 – Hent Apache Hadoop fra apache web site. Hadoop kommer i form af tjære-gx format. Kopier denne binære ind i / usr / local / installables mappe. mappen – installables bør oprettes først under / usr / local før dette trin. Nu køre følgende kommandoer som sudo

[Code]

$ cd /usr/local/installables $ sudo tar xzf Hadoop-0.20.2.tar.gz $ sudo chown -R hadoop_admin / usr / local / Hadoop-0.20.2

[/Code]

Definer env variable – JAVA_HOME

  • Step 7 – Åbn Hadoop konfigurationsfil (hadoop-env.sh) i placeringen – /usr / local / installables / Hadoop-0.20.2/conf / hadoop-env.sh og definere JAVA_HOME som under -

[Code] eksport JAVA_HOME = sti / hvor / JDK / er / installeret [/Code]

(f.eks. /usr / bin / java)

Installation i Single mode

  • Step 8 – Gå nu til HADOOP_HOME biblioteket (placering, hvor Hadoop ekstraheres) og køre følgende kommando -

[Code]

$ bin / Hadoop

[/Code]

Følgende output vises -

[Code] Usage: Hadoop [–config confdir] KOMMANDO

[/Code]

Nogle af kommandoen muligheder er nævnt nedenfor. Der er andre muligheder til rådighed og kan kontrolleres ved hjælp af kommandoen nævnt ovenfor.

[Code] namenode -format format the DFS filesystem secondarynamenode run the DFS secondary namenode namenode run the DFS namenode datanode run a DFS datanode dfsadmin run a DFS admin client mradmin run a Map-Reduce admin client fsck run a DFS filesystem checking utility

[/Code]

Ovenstående output viser, at Standalone installationen er fuldført. Nu kan du køre prøven eksempler på dit valg ved at ringe -

[Code] $ bin/hadoop jar hadoop-*-examples.jar <NAVN> <params>[/Code]

distribueret installation Pseudo-tilstand: Dette er en simuleret multi node miljø baseret på en enkelt node server.
Her er det første skridt kræves, er at konfigurere SSH for at få adgang til og styre de forskellige noder. Det er således obligatorisk at have SSH adgang til de forskellige knudepunkter. Når SSH er konfigureret, aktiveret og er tilgængelig vi skal begynde at konfigurere Hadoop. Følgende konfigurationsfiler skal ændres -

  • conf / kerne-site.xml
  • conf / HDFS-site.xml
  • conf / mapred.xml

Åbn alle konfigurationsfiler i vi redaktør og opdatere konfigurationen.

Konfiguration kerne-site.xml fil:

[Code]$ vi conf / kerne-site.xml[/Code] [Code]<konfiguration><ejendom><navn>fs.default.name</navn><værdi>HDFS://localhost:9000</værdi></ejendom><ejendom><navn>hadoop.tmp.dir</navn><værdi>/tmp / hadoop- ${user.name}</værdi></ejendom></konfiguration>[/Code]

Konfiguration HDFS-site.xml fil:

[Code]$ vi conf / HDFS-site.xml[/Code] [Code]<konfiguration><ejendom><navn>dfs.replication</navn><værdi>1</værdi></ejendom></konfiguration>[/Code]

Konfigurer mapred.xml fil:

[Code]$ vi conf / mapred.xml[/Code] [Code]<konfiguration><ejendom><navn>mapred.job.tracker</navn> <værdi>localhost:9001</værdi></ejendom></konfiguration>[/Code] Once these changes are done, vi nødt til at formatere navnet node ved at bruge følgende kommando. Den kommandoprompten vil vise alle de beskeder ene efter den anden og til sidst succes besked. [Code]$ bin / Hadoop namenode -format[/Code] Now our setup is done for pseudo distributed node. Lad os nu starte enkelt node cluster ved at bruge følgende kommando. It will again show some set of messages on the command prompt and start the server process. [Code]$ /bin/start-all.sh[Code] Now we should check the status of Hadoop process by executing the jps command as shown below. It will show all the running processes. [Code]$ jps 14799 NameNode14977 SecondaryNameNode 15183 DataNode15596 JobTracker15897 Task Tracker[/Code]

Standsning af det indre knude Cluster: Vi kan stoppe enkelt node cluster ved at bruge følgende kommando. Den kommandoprompten vil vise alle stoppesteder processer.

[Code]$ bin/stop-all.sh stopping jobtrackerlocalhost: stopper tasktrackerstopping namenodelocalhost: standsning datanodelocalhost: standsning secondarynamenode[/Code]

Distribueret installation tilstand:
Før vi starter fordelt tilstand installation, Vi må sikre, at vi har pseudo distribueret opsætning gjort, og vi har mindst to maskiner, én fungerer som master og den anden fungerer som en slave. Nu kører vi følgende kommandoer i rækkefølge.

· $ bin / stop-all.sh – Sørg ingen af ​​knudepunkterne kører

  • Åbn / etc / hosts filen og tilføje følgende poster for master og slave –

<IP-ADRESSE> master

<IP-ADRESSE> slave

  • $ ssh-copy-id -i $ HOME / .ssh / id_rsa.pub slave – Denne kommando skal udføres på mester at have den passwordless ssh. Vi bør logge ind med samme brugernavn på alle maskiner. Hvis vi har brug for en adgangskode, vi kan sætte det manuelt.
  • Nu åbner vi de to filer – conf / master og conf / slaver. Det conf / master definerer navnet knudepunkter i vores multi node cluster. Conf / slaver fil lister værterne hvor Hadoop Slave vil køre.
  • Rediger conf / kerne-site.xml fil at have følgende poster –

<ejendom>

<navn>fs.default.name</navn>

<værdi>HDFS://master:54310</værdi>

</ejendom>

  • Rediger conf / mapred-site.xml fil at have følgende poster –

<ejendom>

<navn>mapred.job.tracker</navn>

<værdi>HDFS://master:54311</værdi>

</ejendom>

  • Rediger conf / HDFS-site.xml fil at have følgende poster –

<ejendom>

<navn>dfs.replication</navn>

<værdi>2</værdi>

</ejendom>

  • Rediger conf / mapred-site.xml fil at have følgende poster –

<ejendom>

<navn>mapred.local.dir</navn>

<værdi>${Hadoop-tmp}/mapred / lokale</værdi>

</ejendom>

<ejendom>

<navn>mapred.map.tasks</navn>

<værdi>50</værdi>

</ejendom>

<ejendom>

<navn>mapred.reduce.tasks</navn>

<værdi>5</værdi>

</ejendom>

Nu starter det store ved at bruge følgende kommando.

[Code] bin / start-dfs.sh [/Code]

Efter start, kontrollere status på master ved JPS kommando hjælp. Du bør få følgende output -

[Code]

14799 NameNode

15314 JPS
16977 secondaryNameNode

[/Code]

På slave output bør være som vist nedenfor.

[Code]

15183 DataNode
15616 JPS

[/Code]

Nu starter de MapReduce daemons ved at bruge følgende kommando.

[Code]

$ bin / start-mapred.sh

[/Code]

Når startede kontrollere status på master ved JPS kommando hjælp. Du bør få følgende output -

[Code]

16017 JPS

14799 NameNode

15596 JobTracker

14977 SecondaryNameNode

[/Code]

Og på slaverne output bør være som vist nedenfor.

[Code]

15183 DataNode

15897 TaskTracker
16284 JPS

[/Code]

Summary: I ovenstående diskussion har vi dækket forskellige Hadoop installation tilstande og deres tekniske detaljer. Men vi skal være forsigtige, når man vælger installationstilstand. Forskellige tilstande har deres eget formål. Så begyndere bør starte med installationen single-mode og derefter gå videre med andre muligheder.
Lad os opsummere vores diskussion med følgende kugler

  • Apache Hadoop kan installeres i tre forskellige tilstande –
    • Enkelt knude
    • Pseudo distribueret node
    • Distribueret node
  • Single-mode er den enkleste måde at installere og komme i gang.
  • Hvis vi har brug klynger, men har kun en knude rådighed, så vi bør gå til Pseudo distribueret tilstand
  • For at installere den distribuerede tilstand vi burde have pseudo distribueret tilstand installeret først.
Tagged on:
============================================= ============================================== Buy best TechAlpine Books on Amazon
============================================== ---------------------------------------------------------------- electrician ct chestnutelectric
error

Enjoy this blog? Please spread the word :)

Follow by Email
LinkedIn
LinkedIn
Share