Režimy instalace Hadoop - Pojďme prozkoumat

Hadoop mode

režim Hadoop

Přehled: Apache Hadoop může být instalován v různých režimech dle požadavku. Tyto různé režimy jsou konfigurovány během instalace. Ve výchozím stavu, Hadoop je instalován v Samostatný režim. Ostatní režimy jsou pseudo distribuovány režim a distribuovány režim. Účelem tohoto návodu je vysvětlit různé režimy instalace jednoduchým způsobem tak, že čtenáři mohou následovat a dělat svou práci.

In this article, Budu diskutovat o různých režimů instalace a informace o nich.

Úvod: Všichni víme, že Apache Hadoop je open source rámec, který umožní distribuované zpracování velkých souborů dat uvedených v různých klastrů s použitím jednoduché programování. Hadoop má schopnost škálovat až tisíce počítačů z jednoho serveru. Tedy za těchto podmínek se stává montáž Hadoop nejkritičtější. Můžeme nainstalovat Hadoop ve třech různých režimech –

  • Samostatný režim – Cluster Single Node
  • Režim distribuovány Pseudo – Cluster Single Node
  • distribuovanými vidy. – Cluster Multi Node

Účel různých způsobů instalace: Je-li Apache Hadoop používá v produkčním prostředí, více serverových uzlů se používají pro distribuované výpočty. Ale pro pochopení základů a hraní si s Hadoop, Instalace jediný uzel je dostatečná. Tam je další způsob známý jako "Pseudo distribuovány’ režim. Tento režim se používá k simulaci multifunkčního uzlu prostředí na jednom serveru.

V tomto dokumentu se budeme diskutovat o tom, jak nainstalovat Hadoop na Ubunto Linux. Ať už jde o jakýkoliv režim, Systém by měl mít Java verze 1.6.x nainstalován na to.

Instalace samostatného režimu: Now, dejte nám zjistit samostatný instalační proces režimu podle následujících kroků uvedených níže.

instalovat Java –
Jáva (JDK verze 1.6.x) buď z Sun / Oracle nebo Open Javě je požadováno.

  • Step 1 – Pokud nejste schopni přepnout na OpenJDK namísto použití proprietárního Sun JDK / JRE, nainstalovat slunce-java6 od Canonical Partner úložiště pomocí následujícího příkazu.

Note: The Canonical Partner úložiště Obsahuje bezplatně uzavřený source software třetích stran. Ale Canonical nemá přístup ke zdrojovému kódu namísto toho prostě zabalit a vyzkoušet.

Přidejte kanonický partnera pro apt s využitím –

[Code]

$ sudo add-apt-repository “deb http://archive.canonical.com/lucid partnera”

[/Code]

  • Step 2 – Aktualizovat seznam zdrojů.

[Code]

$ sudo apt-get aktualizace

[/Code]

  • Step 3 – Nainstalovat JDK verze 1.6.x od Sun / Oracle.

[Code]

$ sudo apt-get install sun-java6-jdk

[/Code]

  • Step 4 – Jakmile je instalace JDK je u konce se ujistili, že je správně nastaven pomocí – verze 1.6.x od Sun / Oracle.

[Code]

user @ ubuntu:~ # Java -version java verze “1.6.0_45” Jáva(TM) SE Runtime Environment (stavět 1.6.0_45-B02) Java HotSpot(TM) Client VM (stavět 16.4-B01, mixed mode, sharing)

[/Code]

Přidat Hadoop uživatele

  • Step 5 – Přidejte vyhrazený uživatelský Hadoop unixový do tebe systému podle izolovat tuto instalaci dalšího softwaru –

[Code]

$ sudo adduser hadoop_admin

[/Code]

Stáhnout a nainstalovat binární Hadoop

  • Step 6 – Ke stažení Apache Hadoop z webových stránek apache. Hadoop přichází v podobě formátu tar-GX. Zkopírujte tento binární do adresáře / usr / local / installables složku. Složka – installables by měly být vytvořeny jako první v adresáři / usr / local před tímto krokem. Nyní spusťte následující příkazy jako sudo

[Code]

$ cd / usr / local / installables $ sudo tar xzf Hadoop-0.20.2.tar.gz $ sudo chown -R hadoop_admin / usr / local / Hadoop-0.20.2

[/Code]

Definovat env proměnné – JAVA_HOME

  • Step 7 – Otevřete konfigurační soubor Hadoop (hadoop-env.sh) v místě – /usr / local / installables / Hadoop-0.20.2/conf / hadoop-env.sh a definovat JAVA_HOME jako pod -

[Code] export JAVA_HOME = cesta / kde / jdk / je / nainstalován [/Code]

(např. /usr / bin / java)

Instalace v režimu Single

  • Step 8 – Nyní přejděte do adresáře HADOOP_HOME (Místo, kde je Hadoop extrahují) a spusťte následující příkaz -

[Code]

$ bin / Hadoop

[/Code]

Zobrazí se následující výstup -

[Code] Používání: Hadoop [–config confdir] PŘÍKAZ

[/Code]

Některé z těchto voleb příkazového jsou uvedeny níže. Existují i ​​jiné možnosti k dispozici a lze zkontrolovat pomocí příkazu výše uvedené.

[Code] namenode -format formátovat DFS souborový systém secondarynamenode spustit sekundární namenode DFS namenode spustit DFS namenode datanode spustit DFS datanode dfsadmin spustit DFS klienta administrátora mradmin spustit Map-Snížit admin klienta fsck spustit DFS souborový systém kontroly utility

[/Code]

Výše uvedený výstup signalizuje, že Samostatná instalace je úspěšně dokončena. Nyní můžete spustit ukázkové příklady svou volbu povolání -

[Code] $ bin / Hadoop jar Hadoop - * - examples.jar <JMÉNO> <PARAMS>[/Code]

Pseudo instalace distribuovanými vidy: Jedná se o simulované multi uzel prostředí založené na jednom serveru uzlu.
Zde je prvním krokem nutné je nakonfigurovat SSH, aby se přístup a spravovat různé uzly. Proto je nutné mít přístup k SSH různými uzly. Jakmile je SSH je nakonfigurován, povoleno a je přístupný bychom měli zahájit konfiguraci Hadoop. Následující konfigurační soubory musí být upravena -

  • conf / core-site.xml
  • conf / HDFS-site.xml
  • conf / mapred.xml

Otevřít všechny konfigurační soubory v my editor a aktualizovat konfiguraci.

Konfigurace core-site.xml soubor:

[Code]$ vi conf / core-site.xml[/Code] [Code]<konfigurace><majetek><jméno>fs.default.name</jméno><hodnota>HDFS://localhost:9000</hodnota></majetek><majetek><jméno>hadoop.tmp.dir</jméno><hodnota>/tmp / hadoop- ${user.name}</hodnota></majetek></konfigurace>[/Code]

Konfigurace hdfs-site.xml soubor:

[Code]$ vi conf / hdfs-site.xml[/Code] [Code]<konfigurace><majetek><jméno>dfs.replication</jméno><hodnota>1</hodnota></majetek></konfigurace>[/Code]

Konfigurace mapred.xml soubor:

[Code]$ vi conf / mapred.xml[/Code] [Code]<konfigurace><majetek><jméno>mapred.job.tracker</jméno> <hodnota>localhost:9001</hodnota></majetek></konfigurace>[/Code] Jakmile jsou tyto změny provádět, musíme naformátovat název uzlu pomocí následujícího příkazu. Příkazového řádku se zobrazí všechny zprávy, jeden po druhém a nakonec zprávu o úspěšné operaci. [Code]$ bin / Hadoop namenode -formát[/Code] Teď je naše nastavení se provádí pro pseudo distribuovaný uzel. Pojďme nyní spustit clusteru jediný uzel pomocí následujícího příkazu. To bude opět ukázat nějakou sadu zpráv, na příkazovém řádku a zahájit proces serveru. [Code]$ /bin/start-all.sh[Code] Nyní bychom se měli zkontrolovat stav Hadoop procesu vykonáním JPS příkazu, jak je uvedeno níže. Ukáže všechny běžící procesy. [Code]$ JPS 14799 NameNode14977 SecondaryNameNode 15183 DataNode15596 JobTracker15897 Task Tracker[/Code]

Zastavení jednoho clusteru uzlu: Můžeme zastavit clusteru na jednom uzlu pomocí následujícího příkazu. Příkazového řádku zobrazí všechny Zastavení procesů.

[Code]$ bin / stop-all.sh zastavení jobtrackerlocalhost: zastavení tasktrackerstopping namenodelocalhost: zastavení datanodelocalhost: zastavení secondarynamenode[/Code]

Instalace distribuovaný režim:
Než začneme instalaci distribuovaný režim, musíme zajistit, že jsme pseudo distribuovány nastavení provedeno a máme nejméně dva stroje, jeden působí jako master a druhý působí jako otrok. Nyní jsme se spustit následující příkazy v pořadí.

· $ bin / stop-all.sh – Ujistěte se, že žádný z uzlů jsou spuštěny

  • Otevření souboru / etc / hosts a přidejte následující položky pro master a slave –

<IP ADRESA> master

<IP ADRESA> otrok

  • $ ssh-copy-id -i $ HOME / .ssh / id_rsa.pub otrok – Tento příkaz by měl být vykonán na master mít passwordless ssh. Měli bychom se přihlásit pomocí stejné uživatelské jméno na všech strojích. Pokud budeme potřebovat heslo, ji můžeme nastavit manuálně.
  • Nyní jsme se otevřít dva soubory – conf / master a conf / slave. Conf / master definuje název uzly clusteru našeho multifunkčního uzlu. Soubor conf / otroci uvádí hostitelů, kde Hadoop Slave bude spuštěn.
  • Upravte soubor conf / core-site.xml mít následující položky –

<majetek>

<jméno>fs.default.name</jméno>

<hodnota>HDFS://master:54310</hodnota>

</majetek>

  • Upravte soubor conf / mapred-site.xml mít následující položky –

<majetek>

<jméno>mapred.job.tracker</jméno>

<hodnota>HDFS://master:54311</hodnota>

</majetek>

  • Upravte soubor conf / hdfs-site.xml mít následující položky –

<majetek>

<jméno>dfs.replication</jméno>

<hodnota>2</hodnota>

</majetek>

  • Upravte soubor conf / mapred-site.xml mít následující položky –

<majetek>

<jméno>mapred.local.dir</jméno>

<hodnota>${Hadoop-tmp}/mapred / local</hodnota>

</majetek>

<majetek>

<jméno>mapred.map.tasks</jméno>

<hodnota>50</hodnota>

</majetek>

<majetek>

<jméno>mapred.reduce.tasks</jméno>

<hodnota>5</hodnota>

</majetek>

Nyní spusťte mistra pomocí následujícího příkazu.

[Code] bin / start-dfs.sh [/Code]

Poté, co začal, Kontrola stavu na hlavním pomocí příkazu JPS. Ty by měly dostat následující výstup -

[Code]

14799 NameNode

15314 JPS
16977 secondaryNameNode

[/Code]

Na slave výstup by měl být, jak je uvedeno níže.

[Code]

15183 DataNode
15616 JPS

[/Code]

Nyní spusťte démony MapReduce pomocí následujícího příkazu.

[Code]

$ bin / start-mapred.sh

[/Code]

Poté, co začal kontrolovat stav na hlavním pomocí příkazu JPS. Ty by měly dostat následující výstup -

[Code]

16017 JPS

14799 NameNode

15596 JobTracker

14977 SecondaryNameNode

[/Code]

A na otroky výstup by měl být, jak je uvedeno níže.

[Code]

15183 DataNode

15897 TaskTracker
16284 JPS

[/Code]

Summary: Ve výše uvedené diskusi jsme se zabývali různých režimů instalace Hadoop a jejich technické detaily. Ale měli bychom být opatrní při výběru režimu instalace. Různé režimy mají svůj vlastní účel. Takže začátečníci by se mělo začít s instalací jediným režimem a pak pokračovat s dalšími možnostmi.
Shrňme si naši diskusi s těmito kuličkami

  • Apache Hadoop může být instalován ve třech různých režimech –
    • Single node
    • Pseudo distribuovaný uzel
    • distribuované uzel
  • Single mode je nejjednodušší způsob, jak nainstalovat a začít.
  • Chceme-li se shluky, ale mají pouze jeden uzel k dispozici, pak bychom měli jít na Pseudo rozděleném módu
  • Chcete-li instalovat distribuovanou režim bychom měli mít nainstalován první pseudo distribuovanými vidy.
Tagged on:
============================================= ============================================== Buy best TechAlpine Books on Amazon
============================================== ---------------------------------------------------------------- electrician ct chestnutelectric
error

Enjoy this blog? Please spread the word :)

Follow by Email
LinkedIn
LinkedIn
Share