Přehled: Apache Hadoop může být instalován v různých režimech dle požadavku. Tyto různé režimy jsou konfigurovány během instalace. Ve výchozím stavu, Hadoop je instalován v Samostatný režim. Ostatní režimy jsou pseudo distribuovány režim a distribuovány režim. Účelem tohoto návodu je vysvětlit různé režimy instalace jednoduchým způsobem tak, že čtenáři mohou následovat a dělat svou práci.
In this article, Budu diskutovat o různých režimů instalace a informace o nich.
Úvod: Všichni víme, že Apache Hadoop je open source rámec, který umožní distribuované zpracování velkých souborů dat uvedených v různých klastrů s použitím jednoduché programování. Hadoop má schopnost škálovat až tisíce počítačů z jednoho serveru. Tedy za těchto podmínek se stává montáž Hadoop nejkritičtější. Můžeme nainstalovat Hadoop ve třech různých režimech –
- Samostatný režim – Cluster Single Node
- Režim distribuovány Pseudo – Cluster Single Node
- distribuovanými vidy. – Cluster Multi Node
Účel různých způsobů instalace: Je-li Apache Hadoop používá v produkčním prostředí, více serverových uzlů se používají pro distribuované výpočty. Ale pro pochopení základů a hraní si s Hadoop, Instalace jediný uzel je dostatečná. Tam je další způsob známý jako "Pseudo distribuovány’ režim. Tento režim se používá k simulaci multifunkčního uzlu prostředí na jednom serveru.
V tomto dokumentu se budeme diskutovat o tom, jak nainstalovat Hadoop na Ubunto Linux. Ať už jde o jakýkoliv režim, Systém by měl mít Java verze 1.6.x nainstalován na to.
Instalace samostatného režimu: Now, dejte nám zjistit samostatný instalační proces režimu podle následujících kroků uvedených níže.
instalovat Java –
Jáva (JDK verze 1.6.x) buď z Sun / Oracle nebo Open Javě je požadováno.
- Step 1 – Pokud nejste schopni přepnout na OpenJDK namísto použití proprietárního Sun JDK / JRE, nainstalovat slunce-java6 od Canonical Partner úložiště pomocí následujícího příkazu.
Note: The Canonical Partner úložiště Obsahuje bezplatně uzavřený source software třetích stran. Ale Canonical nemá přístup ke zdrojovému kódu namísto toho prostě zabalit a vyzkoušet.
Přidejte kanonický partnera pro apt s využitím –
[Code]
$ sudo add-apt-repository “deb http://archive.canonical.com/lucid partnera”
[/Code]
- Step 2 – Aktualizovat seznam zdrojů.
[Code]
$ sudo apt-get aktualizace
[/Code]
- Step 3 – Nainstalovat JDK verze 1.6.x od Sun / Oracle.
[Code]
$ sudo apt-get install sun-java6-jdk
[/Code]
- Step 4 – Jakmile je instalace JDK je u konce se ujistili, že je správně nastaven pomocí – verze 1.6.x od Sun / Oracle.
[Code]
user @ ubuntu:~ # Java -version java verze “1.6.0_45” Jáva(TM) SE Runtime Environment (stavět 1.6.0_45-B02) Java HotSpot(TM) Client VM (stavět 16.4-B01, mixed mode, sharing)
[/Code]
Přidat Hadoop uživatele
- Step 5 – Přidejte vyhrazený uživatelský Hadoop unixový do tebe systému podle izolovat tuto instalaci dalšího softwaru –
[Code]
$ sudo adduser hadoop_admin
[/Code]
Stáhnout a nainstalovat binární Hadoop
- Step 6 – Ke stažení Apache Hadoop z webových stránek apache. Hadoop přichází v podobě formátu tar-GX. Zkopírujte tento binární do adresáře / usr / local / installables složku. Složka – installables by měly být vytvořeny jako první v adresáři / usr / local před tímto krokem. Nyní spusťte následující příkazy jako sudo
[Code]
$ cd / usr / local / installables $ sudo tar xzf Hadoop-0.20.2.tar.gz $ sudo chown -R hadoop_admin / usr / local / Hadoop-0.20.2
[/Code]
Definovat env proměnné – JAVA_HOME
- Step 7 – Otevřete konfigurační soubor Hadoop (hadoop-env.sh) v místě – /usr / local / installables / Hadoop-0.20.2/conf / hadoop-env.sh a definovat JAVA_HOME jako pod -
[Code] export JAVA_HOME = cesta / kde / jdk / je / nainstalován [/Code]
(např. /usr / bin / java)
Instalace v režimu Single
- Step 8 – Nyní přejděte do adresáře HADOOP_HOME (Místo, kde je Hadoop extrahují) a spusťte následující příkaz -
[Code]
$ bin / Hadoop
[/Code]
Zobrazí se následující výstup -
[Code] Používání: Hadoop [–config confdir] PŘÍKAZ
[/Code]
Některé z těchto voleb příkazového jsou uvedeny níže. Existují i jiné možnosti k dispozici a lze zkontrolovat pomocí příkazu výše uvedené.
[Code] namenode -format formátovat DFS souborový systém secondarynamenode spustit sekundární namenode DFS namenode spustit DFS namenode datanode spustit DFS datanode dfsadmin spustit DFS klienta administrátora mradmin spustit Map-Snížit admin klienta fsck spustit DFS souborový systém kontroly utility
[/Code]
Výše uvedený výstup signalizuje, že Samostatná instalace je úspěšně dokončena. Nyní můžete spustit ukázkové příklady svou volbu povolání -
[Code] $ bin / Hadoop jar Hadoop - * - examples.jar <JMÉNO> <PARAMS>[/Code]
Pseudo instalace distribuovanými vidy: Jedná se o simulované multi uzel prostředí založené na jednom serveru uzlu.
Zde je prvním krokem nutné je nakonfigurovat SSH, aby se přístup a spravovat různé uzly. Proto je nutné mít přístup k SSH různými uzly. Jakmile je SSH je nakonfigurován, povoleno a je přístupný bychom měli zahájit konfiguraci Hadoop. Následující konfigurační soubory musí být upravena -
- conf / core-site.xml
- conf / HDFS-site.xml
- conf / mapred.xml
Otevřít všechny konfigurační soubory v my editor a aktualizovat konfiguraci.
Konfigurace core-site.xml soubor:
[Code]$ vi conf / core-site.xml[/Code] [Code]<konfigurace><majetek><jméno>fs.default.name</jméno><hodnota>HDFS://localhost:9000</hodnota></majetek><majetek><jméno>hadoop.tmp.dir</jméno><hodnota>/tmp / hadoop- ${user.name}</hodnota></majetek></konfigurace>[/Code]
Konfigurace hdfs-site.xml soubor:
[Code]$ vi conf / hdfs-site.xml[/Code] [Code]<konfigurace><majetek><jméno>dfs.replication</jméno><hodnota>1</hodnota></majetek></konfigurace>[/Code]
Konfigurace mapred.xml soubor:
[Code]$ vi conf / mapred.xml[/Code] [Code]<konfigurace><majetek><jméno>mapred.job.tracker</jméno> <hodnota>localhost:9001</hodnota></majetek></konfigurace>[/Code] Jakmile jsou tyto změny provádět, musíme naformátovat název uzlu pomocí následujícího příkazu. Příkazového řádku se zobrazí všechny zprávy, jeden po druhém a nakonec zprávu o úspěšné operaci. [Code]$ bin / Hadoop namenode -formát[/Code] Teď je naše nastavení se provádí pro pseudo distribuovaný uzel. Pojďme nyní spustit clusteru jediný uzel pomocí následujícího příkazu. To bude opět ukázat nějakou sadu zpráv, na příkazovém řádku a zahájit proces serveru. [Code]$ /bin/start-all.sh[Code] Nyní bychom se měli zkontrolovat stav Hadoop procesu vykonáním JPS příkazu, jak je uvedeno níže. Ukáže všechny běžící procesy. [Code]$ JPS 14799 NameNode14977 SecondaryNameNode 15183 DataNode15596 JobTracker15897 Task Tracker[/Code]
Zastavení jednoho clusteru uzlu: Můžeme zastavit clusteru na jednom uzlu pomocí následujícího příkazu. Příkazového řádku zobrazí všechny Zastavení procesů.
[Code]$ bin / stop-all.sh zastavení jobtrackerlocalhost: zastavení tasktrackerstopping namenodelocalhost: zastavení datanodelocalhost: zastavení secondarynamenode[/Code]
Instalace distribuovaný režim:
Než začneme instalaci distribuovaný režim, musíme zajistit, že jsme pseudo distribuovány nastavení provedeno a máme nejméně dva stroje, jeden působí jako master a druhý působí jako otrok. Nyní jsme se spustit následující příkazy v pořadí.
· $ bin / stop-all.sh – Ujistěte se, že žádný z uzlů jsou spuštěny
- Otevření souboru / etc / hosts a přidejte následující položky pro master a slave –
<IP ADRESA> master
<IP ADRESA> otrok
- $ ssh-copy-id -i $ HOME / .ssh / id_rsa.pub otrok – Tento příkaz by měl být vykonán na master mít passwordless ssh. Měli bychom se přihlásit pomocí stejné uživatelské jméno na všech strojích. Pokud budeme potřebovat heslo, ji můžeme nastavit manuálně.
- Nyní jsme se otevřít dva soubory – conf / master a conf / slave. Conf / master definuje název uzly clusteru našeho multifunkčního uzlu. Soubor conf / otroci uvádí hostitelů, kde Hadoop Slave bude spuštěn.
- Upravte soubor conf / core-site.xml mít následující položky –
<majetek>
<jméno>fs.default.name</jméno>
<hodnota>HDFS://master:54310</hodnota>
</majetek>
- Upravte soubor conf / mapred-site.xml mít následující položky –
<majetek>
<jméno>mapred.job.tracker</jméno>
<hodnota>HDFS://master:54311</hodnota>
</majetek>
- Upravte soubor conf / hdfs-site.xml mít následující položky –
<majetek>
<jméno>dfs.replication</jméno>
<hodnota>2</hodnota>
</majetek>
- Upravte soubor conf / mapred-site.xml mít následující položky –
<majetek>
<jméno>mapred.local.dir</jméno>
<hodnota>${Hadoop-tmp}/mapred / local</hodnota>
</majetek>
<majetek>
<jméno>mapred.map.tasks</jméno>
<hodnota>50</hodnota>
</majetek>
<majetek>
<jméno>mapred.reduce.tasks</jméno>
<hodnota>5</hodnota>
</majetek>
Nyní spusťte mistra pomocí následujícího příkazu.
[Code] bin / start-dfs.sh [/Code]
Poté, co začal, Kontrola stavu na hlavním pomocí příkazu JPS. Ty by měly dostat následující výstup -
[Code]
14799 NameNode
15314 JPS
16977 secondaryNameNode
[/Code]
Na slave výstup by měl být, jak je uvedeno níže.
[Code]
15183 DataNode
15616 JPS
[/Code]
Nyní spusťte démony MapReduce pomocí následujícího příkazu.
[Code]
$ bin / start-mapred.sh
[/Code]
Poté, co začal kontrolovat stav na hlavním pomocí příkazu JPS. Ty by měly dostat následující výstup -
[Code]
16017 JPS
14799 NameNode
15596 JobTracker
14977 SecondaryNameNode
[/Code]
A na otroky výstup by měl být, jak je uvedeno níže.
[Code]
15183 DataNode
15897 TaskTracker
16284 JPS
[/Code]
Summary: Ve výše uvedené diskusi jsme se zabývali různých režimů instalace Hadoop a jejich technické detaily. Ale měli bychom být opatrní při výběru režimu instalace. Různé režimy mají svůj vlastní účel. Takže začátečníci by se mělo začít s instalací jediným režimem a pak pokračovat s dalšími možnostmi.
Shrňme si naši diskusi s těmito kuličkami
- Apache Hadoop může být instalován ve třech různých režimech –
- Single node
- Pseudo distribuovaný uzel
- distribuované uzel
- Single mode je nejjednodušší způsob, jak nainstalovat a začít.
- Chceme-li se shluky, ale mají pouze jeden uzel k dispozici, pak bychom měli jít na Pseudo rozděleném módu
- Chcete-li instalovat distribuovanou režim bychom měli mít nainstalován první pseudo distribuovanými vidy.