Jak nainstalovat Hadoop na Ubuntu: Komplexní průvodce

V dnešní době, jakmile se podnik nebo jakákoli operace zahrnující počítače rozroste do té míry, že vyžaduje obsluhu více než jedním počítačem, okamžitě začneme používat více počítačů jako součást jediné sítě, abychom efektivněji zvládli pracovní zátěž. To se stalo samozřejmostí do té míry, že v současnosti jsou téměř všechny operace v oborech, jako je datová věda, prováděny těmito síťovými počítači. I když je provádění náročných počítačových úloh tímto způsobem nepochybně efektivnější, je to také neuvěřitelně komplikované, protože musíte individuálně nakonfigurovat každý počítač a poté spravovat celou síť, jak prochází vašimi úkoly. Zde přicházejí programy jako Hadoop, aby zachránily situaci.

Obsah

Co je Apache Hadoop?
Případy použití Hadoop
Přehled architektury Hadoop
Nainstalujte Hadoop na Ubuntu 20.04 – průvodce krok za krokem
Závěr
FAQ

Hadoop je sada nástrojů a programů vydaná společností Apache, která umožňuje, aby celý proces síťového propojení spousty počítačů byl proveden s mnohem větší účinností a snadností. V tomto článku tedy zkontroluji Hadoop, prozkoumám jeho případy použití, proberu jeho klady a zápory a poskytnu přehled jeho pokročilé architektury, než přejdu k podrobnému průvodci, jak nainstalovat Hadoop na Ubuntu 20.04, abych dokončil tento tutoriál Hadoop 2024.

Co je Apache Hadoop?

Hadoop, sada nástrojů poháněných Apache, mění nastavení a využití sítě již více než 15 let. Uživatelé mohou těžit z efektivity zdrojů Hadoop, což jim umožňuje využít jejich současný výpočetní výkon pro náročné úkoly bez nutnosti drahých upgradů. Sada se skládá ze čtyř modulů: HDFS, YARN, MapReduce a Hadoop Common, z nichž každý je navržen pro specifické případy použití.

Brilantnost Hadoopu spočívá v jeho přirozené vynalézavosti, která chytře umožňuje jednotlivcům i organizacím sjednotit své stávající výpočetní schopnosti do soudržné síly schopné překonat značné výpočetní výzvy. Bez vedení Hadoop by tyto entity byly nuceny pustit se do nákladného úsilí o získání stále výkonnějších výpočetních strojů.

Případy použití Hadoop

Nyní víme, co je Hadoop. Ale jak přesně se jeho případy použití uplatňují v reálném světě? Pochopit program na papíře je dobré a dobré, ale nikdy nenahradí realizaci jeho potenciálu jako součást seriózní operace. Zde tedy poskytnu několik příkladů, než přejdu k výukovému programu Hadoop.

Analýza rizik

Jak již bylo zmíněno, Hadoop vám umožňuje využít výkon několika počítačových systémů jako součást jedné síťové jednotky, abyste mohli efektivně procházet dávky rozsáhlých dat a analyzovat je rychleji než obvykle. V každém podnikání existují rizika, která vyžadují analýzu a výpočet. Hadoop je zde velmi užitečný. Tolik ve skutečnosti, že mnoho důvěryhodných nemocnic jej používá k analýze rizik různých léčebných postupů a odhadování potenciálních výsledků a statistik jejich operací pro své pacienty. Zde se dozvíte více o revoluční roli Hadoopu ve zdravotnictví.

Detekce narušení bezpečnosti

S tím, jak se v rámci sítě nebo podniku zvyšuje celkový počet sítí a využívaných zařízení, je potřeba mít na paměti stále více potenciálních narušení bezpečnosti. Jednou ze základních pomůcek Hadoopu je posouzení celé operace pomocí analýzy velkých dávek dat a zdůraznění potenciálních bolestivých bodů tohoto systému.

Mapování recenzí

Mnoho firem spoléhá na zpětnou vazbu z recenzí, kterou dostávají na své produkty, aby je zlepšily nebo vyvinuly nové tržní strategie. Zatímco člověku bude trvat věky, než pokryje dostatečně velký revizní soubor, Hadoop využije své síťové počítačové kouzlo, aby přinesl mnohem rychlejší výsledky.

Analýza trhu

Když už mluvíme o tržních strategiích, výše uvedené mapování recenzí bledne ve srovnání s počtem zdrojů potřebných k analýze trhu, aby bylo možné posoudit potenciál pro vstup zcela nového produktu na trh. Toto je další případ použití, kde Hadoop září, protože umožňuje i malým začínajícím podnikům efektivně vyhodnotit trh s několika počítači v efektivním časovém rámci a způsobem.

Posuzování souborů protokolu

Dalším aspektem podnikání, který se postupem času komplikuje a nabývají na významu, je množství softwaru, které začnou používat plošně. Používání stále více softwaru způsobuje více potenciálních chyb a bolestivých bodů a vyžaduje specializovaného zaměstnance, který by spravoval soubory protokolu a řešil problémy. To zabere spoustu času, ale pomocí několika jednoduchých protokolů může firma použít Hadoop k rychlé kontrole a posouzení souborů protokolu, aby nalezla tyto chyby a zbavila se jich.

Existuje tuna dalších případů použití a aplikací Hadoop, ale v zájmu zachování zaměření na účel článku nebudeme dále diskutovat.

Přehled architektury Hadoop

Řekněme, že jste slyšeli o Hadoopu a jeho obecných případech použití a o tom, co dělá. A i když ne, tento článek vám to pravděpodobně zatím udělal. Nyní ale potřebujete do hloubky porozumět tomu, z čeho se Hadoop vlastně skládá a jak každá jeho část funguje se svými dalšími funkcemi. Jak již bylo zmíněno, existují čtyři obecné vrstvy Hadoop; v této části Hadoop tutoriálu se dozvíme více o HDFS (Hadoop Distributed File System), YARN (Yet Another Resource Negotiator), MapReduce a Hadoop Common. Protože však Hadoop Common nemá tolik funkcí, které je třeba vysvětlit, jeho základy jsou známé jako Ošetřovatel v zoo. V této části se tedy pokusím shrnout pokročilou architekturu a ekosystém Hadoop a jeho čtyři části v základních pojmech, než konečně přejdu k tomu, jak nainstalovat Hadoop na Ubuntu 20.04.

HDFS

HDFS v ekosystému Hadoop představuje celkový úložný systém, který všechny podsekce a aplikace Hadoop používají k hodnocení, přenosu a ukládání dat. Hlavním bodem architektury HDFS je, že na rozdíl od samotného Hadoop, open-source programu, je HDFS v Hadoopu ve skutečnosti souborovým systémem zodpovědným za spouštění všech základních operací jednoho clusteru Hadoop. HDFS je neuvěřitelně odolný souborový systém, který rozděluje datové dávky do 128 MB úseků a optimalizuje je pro operace založené na sekvencích.

Primární úlohou HDFS v softwaru Hadoop je poskytovat všechna data jako součást celkového datového stojanu, se kterými lze poté manipulovat prostřednictvím různých jmenných uzlů a sekundárních stojanů do podsekcí pro organizaci vaší operace analýzy dat. Potom můžete použít další možnosti, jako jsou stojany na žurnál, QJM, HA, fsimage a upravovat soubory protokolu a celkový protokol legend, abyste mohli sledovat a provádět další úkoly.

PŘÍZE

YARN je další výkonná pobočka Hadoop, která se používá k přiřazení požadovaného množství výpočetních prostředků konkrétním aplikacím v rámci ekosystému Hadoop. V podstatě vám umožňuje používat správce zdrojů pro vaše klienty k přidělování těchto prostředků prostřednictvím sady různých uzlů různým úkolům a aplikacím. V YARN je také legenda, která podobná té v HDFS umožňuje sledovat všechna vaše přidělená aktiva a operace. Samotný YARN je rozdělen do tří podsekcí: Správce prostředků, Hlavní aplikační server a Správce uzlů.

Každá z těchto tří podsekcí vytváří novou instanci sebe sama pro klastr, aplikaci a uzel. Nejenže můžete pomocí YARN přidělovat zdroje různým úkolům, ale také můžete naplánovat, aby se tyto zdroje v průběhu času měnily, abyste přišli s pokročilými algoritmickými pracovními postupy. YARN se neomezuje pouze na svou podsekci, bude mnoho případů, kdy použijete YARN ve spojení s jinými architektonickými vrstvami, jako je HDFS a Zookeeper, k alokaci zdrojů a vyhodnocení vaší celkové operace.

Hadoop Mapreduce

Hadoop MapReduce je další hlavní složkou v ekosystému Hadoop. Jakmile nainstalujete Hadoop na Ubuntu, můžete tuto funkci použít k efektivnímu získání obrovské dávky dat analyzovaných distribuovaným způsobem několika různými počítači. Hadoop MapReduce v podstatě funguje takto: do programu vložíte velkou mapu dat. Tato datová mapa bude zamíchána, rozdělena a distribuována mezi vaše počítače v síti. Následně pomocí konkrétních protokolů známých jako redukce jsou data zredukována na jejich nejpodstatnější součásti a redukována. Každá z těchto operací je známá jako úloha.

Řekněme, že máte tříslovnou větu, která funguje jako datová mapa, kterou chcete analyzovat pomocí MapReduce. Řekněme, že věta je Bear Hunt Rabbit. Hadoop MapReduce rozloží a zredukuje tuto větu na tři různé dávky, každou s jedním slovem, poté tato slova použije a vytvoří nové kombinace s podobným datovým vstupem vašich ostatních zakázek, aby vytvořil finální homogenizovanou datovou dávku s odstraněnými nepotřebnými daty, kterou lze snadno analyzovat.

Ošetřovatel v zoo

Zookeeper je další podsekcí ekosystému Hadoop, který se zpočátku dostal do popředí a běžně se používal s vydáním Hadoop verze 2.0. Hlavním bodem služby Zookeeper je koordinace mezi různými operacemi, které spouštíte jako součást jediné instance Hadoop. Jako takový se Zookeeper téměř vždy používá ve spojení s YARN's Resource Manager a různými funkcemi HDFS v Hadoop. Primárním využitím Zookeeper v těchto operacích je odhalit a napravit potenciální body selhání. K tomu používá dva různé nástroje: ZKFiloverControer a Zookeeper Quorum.

V těchto procedurách jsou datové uzly spravované jinými komponentami architektury Hadoop kategorizovány jako aktivní jmenné uzly, na které dohlíží uživatel. Následně každý z těchto jmenných uzlů prochází kontrolou ve dvou výše uvedených podsekcích Zookeeper. To se provádí za účelem určení oblastí obtíží a identifikaci potenciálních selhání.

Nainstalujte Hadoop na Ubuntu 20.04 – průvodce krok za krokem

A konečně, poté, co se dozvíte o architektuře Hadoop, je čas dostat se k jádru věci, a to jak nainstalovat Hadoop na Ubuntu 20.04 jako poslední část tohoto tutoriálu Hadoop. Než přejdeme k podrobnému průvodci instalací Hadoop na Ubuntu 20.04, pojďme si pokrýt předpoklady. Mějte na paměti, že tuto příručku lze použít také pro Ubuntu 18.04.

Předpoklady

Předpoklady potřebné k instalaci Hadoop na Ubuntu jsou docela jednoduché. Vše, co potřebujete, je počítač se systémem Ubuntu s přístupem root, buď lokálně dostupný, nebo vzdáleně přístupný prostřednictvím serveru VPS. Pokud jde o nezbytné programy, ujistěte se, že již máte nainstalované Java 11 a SSH. Pokud je nemáte, spusťte jeden po druhém následující příkazy a nainstalujte je:

sudo apt update && sudo apt upgrade -y

sudo apt install openssh-server openssh-client -y

sudo apt install openjdk-11-jdk -y

Pokud jde o licenci, nebudete ji potřebovat, protože Hadoop je zdarma a open-source. To je vše, co potřebujete. Pojďme ke kroku jedna.

Krok 1: Vytvořte jiného uživatele než root pro Hadoop

Vytvořte pro svůj Hadoop uživatele bez oprávnění root pomocí následujícího příkazu. Toto je část předkonfigurací, které musíme provést před samotným stažením a instalací Hadoop:

sudo adduser hdoop

su - hdoop

Krok 2: Nastavte klíče SSH

Nyní, abychom mohli nainstalovat Hadoop na Ubuntu, použijeme uživatele Hadoop, kterého jste právě vytvořili, a použijeme jej k navázání spojení SSH s ním. Pomocí tohoto příkazu vygenerujte pár klíčů SSH a uložte jej:

ssh-keygen -t rsa -P '' -f ~/.ssh/id_rsa

Jakmile jsou klíče vygenerovány, tento následující řádek vám umožní je označit jako autorizované_klíče a uložte je do svého adresáře SSH:

cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys

Nyní použijte tento příkaz, abyste se ujistili, že vaše připojení SSH má všechna požadovaná oprávnění:

chmod 600 ~/.ssh/authorized_keys

chmod 700 ~/.ssh

Potvrďte změny a budete se moci kdykoli snadno připojit k vašemu localhost s uživatelem, kterého jste provedli:

ssh localhost

Krok 3: Stáhněte a nainstalujte Hadoop na Ubuntu

Můžete navštívit Web Apache Hadoop zobrazíte seznam verzí s jejich protokolem posledních změn. Vyberte verzi, která se vám líbí, a zobrazí se vám odkaz, který lze použít s následujícím příkazem ke stažení a instalaci Hadoop na Ubuntu. Zde volím verzi 3.3.6. V případě potřeby nahraďte „3.3.6“ nejnovější stabilní verzí:

wget https://downloads.apache.org/hadoop/common/hadoop-3.3.6/hadoop-3.3.6.tar.gz

Po dokončení stahování použijte tento řádek k dokončení procesu extrakce a instalace:

tar xzf hadoop-3.3.6.tar.gz

sudo mv hadoop-3.3.6 /usr/local/hadoop

sudo chown -R hdoop:hdoop /usr/local/hadoop

Krok 4: Nakonfigurujte prostředí Hadoop

Soubor JAVA_HOME in /usr/local/hadoop/etc/hadoop/hadoop-env.sh:

echo 'export JAVA_HOME=$(readlink -f /usr/bin/java | sed "s:bin/java::")' | sudo tee -a /usr/local/hadoop/etc/hadoop/hadoop-env.sh

Krok 5: Upravte konfigurační soubory

Aktualizujte konfigurační soubory XML Hadoop pomocí nastavení clusteru.

nano /usr/local/hadoop/etc/hadoop/core-site.xml

Krok 6: Formátování HDFS

Inicializujte jmenný prostor souborového systému Hadoop.

/usr/local/hadoop/bin/hdfs namenode -format

Krok 7: Spusťte Hadoop Services

Spusťte služby HDFS a YARN.

/usr/local/hadoop/sbin/start-dfs.sh

/usr/local/hadoop/sbin/start-yarn.sh

Krok 8: Ověřte instalaci

Zkontrolujte běžící procesy Java a ujistěte se, že Hadoop běží.

jps

Krok 9: Přístup k webovým rozhraním

Otevřete webové prohlížeče do rozhraní Hadoop NameNode a ResourceManager.

NameNode: http://localhost:9870
ResourceManager: http://localhost:8088

Krok 10: Spusťte příklad MapReduce

Provedením ukázkové úlohy MapReduce ověřte nastavení.

/usr/local/hadoop/bin/hdfs dfs -mkdir /input

/usr/local/hadoop/bin/hdfs dfs -put localfile.txt /input

/usr/local/hadoop/bin/hadoop jar

/usr/local/hadoop/share/hadoop/mapreduce/hadoop-mapreduce-examples-3.3.6.jar grep /input /output 'dfs[a-z.]+'

/usr/local/hadoop/bin/hdfs dfs -cat /output/*

Krok 11: Nastavte proměnné prostředí

Přidejte Hadoop's zásobník a sbin adresářů do systémové PATH.

echo 'export PATH=$PATH:/usr/local/hadoop/bin:/usr/local/hadoop/sbin' >> ~/.bashrc

source ~/.bashrc

A je to! Právě se vám podařilo úspěšně nakonfigurovat a nainstalovat Apache Hadoop na Ubuntu 20.04!

Závěr

Stručně řečeno, instalace Hadoop na Ubuntu 20.04 je důkladný proces, který vyžaduje pečlivou pozornost a připravenost prozkoumat nuance nastavení. Dodržováním kroků uvedených v této příručce se uživatelé Ubuntu mohou vydat na cestu transformace a využít podstatné možnosti Hadoopu, aby plně využili potenciál svých činností v oblasti analýzy dat.

Moje doporučení je nasadit Hadoop jako nasazení s jedním uzlem pomocí omezené distribuce, pokud se s ním chcete pouze učit a hrát. Pro tento účel vám VPS dokonale poslouží. Cloudzy vám nabízí celou řadu různých Linuxové VPS služby včetně Ironclad, spolehlivý Ubuntu VPS které lze během chvilky nakonfigurovat, aby se pro vás stalo dokonalým výukovým hřištěm Hadoop. Počínaje 4,95 dolary měsíčně můžete získat vlastní Ubuntu VPS s více než 12 místy a nepřetržitou pečovatelskou podporou!

Jasná volba

Většina serverů provozovaných na Linuxu používá Ubuntu; proč ne ty? Zjistěte, proč všichni milují Ubuntu – získejte optimalizovaný Ubuntu VPS

Získejte Ubuntu VPS

FAQ

Jaké jsou rozdíly mezi HDFS a MapReduce?

Zatímco oba moduly sídlí v ekosystému Hadoop, slouží odlišným účelům. HDFS funguje jako distribuovaný souborový systém, který usnadňuje přístup k datům. Na druhou stranu MapReduce vyniká v rozdělování a efektivní analýze velkých datových bloků.

Je Hadoop považován za databázi?

Hadoop není databáze, i když tato mylná představa je běžná. Funguje spíše jako distribuovaný souborový systém, který umožňuje ukládání a zpracování objemných dat pomocí sítě propojených počítačů. Neměl by být používán jako přímá náhrada za tradiční databázový systém.

Jaké jsou čtyři základní složky Hadoopu?

Hadoop se skládá ze čtyř základních komponent: HDFS (Hadoop Distributed File System), YARN (Yet Another Resource Negotiator), MapReduce a Hadoop Common. Některé zdroje navíc považují ZooKeeper za součást, i když jako taková není oficiálně uznávána.

Kde se Hadoop obvykle používá?

Hadoop nachází aplikace v různých oblastech, kde je nezbytná správa, ukládání, zpracování a analýza rozsáhlých dat. Zaměřuje se na operace od středně velkých podniků a nemocnic až po rozvíjející se startupy a poskytuje řešení založená na datech.

Více z blogu

Pokračujte ve čtení.

Databáze a analytika

Jak nainstalovat MongoDB na tři nejnovější verze Ubuntu (krok za krokem)

Rozhodli jste se tedy použít MongoDB, skvělou alternativu k MariaDB pro vytvoření aplikace MERN stack, analytické platformy nebo jakéhokoli systému založeného na dokumentech, ale narazili jste na zeď.

Jim Schwarz 25. února 2026 12 min čtení

Databáze a analytika

Inteligentní správa dat pro vaši firmu: Strategie úložiště a zálohování „jako cloud“ s VPS

VPS pro bezpečnou správu podnikových dat je strategie, kterou doporučuji vždy, když se společnost rozhodne, že je čas přestat žonglovat se soubory přes notebooky, e-mailové přílohy a polozapomenuté

Rexa Cyrus 9. července 2025 7 minut čtení

Databáze a analytika

Materializovaný pohled vs. pohled: Pochopení jejich role v databázích

V databázových systémech materializovaný pohled jako databázový objekt ukládá předem vypočítané výsledky dotazu jako fyzickou tabulku. Protože jsou data ve skutečnosti uložena na disku, komplikujte

Ivy Johnsonová 20. března 2025 7 minut čtení

Jste připraveni k nasazení? Od 2,48 $ měsíčně.

Nezávislý cloud, od roku 2008. AMD EPYC, NVMe, 40 Gbps. 14denní vrácení peněz.

Nasaďte VPS Zobrazit všechny plány