50% kedvezmény minden csomagra, korlátozott ideig. Kezdőár: $2.48/mo
13 perc maradt
Adatbázisok és Analitika

Hadoop telepítése Ubuntu-re: Teljes útmutató

Pius Bodenmann By Pius Bodenmann 13 perces olvasás Frissítve: 2024. május 1.
hadoop telepítése ubuntu linuxra

Manapság, ha egy vállalkozás vagy bármilyen számítógépeket érintő működés olyan mértékig növekszik, hogy egynél több számítógépre van szükség a terhelés kezeléséhez, azonnal több számítógépet kezdünk el egy hálózat részeként használni a terhelés hatékonyabb kezeléséhez. Ez annyira elterjedtté vált, hogy manapság szinte az összes olyan terület, mint az adattudomány szinte kizárólag ilyen hálózati számítógépek segítségével végez műveletet. Noha kétségtelen, hogy így hatékonyabb nagy terhelésű számítógépes feladatokat végezni, az rendkívül összetett is, mivel egyenként kell konfigurálnod mindegyik számítógépet, majd a teljes hálózatot kell kezelnöd, miközben a feladataidon halad. Ilyen helyzetekre jöttek az olyan programok, mint a Hadoop.

A Hadoop az Apache által kiadott eszközök és programok csomagja, amely lehetővé teszi, hogy számítógépek hálózatba kötésének teljes folyamata sokkal hatékonyabban és könnyebben legyen elvégezhető. Ebben a cikkben áttekintjük a Hadoopot, megvizsgáljuk felhasználási eseteit, átgondoljuk annak előnyeit és hátrányait, és bemutatjuk fejlett architektúráját, mielőtt rátérnénk a lépésenkénti útmutatóra a Hadoop Ubuntu 20.04-en való telepítéséhez, hogy ezzel befejezzük ezt a 2024-es Hadoop oktatóanyagot.

Mi az Apache Hadoop?

A Hadoop, az Apache által működtetett eszközcsomag több mint 15 éve átalakítja a hálózati beállítást és kihasználást. A felhasználók a Hadoop erőforrás-hatékonysága révén saját számítógépes kapacitásukat tudják felhasználni igényes feladatokhoz, költséges fejlesztések nélkül. A csomag négy modulból áll: HDFS, YARN, MapReduce és Hadoop Common, mindegyik konkrét felhasználási esetekhez tervezett.

A Hadoop ereje abban rejlik, hogy okosan lehetővé teszi az egyének és a szervezetek számára, hogy meglévő számítógépes képességeiket egységes erővé egyesítsék, amely képes jelentős számítási kihívásokra. Hadoop nélkül ezek az entitások kénytelenek lennének egyre erősebb számítógépek beszerzésének költséges útjára lépni.

Hadoop felhasználási esetei

Most már tudjuk, mi a Hadoop. De hogyan érvényesülnek a felhasználási esetei valós világban? Egy programot papíron megérteni jó és szép, de soha nem helyettesítheti az annak lehetőségeit egy komolyabb műveleti felhasználásban. Ezért itt néhány példát adok, mielőtt rátérnénk a Hadoop oktatóanyagra.

Kockázatelemzés

Amint már említettük, a Hadoop lehetővé teszi több számítógépes rendszer erejét egyetlen hálózati egységként felhasználni, hogy hatékonyan feldolgozzon és gyorsabban elemezzen nagy mennyiségű adatot. Bármely vállalkozásnak kockázatai vannak, amelyeket meg kell elemezni és kiszámítani. A Hadoop rendkívül hasznos itt. Annyira, hogy számos hiteles kórház használja a különböző kezelések kockázatainak elemzésére és betegei műveleteinek lehetséges kimenetelének és statisztikájának meghatározására. Többet megtudhat a Hadoop egészségügyi szférában betöltött szerepéről itt.

Biztonsági behatolások felismerése

Ahogy nő a hálózat és az eszközök száma egy szervezetben, úgy szaporodnak a lehetséges biztonsági kockázatok is. A Hadoop egyik fő erőssége, hogy képes nagy adatmennyiségeket elemezni és azonosítani a rendszer gyenge pontjait.

Értékelés leképezése

Sok vállalat a termékeivel kapcsolatos felhasználói visszajelzésekre támaszkodik fejlesztéshez és piaci stratégiához. Míg egy ember hónapokat töltene egy nagy méretű visszajelzés-állomány feldolgozásával, a Hadoop elosztott feldolgozása sokkal gyorsabb eredményt hoz.

Piacelemzés

Az értékelések elemzése azonban eltörpül az új termék piaci potenciáljának felméréshez szükséges erőforrások mellett. Itt ismét a Hadoop ragyog: még kis, induló vállalatok is képesek több számítógép segítségével hatékonyan és reális időn belül értékelni a piacot.

Naplófájlok értékelése

A szervezetek növekedésével az alkalmazott szoftverek száma is nő, ami több potenciális hibaforrást teremt. A naplófájlok kezelése kézi módszerrel időigényes és erőforrás-pazarló. A Hadoop azonban segítségével egy szervezet gyorsan átvizsgálhat naplófájlokat, azonosíthat és elháríthat hibákat.

A Hadoopnak számos egyéb felhasználási módja és alkalmazása lehetséges, de a cikk fókuszában maradva nem térünk ki rájuk.

Hadoop architektúra áttekintése

Valószínűleg már hallottál a Hadoopról és annak felhasználási lehetőségeiről. Ha nem, ez a cikk segíthet abban. De ahhoz, hogy mélyebben megértsd, miből áll a Hadoop és hogyan működnek egyes részei együtt, részletesebb ismeretre lesz szükséged. A Hadoopnak négy fő rétege van: ebben a részben az HDFS-ről (Hadoop Distributed File System), a YARN-ról (Yet Another Resource Negotiator), a MapReduce-ról és a Hadoop Common-ról tanulunk. Mivel a Hadoop Common-nak nincs sok érdekes jellemzője, alapjait ismertnek tekintjük Zookeeper. Ebben a szakaszban megpróbálom leegyszerűsíteni a Hadoop architekturája és ökoszisztémájának négy részét, mielőtt rátérünk a Hadoop telepítésére az Ubuntu 20.04-en.

HDFS

A Hadoop ökoszisztémájában az HDFS a tárolórendszer, amelyet minden Hadoop alrendszer és alkalmazás használ az adatok kezeléséhez. Az HDFS Architektúra lényege, hogy szemben a Hadooppal (amely nyílt forráskódú), az HDFS az a fájlrendszer, amely egy Hadoop-fürt összes alapvető műveletét végzi. Az HDFS egy igen megbízható fájlrendszer, amely az adatokat 128 MB-os blokkokra osztja, és szekvenciális operációkra optimalizálja azokat.

Az HDFS Hadoop szoftverben betöltött elsődleges szerepe az adatok biztosítása egy teljes adatotorkként, amely különféle namenodes és másodlagos csomópontok segítségével szubszekcióra osztható az adatelemzéshez. Ezt követően használhatod a Journal rackeket, QJM, HA, fsimage és szerkesztési naplófájlokat, valamint a teljes legend naplót az adatok nyomon követésére és egyéb feladatok végrehajtására.

YARN

A YARN a Hadoop másik fő összetevője, amely a Hadoop ökoszisztémájában specifikus alkalmazásokhoz számítási erőforrások allokálására szolgál. Lényegében lehetővé teszi, hogy erőforrás-kezelőt használj az ügyfeleidnek az erőforrások különböző csomópontokon keresztüli elosztásához és különféle feladatokhoz rendeléséhez. A YARN-ban is van egy legend, amely az HDFS-hez hasonlóan segít nyomon követni az allokált erőforrásokat és műveleteket. A YARN három alrendszerre oszlik: a Resource Manager, az Application Master és a Node Manager.

Mindhárom alrendszer fürtönként, alkalmazásonként és csomópontonként létrehoz önmagáról egy-egy új példányt. A YARN-nal nem csak különféle feladatokhoz allokálhatsz erőforrásokat, hanem idővel megváltoztathatod azokat, fejlett algoritmikus munkafolyamatokat hozva létre. A YARN nem korlátozódik a saját alrendszereire; számos esetben használod majd az YARN-t az HDFS és a Zookeeper együtt az erőforrások allokálásához és az általános műveletek értékeléséhez.

Hadoop MapReduce

A Hadoop MapReduce a Hadoop ökoszisztémájának egy másik fő összetevője. Miután telepítetted a Hadoopot az Ubuntu-ra, ezzel a funkcióval nagy adatmennyiségeket tudsz elosztott módon feldolgozni több számítógépen. A Hadoop MapReduce úgy működik: nagy adathalmazt füztetsz a programba. Ez az adat feldarabolódik és elosztódik a hálózati számítógépek között. Ezt követően speciális protokollok (redukálók) segítségével az adatokat alapvető összetevőkre redukálják. Minden ilyen művelet egy Job-nak nevezzük.

Képzeld el, hogy van egy három szavas mondat, amely az a datamap, amelyet a MapReduce segítségével szeretnél elemezni. Legyen a mondat: Bear Hunt Rabbit. A Hadoop MapReduce ezt a mondatot három különböző kötegre bontja fel, mindegyikben egy szóval, majd ezeket a szavakat összekapcsolja más feladatokból származó hasonló adatokkal, hogy egy végső, homogenizált és könnyebben elemezhető adathalmazt hozzon létre.

Zookeeper

A Zookeeper a Hadoop ökoszisztémájának egy másik alrendszere, amely a Hadoop 2.0 verzióval vált széles körben ismertté. A Zookeeper fő feladata egyetlen Hadoop-instancián belül a különféle futó műveletek közötti koordináció. Ennek megfelelően a Zookeeper szinte mindig a YARN Resource Managere és az HDFS különféle funkciói mellett működik. Zookeeper elsődleges feladata ezekben a műveletekben a potenciális meghibásodások felderítése és orvosolása. Ehhez két különböző eszközt használ: a ZKFailoverController-t és a Zookeeper Quorumot.

Ezekben az eljárásokban a Hadoop architektúra egyéb összetevői által kezelt adatcsomópontok aktív namenodeokként vannak kategorizálva, amelyeket a felhasználó felügyel. Ezt követően mindegyik namenode átesik a Zookeeper két említett alrendszere által végzett ellenőrzésen. Ez azért szükséges, hogy azonosítsd a problémás területeket és a lehetséges meghibásodásokat.

Hadoop telepítése az Ubuntu 20.04-en – Lépésről lépésre útmutató

Végül, miután megismerkedtél a Hadoop architektúrával, itt az ideje a gyakorlati részre, vagyis hogy telepítsd a Hadoopot az Ubuntu 20.04-en ennek a Hadoop oktatóanyagnak az utolsó lépéseként. Megbeszéljük az előfeltételeket, mielőtt áttérnénk a Hadoop Ubuntu 20.04-en való telepítésének lépésről lépésre útmutatójára. Ne felejtsd el, hogy ez az útmutató az Ubuntu 18.04-hez is alkalmazható.

Előfeltételek

A Hadoop Ubuntu-re való telepítéséhez szükséges előfeltételek meglehetősen egyszerűek. Mindössze szükséged van egy Ubuntu-alapú számítógépre root hozzáféréssel, amelyet helyileg vagy távolról egy VPS szerver segítségével érhetsz el. Az előfeltétel-programokat illetően ügyelj rá, hogy már telepítve legyen az Java 11 és az SSH. Ha nincs, az alábbi parancsokat futtasd le egymás után:

sudo apt update && sudo apt upgrade -y
sudo apt install openssh-server openssh-client -y
sudo apt install openjdk-11-jdk -y

A licenc tekintetében nincs szükséged rá, mivel a Hadoop ingyenes és nyílt forráskódú. Ez minden, amire szükséged van. Lépjünk az első lépésre.

1. lépés: nem root felhasználó létrehozása Hadoophoz

Hozz létre egy nem-root felhasználót a Hadoophoz az alábbi parancs segítségével. Ez a Hadoop letöltése és telepítése előtti előzetes konfigurálás része:

sudo adduser hdoop
su - hdoop

2. lépés: SSH kulcsok beállítása

Most, hogy telepítsd a Hadoopot az Ubuntu-re, az éppen létrehozott Hadoop felhasználót fogjuk használni és egy SSH kapcsolatot hozunk létre vele. Használd ezt a parancsot egy SSH kulcspár generálásához és mentéséhez:

ssh-keygen -t rsa -P '' -f ~/.ssh/id_rsa

Miután a kulcsok generálódtak, a következő sor lehetővé teszi, hogy azokat authorized_keys és mentsd az SSH könyvtáradba:

cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys

Most ezzel a paranccsal ellenőrizd, hogy az SSH kapcsolatod minden szükséges jogosultsággal rendelkezik:

chmod 600 ~/.ssh/authorized_keys
chmod 700 ~/.ssh

Erősítse meg a módosításokat, és ezután bármikor könnyedén csatlakozhat az általad létrehozott felhasználóval a localhost-hoz:

ssh localhost

3. lépés: Hadoop letöltése és telepítése Ubuntu-en

Meglátogathatod a Apache Hadoop weboldalt ahol az összes elérhető verzió és a hozzájuk tartozó változásnaplók szerepelnek. Válaszd ki a neked tetsző verziót, majd egy linket kapsz, amellyel a következő parancs segítségével letöltheted és telepítheted a Hadoopot az Ubuntu-re. Én a 3.3.6 verziót választottam. Szükség esetén cseréld le a '3.3.6'-ot a legutóbbi stabil verzióra:

wget https://downloads.apache.org/hadoop/common/hadoop-3.3.6/hadoop-3.3.6.tar.gz

A letöltés után használd ezt a parancsot a kicsomagolás és telepítés befejezéséhez:

tar xzf hadoop-3.3.6.tar.gz
sudo mv hadoop-3.3.6 /usr/local/hadoop
sudo chown -R hdoop:hdoop /usr/local/hadoop

4. lépés: Hadoop környezet konfigurálása

Beállítás JAVA_HOME in /usr/local/hadoop/etc/hadoop/hadoop-env.sh:

echo 'export JAVA_HOME=$(readlink -f /usr/bin/java | sed "s:bin/java::")' | sudo tee -a /usr/local/hadoop/etc/hadoop/hadoop-env.sh

5. lépés: konfigurációs fájlok szerkesztése

Frissítsd a Hadoop XML konfigurációs fájljait a fürt beállításaival.

nano /usr/local/hadoop/etc/hadoop/core-site.xml

6. lépés: HDFS formázása

Inicializáld a Hadoop fájlrendszer névterét.

/usr/local/hadoop/bin/hdfs namenode -format

7. lépés: Hadoop szolgáltatások indítása

Indítsd el a HDFS és YARN szolgáltatásokat.

/usr/local/hadoop/sbin/start-dfs.sh
/usr/local/hadoop/sbin/start-yarn.sh

8. lépés: telepítés ellenőrzése

Ellenőrizd az Java futó folyamatait annak megerősítéséhez, hogy a Hadoop működik.

jps

9. lépés: webes felületek elérése

Nyiss meg böngészőket a Hadoop NameNode és ResourceManager felületeihez.

NameNode: http://localhost:9870
ResourceManager: http://localhost:8088

10. lépés: MapReduce példa futtatása

Futtass egy mintavételezési MapReduce feladatot a beállítás ellenőrzéséhez.

/usr/local/hadoop/bin/hdfs dfs -mkdir /input
/usr/local/hadoop/bin/hdfs dfs -put localfile.txt /input
/usr/local/hadoop/bin/hadoop jar
/usr/local/hadoop/share/hadoop/mapreduce/hadoop-mapreduce-examples-3.3.6.jar grep /input /output 'dfs[a-z.]+'
/usr/local/hadoop/bin/hdfs dfs -cat /output/*

11. lépés: környezeti változók beállítása

Hadoop hozzáadása bin és sbin könyvtárakat a rendszer PATH-jához.

echo 'export PATH=$PATH:/usr/local/hadoop/bin:/usr/local/hadoop/sbin' >> ~/.bashrc
source ~/.bashrc

Sikerült! Most már sikeresen konfigurálta és telepítette az Apache Hadoopot az Ubuntu 20.04-re!

Következtetés

Összefoglalva, a Hadoop telepítése az Ubuntu 20.04-re egy összetett folyamat, amely alapos figyelmet és nyitottságot igényel a beállítások részletei iránt. Az útmutatóban szereplő lépések követésével az Ubuntu felhasználók elindíthatják adatelemzési projektjeiket, és teljes mértékben kihasználhatják a Hadoop lehetőségeit.

Ha csak tanulás és játékozás a cél, akkor a Hadoopot egycsomópontos telepítésben futtatom. Erre egy VPS tökéletesen megfelel. Az Cloudzy számos lehetőséggel rendelkezik, Linux VPS szolgáltatások beleértve egy megbízható, Ubuntu VPS amely percek alatt konfigurálható és kiváló Hadoop tanulási platform. Már $4.95 havonta saját Ubuntu VPS-t kaphatsz több mint 12 helyszínnel és 24/7 ügyfélszolgálattal!

ubuntu-vps A nyilvánvaló választás

Az Linux-alapú kiszolgálók többsége Ubuntu-t használ; miért ne te? Fedezd fel, miért szeretik az Ubuntu-t, szerezz egy optimalizált Ubuntu VPS-t

Szerezd meg az Ubuntu VPS-t

Gyakran Ismételt Kérdések

Mik az HDFS és a MapReduce közötti különbségek?

Bár mindkét modul a Hadoop ökoszisztémában működik, eltérő feladatokat látnak el. A HDFS elosztott fájlrendszerként működik, amely az adathozzáférést lehetővé teszi. A MapReduce viszont nagy adattömbök feldolgozására és hatékony elemzésére specializálódott.

A Hadoopot adatbázisnak tekintik?

A Hadoop nem adatbázis, annak ellenére, hogy ez a tévhit gyakran felmerül. Inkább egy elosztott fájlrendszer, amely lehetővé teszi a nagy adattömbök tárolását és feldolgozását egy összekapcsolt számítógépekből álló hálózaton. Nem használható közvetlenül a hagyományos adatbázisrendszerek helyettesítésére.

Melyek a Hadoop négy elsődleges komponense?

A Hadoop négy alapvető összetevőből áll: HDFS (Hadoop Distributed File System), YARN (Yet Another Resource Negotiator), MapReduce és Hadoop Common. Egyes forrásanyagok a ZooKeepert is komponensként említik, bár az nem hivatalosan elismerve van.

Hol használják jellemzően a Hadoopot?

A Hadoop alkalmazásai széleskörűek azokban az esetekben, amikor nagy léptékű adatok kezelése, tárolása, feldolgozása és elemzése szükséges. Támogatja a közepes méretű vállalatok, kórházak és induló startupok működését, nyújtva adatvezérelt megoldásokat.

Megosztás

További bejegyzések a blogból

Folytass olvasást.

A MongoDB eredeti szimbóluma egy futurisztikus szerveren, amelyre a MongoDB telepítésének célja a Ubuntu+ szlogen arról, mire számítunk a cikkből + a cikk címe + Cloudzy márkalogologo
Adatbázisok és Analitika

Hogyan telepítsd a MongoDB-t a Ubuntu három legújabb verziójára (Lépésről lépésre)

Úgy döntöttél, hogy MongoDB-t használsz, amely kiváló alternatíva a MariaDB-hez MERN stack alkalmazások, analitikai platform vagy bármilyen dokumentum-alapú rendszer készítéséhez, de jó

Jim SchwarzJim Schwarz 12 perc olvasás
Intelligens adatkezelés vállalkozásának: Felhőalapú tárolás és biztonsági mentési stratégiák az VPS segítségével
Adatbázisok és Analitika

Intelligens adatkezelés vállalkozásának: Felhőalapú tárolás és biztonsági mentési stratégiák az VPS segítségével

A VPS az biztonságos üzleti adatkezeléshez az a stratégia, amelyet akkor ajánlok, amikor egy vállalat úgy dönt, hogy ideje abbahagyni a fájlok laptopok, e-mail mellékletek és félig elfelejtett mappák között való jugírozást.

Rexa CyrusRexa Cyrus 7 perces olvasás
Materializált nézet vagy nézet
Adatbázisok és Analitika

Materializált nézet vagy nézet: A szerepük az adatbázisokban

Az adatbázisrendszerekben a materializált nézet egy adatbázis-objektum, amely egy lekérdezés előre kiszámított eredményeit fizikai táblázatként tárolja. Mivel az adatok valójában lemezen vannak tárolva, az összetett

Ivy JohnsonIvy Johnson 7 perces olvasás

Készen áll az üzembe helyezésre? 2,48 dollártól havonta.

Független felhőszolgáltató 2008 óta. AMD EPYC, NVMe, 40 Gbps. 14 napos pénzvisszafizetési garancia.