50% kedvezmény minden terv, korlátozott idő. Kezdés: $2.48/mo
13 perc van hátra
Adatbázisok és elemzések

A Hadoop telepítése Ubuntun: Átfogó útmutató

Pius Bodenmann By Pius Bodenmann 13 perc olvasás Frissítve: 2024. május 1
hogyan kell telepíteni a hadoop-ot ubuntu linuxra

Manapság, amint egy vállalkozás vagy bármilyen számítógépes művelet olyan mértékben megnövekszik, hogy egynél több számítógépet igényel, azonnal több számítógépet is használunk egyetlen hálózat részeként, hogy hatékonyabban kezeljük a munkaterhelést. Ez olyannyira általánossá vált, hogy manapság szinte minden műveletet ezeken a hálózatba kapcsolt számítógépeken hajtanak végre olyan területeken, mint például az adattudomány. Bár kétségtelenül az igényes számítógépes feladatok végrehajtása hatékonyabb így, ugyanakkor hihetetlenül bonyolult is, mivel minden számítógépet egyedileg kell konfigurálnia, majd a teljes hálózatot kezelni kell a feladatok végrehajtása során. Itt jönnek be az olyan programok, mint a Hadoop, hogy megmentsék a napot.

A Hadoop az Apache által kiadott eszköz- és programcsomag, amely lehetővé teszi, hogy egy csomó számítógép hálózatba kapcsolásának teljes folyamatát sokkal hatékonyabban és könnyebben hajtsák végre. Ebben a cikkben tehát áttekintem a Hadoopot, megvizsgálom a használati eseteit, áttekintem az előnyeit és hátrányait, és áttekintést adok a fejlett architektúrájáról, mielőtt továbbmennék a Hadoop Ubuntu 20.04-re történő telepítésének lépésről lépésre történő útmutatójára a 2024-es Hadoop-oktatóanyag befejezéséhez.

Mi az Apache Hadoop?

A Hadoop, az Apache által hajtott eszközkészlet több mint 15 éve alakítja át a hálózat beállítását és használatát. A felhasználók kamatoztathatják a Hadoop erőforrás-hatékonyságát, lehetővé téve számukra, hogy jelenlegi számítási teljesítményüket nagy igénybevételt jelentő feladatokhoz hasznosítsák anélkül, hogy költséges frissítésekre lenne szükségük. A csomag négy modulból áll: HDFS, YARN, MapReduce és Hadoop Common, amelyek mindegyike speciális felhasználási esetekre készült.

A Hadoop ragyogása a benne rejlő találékonyságban rejlik, amely ügyesen felhatalmazza az egyéneket és a szervezeteket arra, hogy meglévő számítási képességeiket egy összetartó erővé egyesítsék, amely képes leküzdeni a jelentős számítási kihívásokat. A Hadoop útmutatása nélkül ezek az entitások kénytelenek lennének elkezdeni az egyre nagyobb teljesítményű számítástechnikai gépek beszerzésének költséges törekvését.

Hadoop használati esetek

Most már tudjuk, mi az a Hadoop. De hogyan érvényesülnek a felhasználási esetei a való világban? Egy programot papíron megérteni jó és jó, de soha nem helyettesíti a benne rejlő lehetőségek kiaknázását egy komoly művelet részeként. Tehát itt bemutatok néhány példát, mielőtt továbblépnék a Hadoop oktatóanyagra.

Kockázatelemzés

Amint már említettük, a Hadoop lehetővé teszi több számítógépes rendszer erejének kihasználását egyetlen hálózati egység részeként, hogy hatékonyan menjen végig kiterjedt adatokon, és a szokásosnál gyorsabban elemezze azokat. Minden vállalkozásnak vannak kockázatai, amelyek elemzést és számítást igényelnek. A Hadoop itt rendkívül hasznos. Olyannyira, hogy sok hiteles kórház használja fel a különféle kezelések kockázatainak elemzésére, és feltételezi, hogy milyen kimenetelű és statisztikái vannak a műtéteknek a páciensei számára. Itt tudhat meg többet a Hadoop forradalmi szerepéről az egészségügyben.

A biztonsági rések észlelése

Ahogy a hálózaton vagy vállalkozáson belül növekszik a hálózatok és a használt eszközök száma, egyre több lehetséges biztonsági incidensre kell figyelni. A Hadoop egyik alapvető segédprogramja a művelet egészének felmérése nagy mennyiségű adat elemzésével és a rendszer lehetséges fájdalmas pontjainak kiemelésével.

Tekintse át a Térképezést

Sok vállalkozás a termékeiről kapott értékelési visszajelzésekre támaszkodik, hogy javítsa azokat vagy új piaci stratégiákat dolgozzon ki. Míg az embernek sok időbe telik, amíg egy elég nagy áttekintési fájlt lefed, a Hadoop hálózatba kapcsolt számítógépes varázslatával sokkal gyorsabb eredményeket ér el.

Piacelemzés

Ha már a piaci stratégiákról beszélünk, a fent említett áttekintési feltérképezés elsápad a piac elemzéséhez szükséges erőforrások számához képest, hogy felmérjük egy vadonatúj termék piacra lépésének lehetőségét. Ez egy újabb felhasználási eset, ahol a Hadoop ragyog, mivel lehetővé teszi még a feltörekvő kisvállalkozások számára is, hogy több számítógéppel, hatékony időkeretben és módon, hatékonyan értékeljék a piacot.

Naplófájlok értékelése

A vállalkozások egy másik szempontja, amely az idő múlásával egyre bonyolultabbá válik, és egyre jelentősebbé válik, az a szoftver mennyisége, amelyet mindenhol használni fognak. Egyre több szoftver használata több potenciális hibát és fájdalompontot okoz, és elkötelezett alkalmazottra van szükség a naplófájlok kezeléséhez és a problémák kezeléséhez. Ez sok időt vesz igénybe, de néhány egyszerű protokoll használatával a vállalkozások a Hadoop segítségével gyorsan áttekinthetik és értékelhetik a naplófájlokat, hogy megtalálják ezeket a hibákat és megszabaduljanak tőlük.

Rengeteg más Hadoop használati eset és alkalmazás létezik, de annak érdekében, hogy továbbra is a cikk céljára összpontosítsunk, nem tárgyaljuk tovább.

Hadoop architektúra áttekintése

Tegyük fel, hogy hallott már a Hadoopról és általános használati eseteiről, és arról, hogy mit csinál. És még ha nem is, ez a cikk valószínűleg ezt tette eddig. De most alaposan meg kell értenie, hogy valójában miből is áll a Hadoop, és hogyan működnek egyes részei a többi funkciójával. Mint korábban említettük, a Hadoopnak négy általános rétege van; a Hadoop oktatóanyag ezen részében többet fogunk megtudni a HDFS-ről (Hadoop Distributed File System), a YARN-ről (egy újabb erőforrás-tárgyaló), a MapReduce-ról és a Hadoop Commonról. Mivel azonban a Hadoop Common nem rendelkezik annyi magyarázatra szoruló funkcióval, a lényege az Állatkert gondozója. Tehát ebben a részben megpróbálom összefoglalni a fejlett Hadoop architektúrát és ökoszisztémát, valamint annak négy részét alapvetően, mielőtt végül rátérnék a Hadoop telepítésére az Ubuntu 20.04-re.

HDFS

A HDFS a Hadoop ökoszisztémában azt a teljes tárolórendszert alkotja, amelyet az összes Hadoop alszakasz és alkalmazás az adatok értékelésére, átvitelére és mentésére használ. A HDFS Architecture fő pontja az, hogy magával a Hadoop-pal, egy nyílt forráskódú programmal ellentétben, a Hadoop HDFS valójában az egyetlen Hadoop-fürt összes mögöttes műveletének futtatásáért felelős fájlrendszer. A HDFS egy hihetetlenül rugalmas fájlrendszer, amely 128 MB-os darabokra osztja az adatkötegeket, és optimalizálja azokat a szekvencia alapú műveletekhez.

A HDFS elsődleges szerepe a Hadoop szoftverben, hogy az összes adatot egy átfogó adatállvány részeként biztosítsa, amelyet aztán különböző névcsomópontokon és másodlagos rackeken keresztül alszakaszokra lehet manipulálni az adatelemzési művelet megszervezéséhez. Ezután használhatja a többi lehetőséget, például a naplóállványokat, a QJM-et, a HA-t, az fsimage-et és a naplófájlok szerkesztését, valamint a teljes jelmagyarázat naplóját az egyéb feladatok nyomon követésére és végrehajtására.

FONAL

A YARN a Hadoop egy másik végrehajtó ága, amelyet arra használnak, hogy a számítási eszközök kívánt mennyiségét hozzárendeljék a Hadoop ökoszisztémán belüli meghatározott alkalmazásokhoz. Lényegében lehetővé teszi, hogy erőforrás-kezelőt használjon ügyfelei számára, hogy ezeket az erőforrásokat különböző csomópontokon keresztül lefoglalja a különböző feladatokhoz és alkalmazásokhoz. A YARN-ben van egy legenda is, amely a HDFS-hez hasonlóan lehetővé teszi az összes kiosztott eszköz és művelet nyomon követését. Maga a YARN három alszakaszra oszlik: az Erőforráskezelőre, az Alkalmazásmesterre és a Csomópontkezelőre.

E három alszakasz mindegyike fürtönként, alkalmazásonként és csomópontonként hoz létre egy új példányt. A YARN segítségével nemcsak erőforrásokat oszthat ki a különböző feladatokhoz, hanem ütemezheti is, hogy ezek az erőforrások idővel változzanak, hogy fejlett algoritmikus munkafolyamatokat állítsanak elő. A YARN nem korlátozódik az alszakaszára, sok esetben a YARN-t más építészeti rétegekkel, például a HDFS-sel és a Zookeeperrel együtt fogja használni az erőforrások elosztására és az általános működés értékelésére.

Hadoop Mapreduce

A Hadoop MapReduce a Hadoop ökoszisztéma másik fontos összetevője. Miután telepítette a Hadoop-ot az Ubuntu-ra, ezzel a funkcióval hatékonyan elérheti, hogy hatalmas adathalmazt elemezzenek elosztott módon több különböző számítógépen. Lényegében a Hadoop MapReduce így működik: egy nagy adattérképet visz be a programba. Ezt az adattérképet a rendszer megkeveri, lebontja és szétosztja a hálózatba kapcsolt számítógépeken. Ezt követően a reduktorok néven ismert protokollok segítségével az adatokat a legfontosabb összetevőkre forralják, és redukálják. Ezen műveletek mindegyike munkaként ismert.

Tegyük fel, hogy van egy háromszavas mondata, amely a MapReduce segítségével elemezni kívánt adattérképként működik. Tegyük fel, hogy a mondat Medvevadász nyúl. A Hadoop MapReduce ezt a mondatot három különböző, egy szóval rendelkező kötegre bontja és redukálja, majd használja ezeket a szavakat, és új kombinációkat készít a többi feladat hasonló adatbevitelével, hogy létrehozzon egy végső homogenizált adatköteget, amely eltávolította a szükségtelen adatokat, és könnyen elemezhető.

Állatkert gondozója

A Zookeeper a Hadoop ökoszisztéma egy másik alszakasza, amely kezdetben a Hadoop 2.0-s verziójának megjelenésével került előtérbe és általános használatba. A Zookeeper fő szolgáltatási pontja az egyetlen Hadoop-példány részeként futtatott különböző műveletek összehangolása. Mint ilyen, a Zookeepert szinte mindig a YARN erőforrás-kezelőjével és a HDFS különböző funkcióival együtt használják a Hadoopban. A Zookeeper elsődleges célja ezekben a műveletekben a lehetséges meghibásodási pontok észlelése és orvoslása. Ehhez két különböző eszközt használ: a ZKFiloverControert és a Zookeeper Quorumot.

Ezekben az eljárásokban a Hadoop architektúra egyéb összetevői által kezelt adatcsomópontok aktív névcsomópontokként vannak besorolva, amelyeket a felhasználó felügyel. Ezt követően ezeknek a névcsomópontoknak mindegyike vizsgálaton esik át az Állatkert fent említett két alszakaszában. Ennek célja a nehézségi területek azonosítása és a lehetséges hibák azonosítása.

Telepítse a Hadoop-ot az Ubuntu 20.04-re – lépésről lépésre

És végül, miután megismerte a Hadoop architektúrát, ideje rátérni a dolog húsára, vagyis a Hadoop telepítésére az Ubuntu 20.04-re, a Hadoop oktatóanyag utolsó részeként. Tekintsük át az előfeltételeket, mielőtt továbblépnénk a Hadoop Ubuntu 20.04-re történő telepítésének lépésenkénti útmutatójához. Ne feledje, hogy ez az útmutató az Ubuntu 18.04-hez is használható.

Előfeltételek

A Hadoop Ubuntu telepítéséhez szükséges előfeltételek meglehetősen egyszerűek. Mindössze egy Ubuntu-alapú számítógépre van szüksége root hozzáféréssel, akár helyben, akár távolról elérhető VPS-kiszolgálón keresztül. Az előfeltétel programokkal kapcsolatban győződjön meg arról, hogy a Java 11 és az SSH már telepítve van. Ha nem rendelkezik ilyenekkel, futtassa egyenként a következő parancsokat a telepítésükhöz:

sudo apt update && sudo apt upgrade -y
sudo apt install openssh-server openssh-client -y
sudo apt install openjdk-11-jdk -y

Ami a licencet illeti, nincs szüksége rá, mivel a Hadoop ingyenes és nyílt forráskódú. Ez minden, amire szüksége van. Térjünk át az első lépésre.

1. lépés: Hozzon létre nem root felhasználót a Hadoop számára

Hozzon létre egy nem root felhasználót a Hadoop számára a következő paranccsal. Ez a Hadoop tényleges letöltése és telepítése előtt elvégzendő előzetes konfigurációk része:

sudo adduser hdoop
su - hdoop

2. lépés: Az SSH kulcsok beállítása

Most a Hadoop Ubuntu telepítéséhez az imént létrehozott Hadoop-felhasználót fogjuk használni, és ezzel SSH-kapcsolatot létesítünk vele. Ezzel a paranccsal generálhat egy SSH kulcspárt és mentheti el:

ssh-keygen -t rsa -P '' -f ~/.ssh/id_rsa

A kulcsok létrehozása után ez a következő sor lehetővé teszi, hogy megjelölje őket engedélyezett_kulcsok és mentse el őket az SSH-könyvtárába:

cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys

Most ezzel a paranccsal győződjön meg arról, hogy az SSH-kapcsolat rendelkezik az összes szükséges engedéllyel:

chmod 600 ~/.ssh/authorized_keys
chmod 700 ~/.ssh

Erősítse meg a változtatásokat, és bármikor könnyedén csatlakozhat a helyi kiszolgálóhoz az Ön által létrehozott felhasználóval:

ssh localhost

3. lépés: Töltse le és telepítse a Hadoop-ot az Ubuntu-ra

Meglátogathatja a Apache Hadoop webhely a verziók listájának megtekintéséhez a legutóbbi változásnaplójukkal együtt. Válassza ki a kívánt verziót, és megjelenik egy hivatkozás, amely a következő paranccsal használható a Hadoop letöltéséhez és telepítéséhez az Ubuntu rendszeren. Itt a 3.3.6-os verziót választom. Ha szükséges, cserélje ki a „3.3.6”-ot a legújabb stabil verzióra:

wget https://downloads.apache.org/hadoop/common/hadoop-3.3.6/hadoop-3.3.6.tar.gz

A letöltés befejezése után használja ezt a sort a kibontási és telepítési folyamat befejezéséhez:

tar xzf hadoop-3.3.6.tar.gz
sudo mv hadoop-3.3.6 /usr/local/hadoop
sudo chown -R hdoop:hdoop /usr/local/hadoop

4. lépés: A Hadoop-környezet konfigurálása

Készlet JAVA_HOME in /usr/local/hadoop/etc/hadoop/hadoop-env.sh:

echo 'export JAVA_HOME=$(readlink -f /usr/bin/java | sed "s:bin/java::")' | sudo tee -a /usr/local/hadoop/etc/hadoop/hadoop-env.sh

5. lépés: Szerkessze a konfigurációs fájlokat

Frissítse a Hadoop XML konfigurációs fájljait a fürt beállításaival.

nano /usr/local/hadoop/etc/hadoop/core-site.xml

6. lépés: Formázza meg a HDFS-t

Inicializálja a Hadoop fájlrendszer névterét.

/usr/local/hadoop/bin/hdfs namenode -format

7. lépés: Indítsa el a Hadoop Services szolgáltatást

Indítsa el a HDFS és YARN szolgáltatásokat.

/usr/local/hadoop/sbin/start-dfs.sh
/usr/local/hadoop/sbin/start-yarn.sh

8. lépés: Ellenőrizze a telepítést

Ellenőrizze a futó Java folyamatokat, hogy megbizonyosodjon arról, hogy a Hadoop fut.

jps

9. lépés: Hozzáférés a webes felületekhez

Nyissa meg a webböngészőket a Hadoop NameNode és ResourceManager felületéhez.

NameNode: http://localhost:9870
ResourceManager: http://localhost:8088

10. lépés: Futtasson egy MapReduce példát

A beállítás érvényesítéséhez hajtson végre egy minta MapReduce feladatot.

/usr/local/hadoop/bin/hdfs dfs -mkdir /input
/usr/local/hadoop/bin/hdfs dfs -put localfile.txt /input
/usr/local/hadoop/bin/hadoop jar
/usr/local/hadoop/share/hadoop/mapreduce/hadoop-mapreduce-examples-3.3.6.jar grep /input /output 'dfs[a-z.]+'
/usr/local/hadoop/bin/hdfs dfs -cat /output/*

11. lépés: Állítsa be a környezeti változókat

Adja hozzá a Hadoop-ot bin és sbin könyvtárakat a PATH rendszerhez.

echo 'export PATH=$PATH:/usr/local/hadoop/bin:/usr/local/hadoop/sbin' >> ~/.bashrc
source ~/.bashrc

És ennyi! Most sikerült sikeresen konfigurálnia és telepítenie az Apache Hadoop-ot az Ubuntu 20.04-re!

Következtetés

Összefoglalva, a Hadoop telepítése az Ubuntu 20.04-re egy alapos folyamat, amely aprólékos figyelmet és készséget igényel a beállítás árnyalatainak feltárására. Az ebben az útmutatóban ismertetett lépések betartásával az Ubuntu-felhasználók átalakuló útra indulhatnak, kihasználva a Hadoop jelentős képességeit, hogy teljes mértékben kihasználhassák adatelemzési tevékenységeikben rejlő lehetőségeket.

Azt javaslom, hogy telepítse a Hadoop-ot egycsomópontos központi telepítésként, korlátozott terjesztéssel, ha csak tanulni és játszani kíván vele. Erre a célra a VPS tökéletesen működik az Ön számára. A Cloudzy számos különféle lehetőséget kínál Linux VPS szolgáltatások köztük egy vaskalapos, megbízható Ubuntu VPS amely pillanatok alatt konfigurálható, hogy a tökéletes Hadoop tanulási játszótér legyen az Ön számára. Már havi 4,95 dollártól kezdve megkaphatja saját Ubuntu VPS-jét, több mint 12 hellyel és a hét minden napján, 24 órában elérhető támogatással!

ubuntu-vps A nyilvánvaló választás

A Linux által futtatott szerverek többsége Ubuntut használ; miért nem te? Fedezze fel, miért szereti mindenki az Ubuntut – szerezzen be egy optimalizált Ubuntu VPS-t

Szerezze be az Ubuntu VPS-t

GYIK

Mi a HDFS és a MapReduce közötti különbség?

Bár mindkét modul a Hadoop ökoszisztémában található, eltérő célokat szolgálnak. A HDFS elosztott fájlrendszerként működik, megkönnyítve az adatok hozzáférhetőségét. Másrészt a MapReduce kiválóan alkalmas nagy adattömbök lebontására és hatékony elemzésére.

A Hadoop adatbázisnak tekinthető?

A Hadoop nem adatbázis, bár ez a tévhit gyakori. Inkább elosztott fájlrendszerként működik, amely lehetővé teszi nagy mennyiségű adatok tárolását és feldolgozását összekapcsolt számítógépek hálózatán keresztül. Nem szabad a hagyományos adatbázisrendszer közvetlen helyettesítésére használni.

Mi a Hadoop négy fő összetevője?

A Hadoop négy alapvető összetevőből áll: HDFS (Hadoop Distributed File System), YARN (Yet Another Resource Negotiator), MapReduce és Hadoop Common. Ezenkívül egyes források a ZooKeeper-t alkotóelemnek tekintik, bár hivatalosan nem ismerik el.

Hol használják általában a Hadoop-ot?

A Hadoop különféle területeken talál alkalmazásokat, ahol elengedhetetlen a nagyméretű adatok kezelése, tárolása, feldolgozása és elemzése. A középvállalkozásoktól és a kórházaktól a feltörekvő induló vállalkozásokig terjedő műveleteket szolgál ki, adatvezérelt megoldásokat kínálva.

Részesedés

Továbbiak a blogból

Olvass tovább.

A MongoDB eredeti szimbóluma futurisztikus szerveren bemutatva a MongoDB Ubuntu+ rendszerre történő telepítéséhez, arról, hogy mit várhatunk a cikktől + a cikk címe + Cloudzy márkalogó
Adatbázisok és elemzések

A MongoDB telepítése az Ubuntu három legújabb verziójára (lépésről lépésre)

Tehát úgy döntött, hogy a MongoDB-t, a MariaDB nagyszerű alternatíváját használja MERN verem alkalmazás, elemző platform vagy bármilyen dokumentum alapú rendszer felépítéséhez, de jóval falba ütközött.

Jim SchwarzJim Schwarz 12 perc olvasás
Intelligens adatkezelés vállalkozása számára: „Felhőszerű” tárolási és biztonsági mentési stratégiák VPS-sel
Adatbázisok és elemzések

Intelligens adatkezelés vállalkozása számára: „Felhőszerű” tárolási és biztonsági mentési stratégiák VPS-sel

A VPS a biztonságos üzleti adatkezeléshez az a stratégia, amelyet akkor ajánlok, amikor egy vállalat úgy dönt, hogy ideje abbahagyni a zsonglőrködést a laptopok, e-mail mellékletek és félig elfelejtett fájlokkal.

Rexa CyrusRexa Cyrus 7 perc olvasás
Materializált nézet vs. nézet
Adatbázisok és elemzések

Materializált nézet kontra nézet: Az adatbázisokban betöltött szerepük megértése

Az adatbázis-rendszerekben a materializált nézet adatbázis-objektumként fizikai táblaként tárolja a lekérdezés előre kiszámított eredményeit. Mivel az adatok valójában lemezen vannak tárolva, ez bonyolult

Ivy JohnsonIvy Johnson 7 perc olvasás

Készen áll a telepítésre? 2,48 USD/hó-tól.

Független felhő, 2008 óta. AMD EPYC, NVMe, 40 Gbps. 14 napos pénzvisszafizetés.