50% korting alle plannen, beperkte tijd. Beginnend om $2.48/mo
Nog 13 minuten
Databases en analyses

Hoe Hadoop op Ubuntu te installeren: een uitgebreide handleiding

Pius Bodenmann By Pius Bodenmann 13 minuten lezen Bijgewerkt op 1 mei 2024
hoe hadoop op ubuntu linux te installeren

Tegenwoordig, zodra een bedrijf of elke activiteit waarbij computers betrokken zijn zodanig groeit dat er meer dan één computer nodig is, beginnen we onmiddellijk meerdere computers te gebruiken als onderdeel van een enkel netwerk om de werklast efficiënter aan te kunnen. Dit is in die mate gemeengoed geworden dat tegenwoordig bijna alle handelingen op gebieden als datawetenschap door deze netwerkcomputers worden uitgevoerd. Hoewel het uitvoeren van veeleisende computertaken op deze manier ongetwijfeld efficiënter is, is het ook ongelooflijk ingewikkeld, omdat u elke computer afzonderlijk moet configureren en vervolgens het hele netwerk moet beheren terwijl het uw taken uitvoert. Dit is waar programma's als Hadoop binnenkomen om de dag te redden.

Hadoop is een reeks tools en programma's die door Apache zijn uitgebracht en waarmee het hele netwerkproces van een aantal computers met veel meer efficiëntie en gemak kan worden uitgevoerd. Dus in dit artikel zal ik Hadoop bespreken, de gebruiksscenario's onderzoeken, de voor- en nadelen bespreken en een overzicht geven van de geavanceerde architectuur, voordat ik verder ga met een stapsgewijze handleiding over het installeren van Hadoop op Ubuntu 20.04 om deze Hadoop-tutorial uit 2024 af te ronden.

Wat is Apache Hadoop?

Hadoop, een pakket tools mogelijk gemaakt door Apache, transformeert de netwerkconfiguratie en het gebruik al meer dan 15 jaar. Gebruikers kunnen profiteren van de hulpbronnenefficiëntie van Hadoop, waardoor ze hun huidige rekenkracht kunnen benutten voor veeleisende taken zonder dat er dure upgrades nodig zijn. De suite bestaat uit vier modules: HDFS, YARN, MapReduce en Hadoop Common, elk ontworpen voor specifieke gebruiksscenario's.

De schittering van Hadoop ligt in zijn inherente vindingrijkheid, die zowel individuen als organisaties op slimme wijze in staat stelt hun bestaande computercapaciteiten te verenigen tot een samenhangende kracht die in staat is substantiële computeruitdagingen te overwinnen. Zonder de begeleiding van Hadoop zouden deze entiteiten zich gedwongen zien het kostbare streven te ondernemen om steeds krachtigere computermachines aan te schaffen.

Hadoop-gebruiksscenario's

Nu weten we wat Hadoop is. Maar hoe zijn de gebruiksscenario's precies van toepassing in de echte wereld? Het is leuk en aardig om een ​​programma op papier te begrijpen, maar het kan nooit in de plaats komen van het realiseren van de mogelijkheden ervan als onderdeel van een serieuze operatie. Dus hier zal ik enkele voorbeelden geven voordat ik verder ga met de Hadoop-tutorial.

Risico Analyse

Zoals eerder vermeld, kunt u met Hadoop de kracht van verschillende computersystemen benutten als onderdeel van een enkele netwerkeenheid om efficiënt batches met uitgebreide gegevens te verwerken en deze sneller dan normaal te analyseren. Bij elk bedrijf zijn er risico's die moeten worden geanalyseerd en berekend. Hadoop is hier uiterst handig. Zozeer zelfs dat veel geloofwaardige ziekenhuizen het gebruiken om de risico's van verschillende behandelingen te analyseren en de potentiële uitkomst en statistieken van hun operaties voor hun patiënten te vermoeden. Hier leest u meer over de revolutionaire rol van Hadoop in de gezondheidszorg.

Beveiligingsinbreuken detecteren

Naarmate het totale aantal netwerk- en gebruikte apparaten binnen een netwerk of bedrijf toeneemt, zijn er steeds meer potentiële inbreuken op de beveiliging waarmee u rekening moet houden. Een van de essentiële hulpprogramma's van Hadoop is het beoordelen van de gehele operatie door grote hoeveelheden gegevens te analyseren en potentiële pijnpunten van dat systeem te benadrukken.

Overzicht in kaart brengen

Veel bedrijven vertrouwen op de feedback die ze krijgen over hun producten om deze te verbeteren of nieuwe marktstrategieën te ontwikkelen. Terwijl een mens er eeuwen over doet om een ​​recensiebestand af te werken dat groot genoeg is, zal Hadoop zijn netwerkcomputermagie gebruiken om veel snellere resultaten op te leveren.

Marktanalyse

Over marktstrategieën gesproken: het bovengenoemde overzicht verbleekt in vergelijking met het aantal middelen dat nodig is om de markt te analyseren en het potentieel voor een gloednieuw product te beoordelen. Dit is een ander gebruiksscenario waarin Hadoop uitblinkt, omdat het zelfs kleine, opkomende bedrijven in staat stelt de markt efficiënt te evalueren met meerdere computers, binnen een efficiënt tijdsbestek en op een efficiënte manier.

Logbestanden beoordelen

Een ander aspect van bedrijven dat naarmate de tijd verstrijkt ingewikkelder wordt en steeds belangrijker wordt, is de hoeveelheid software die ze over de hele linie zullen gaan gebruiken. Het gebruik van steeds meer software veroorzaakt meer potentiële bugs en pijnpunten en vereist een toegewijde medewerker om de logbestanden te beheren en de problemen op te lossen. Dit zal veel tijd kosten, maar met behulp van een paar eenvoudige protocollen kan een bedrijf Hadoop gebruiken om snel logbestanden te bekijken en te beoordelen om deze bugs te vinden en te verwijderen.

Er zijn nog een heleboel andere Hadoop-gebruiksscenario's en -toepassingen, maar om de focus op het doel van dit artikel te houden, zullen we er niet verder op ingaan.

Hadoop-architectuuroverzicht

Laten we zeggen dat je hebt gehoord over Hadoop en de algemene gebruiksscenario's en wat het doet. En zelfs als je dat nog niet hebt gedaan, heeft dit artikel dat tot nu toe waarschijnlijk voor je gedaan. Maar nu moet je een diepgaand inzicht krijgen in waar Hadoop eigenlijk van gemaakt is en hoe elk onderdeel ervan werkt met zijn andere functies. Zoals eerder vermeld, zijn er vier algemene lagen van Hadoop; in dit deel van de Hadoop-tutorial gaan we meer leren over HDFS (Hadoop Distributed File System), YARN (Yet Another Resource Negotiator), MapReduce en Hadoop Common. Omdat Hadoop Common echter niet zoveel functies heeft die uitleg behoeven, staan ​​de essentie ervan bekend als Dierenverzorger. Dus in deze sectie zal ik proberen de geavanceerde Hadoop-architectuur en het ecosysteem en de vier secties ervan in basistermen samen te vatten, voordat ik uiteindelijk verder ga met het installeren van Hadoop op Ubuntu 20.04.

HDFS

HDFS in het Hadoop-ecosysteem vormt het algemene opslagsysteem dat alle Hadoop-subsecties en -applicaties gebruiken om gegevens te beoordelen, over te dragen en op te slaan. Het belangrijkste punt in HDFS Architecture is dat, in tegenstelling tot Hadoop zelf, een open-sourceprogramma, HDFS in Hadoop feitelijk het bestandssysteem is dat verantwoordelijk is voor het uitvoeren van alle onderliggende bewerkingen van een enkel Hadoop-cluster. HDFS is een ongelooflijk veerkrachtig bestandssysteem dat de gegevensbatches verdeelt in stukken van 128 MB en deze optimaliseert voor op reeksen gebaseerde bewerkingen.

De primaire rol van HDFS in Hadoop-software is om alle gegevens aan te bieden als onderdeel van een algemeen datarek, dat vervolgens via verschillende naamodes en secundaire rekken kan worden gemanipuleerd in subsecties voor het organiseren van uw gegevensanalyse. U kunt dan de andere opties gebruiken, zoals Journaalrekken, QJM, HA, fsimage en logbestanden bewerken en het algemene legendalogboek om andere taken bij te houden en uit te voeren.

GAREN

YARN is een andere uitvoerende tak van Hadoop die wordt gebruikt om gewenste hoeveelheden computermiddelen toe te wijzen aan specifieke applicaties binnen het Hadoop-ecosysteem. In wezen kunt u hiermee een resourcemanager voor uw klanten gebruiken om deze bronnen via een reeks verschillende knooppunten toe te wijzen aan verschillende taken en toepassingen. Er is ook een legenda in YARN, vergelijkbaar met die in HDFS, waarmee u al uw toegewezen activa en activiteiten kunt bijhouden. YARN zelf is onderverdeeld in drie subsecties: de Resource Manager, de Application Master en de Node Manager.

Elk van deze drie subsecties creëert respectievelijk een nieuw exemplaar van zichzelf per cluster, applicatie en knooppunt. Met YARN kunt u niet alleen bronnen aan verschillende taken toewijzen, maar u kunt ook plannen dat deze bronnen in de loop van de tijd veranderen om geavanceerde algoritmische workflows te bedenken. YARN is niet beperkt tot zijn subsectie. Er zullen veel gevallen zijn waarin u YARN zult gebruiken in combinatie met andere architectuurlagen zoals HDFS en Zookeeper om bronnen toe te wijzen en uw algehele werking te evalueren.

Hadoop Mapreduce

Hadoop MapReduce is een ander belangrijk onderdeel in het Hadoop-ecosysteem. Nadat u Hadoop op Ubuntu hebt geïnstalleerd, kunt u deze functie gebruiken om effectief een enorme hoeveelheid gegevens op gedistribueerde wijze door verschillende computers te laten analyseren. In essentie werkt Hadoop MapReduce als volgt: u voert een grote kaart met gegevens in het programma in. Deze gegevenskaart wordt geschud, opgesplitst en gedistribueerd over uw netwerkcomputers. Vervolgens worden de gegevens, met behulp van specifieke protocollen die bekend staan ​​als reducers, teruggebracht tot hun meest essentiële componenten en gereduceerd. Elk van deze bewerkingen staat bekend als een taak.

Stel dat u een zin van drie woorden heeft die fungeert als de gegevenskaart die u met MapReduce wilt analyseren. Laten we zeggen dat de zin Berenjacht Konijn is. Hadoop MapReduce zal deze zin opsplitsen en reduceren in drie verschillende batches, elk met één woord, en vervolgens deze woorden gebruiken en nieuwe combinaties maken met vergelijkbare gegevensinvoer van uw andere taken om een ​​uiteindelijke gehomogeniseerde gegevensbatch te creëren met verwijderde onnodige gegevens en die gemakkelijk kan worden geanalyseerd.

Dierenverzorger

Zookeeper is een andere subsectie van het Hadoop-ecosysteem die aanvankelijk op de voorgrond kwam en algemeen werd gebruikt met de release van Hadoop versie 2.0. Het belangrijkste servicepunt van Zookeeper is het coördineren tussen de verschillende bewerkingen die u uitvoert als onderdeel van één Hadoop-instantie. Als zodanig wordt Zookeeper bijna altijd gebruikt in combinatie met YARN's Resource Manager en de verschillende functies van HDFS in Hadoop. Het primaire gebruik van Zookeeper bij deze operaties is het detecteren en verhelpen van de potentiële faalpunten. Om dit te doen, gebruikt het twee verschillende tools: ZKFiloverControer en het Zookeeper Quorum.

In deze procedures worden de dataknooppunten die door andere componenten van de Hadoop-architectuur worden beheerd, gecategoriseerd als actieve naamodes, onder toezicht van de gebruiker. Vervolgens wordt elk van deze naamodes nauwkeurig onderzocht binnen de twee bovengenoemde onderafdelingen van de Dierenverzorger. Dit wordt gedaan om de probleemgebieden aan te wijzen en mogelijke mislukkingen te identificeren.

Installeer Hadoop op Ubuntu 20.04 – Stapsgewijze handleiding

En tot slot, na het leren over de Hadoop-architectuur, is het tijd om tot de kern van de zaak te komen, namelijk hoe je Hadoop op Ubuntu 20.04 installeert als het laatste deel van deze Hadoop-tutorial. Laten we de vereisten bespreken voordat we verder gaan met de stapsgewijze handleiding voor het installeren van Hadoop op Ubuntu 20.04. Houd er rekening mee dat deze handleiding ook voor Ubuntu 18.04 kan worden gebruikt.

Vereisten

De vereisten om Hadoop op Ubuntu te installeren zijn vrij eenvoudig. Het enige dat u nodig hebt, is een door Ubuntu aangedreven computer met root-toegang, lokaal beschikbaar of op afstand toegankelijk via een VPS-server. Wat de vereiste programma's betreft, zorg ervoor dat u Java 11 en SSH al hebt geïnstalleerd. Als u deze niet heeft, voert u de volgende opdrachten één voor één uit om ze te installeren:

sudo apt update && sudo apt upgrade -y
sudo apt install openssh-server openssh-client -y
sudo apt install openjdk-11-jdk -y

Wat de licentie betreft, die heb je niet nodig, aangezien Hadoop gratis en open source is. Dat is alles wat je nodig hebt. Laten we verder gaan met stap één.

Stap 1: Maak een niet-rootgebruiker voor Hadoop

Maak een niet-rootgebruiker voor uw Hadoop met behulp van de volgende opdracht. Dit maakt deel uit van de pre-configuraties die we moeten doen voordat we Hadoop daadwerkelijk downloaden en installeren:

sudo adduser hdoop
su - hdoop

Stap 2: SSH-sleutels instellen

Om Hadoop op Ubuntu te installeren, zullen we nu de Hadoop-gebruiker gebruiken die je zojuist hebt gemaakt en deze gebruiken om er een SSH-verbinding mee te maken. Gebruik deze opdracht om een ​​SSH-sleutelpaar te genereren en op te slaan:

ssh-keygen -t rsa -P '' -f ~/.ssh/id_rsa

Zodra de sleutels zijn gegenereerd, kunt u met deze volgende regel ze markeren als geautoriseerde_sleutels en sla ze op in uw SSH-directory:

cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys

Gebruik nu deze opdracht om ervoor te zorgen dat uw SSH-verbinding over alle vereiste machtigingen beschikt:

chmod 600 ~/.ssh/authorized_keys
chmod 700 ~/.ssh

Bevestig de wijzigingen en u kunt te allen tijde eenvoudig verbinding maken met uw localhost met de door u gemaakte gebruiker:

ssh localhost

Stap 3: Download en installeer Hadoop op Ubuntu

U kunt een bezoek brengen aan de Apache Hadoop-website om een ​​lijst met versies te zien met hun recente wijzigingslogboek. Selecteer de gewenste versie en u krijgt een link te zien die u met de volgende opdracht kunt gebruiken om Hadoop op Ubuntu te downloaden en te installeren. Hier kies ik versie 3.3.6. Vervang ‘3.3.6’ indien nodig door de nieuwste stabiele versie:

wget https://downloads.apache.org/hadoop/common/hadoop-3.3.6/hadoop-3.3.6.tar.gz

Zodra het downloaden is voltooid, gebruikt u deze regel om het extractie- en installatieproces te voltooien:

tar xzf hadoop-3.3.6.tar.gz
sudo mv hadoop-3.3.6 /usr/local/hadoop
sudo chown -R hdoop:hdoop /usr/local/hadoop

Stap 4: Configureer de Hadoop-omgeving

Set JAVA_HOME in /usr/local/hadoop/etc/hadoop/hadoop-env.sh:

echo 'export JAVA_HOME=$(readlink -f /usr/bin/java | sed "s:bin/java::")' | sudo tee -a /usr/local/hadoop/etc/hadoop/hadoop-env.sh

Stap 5: Configuratiebestanden bewerken

Update de XML-configuratiebestanden van Hadoop met uw clusterinstellingen.

nano /usr/local/hadoop/etc/hadoop/core-site.xml

Stap 6: Formatteer HDFS

Initialiseer de naamruimte van het Hadoop-bestandssysteem.

/usr/local/hadoop/bin/hdfs namenode -format

Stap 7: Start Hadoop Services

Start HDFS- en YARN-services.

/usr/local/hadoop/sbin/start-dfs.sh
/usr/local/hadoop/sbin/start-yarn.sh

Stap 8: Controleer de installatie

Controleer de actieve Java-processen om te bevestigen dat Hadoop actief is.

jps

Stap 9: Toegang tot webinterfaces

Open webbrowsers voor de NameNode- en ResourceManager-interfaces van Hadoop.

Naamknooppunt: http://localhost:9870
ResourceManager: http://localhost:8088

Stap 10: Voer een MapReduce-voorbeeld uit

Voer een voorbeeld van een MapReduce-taak uit om de installatie te valideren.

/usr/local/hadoop/bin/hdfs dfs -mkdir /input
/usr/local/hadoop/bin/hdfs dfs -put localfile.txt /input
/usr/local/hadoop/bin/hadoop jar
/usr/local/hadoop/share/hadoop/mapreduce/hadoop-mapreduce-examples-3.3.6.jar grep /input /output 'dfs[a-z.]+'
/usr/local/hadoop/bin/hdfs dfs -cat /output/*

Stap 11: Stel omgevingsvariabelen in

Hadoop's toevoegen bak En sbin mappen naar het systeemPATH.

echo 'export PATH=$PATH:/usr/local/hadoop/bin:/usr/local/hadoop/sbin' >> ~/.bashrc
source ~/.bashrc

En dat is het! Het is je zojuist gelukt om Apache Hadoop met succes te configureren en te installeren op Ubuntu 20.04!

Conclusie

Samenvattend is de installatie van Hadoop op Ubuntu 20.04 een grondig proces dat nauwgezette aandacht vereist en de bereidheid om de nuances van de installatie te verkennen. Door de stappen in deze handleiding te volgen, kunnen Ubuntu-gebruikers aan een transformatieve reis beginnen, waarbij ze gebruik maken van de substantiële mogelijkheden van Hadoop om het potentieel van hun data-analyseactiviteiten volledig te realiseren.

Mijn aanbeveling is om Hadoop te implementeren als een implementatie met één knooppunt met beperkte distributie als je er alleen maar mee wilt leren en ermee wilt spelen. Voor dit doel zal een VPS perfect voor u werken. Cloudzy biedt u een groot aantal verschillende Linux VPS-diensten inclusief een Ironclad, betrouwbaar Ubuntu-VPS die in een mum van tijd kan worden geconfigureerd om de perfecte Hadoop-leerspeeltuin voor u te worden. Vanaf $ 4,95 per maand kun je je eigen Ubuntu VPS krijgen met meer dan 12 locaties en 24/7 zorgzame ondersteuning!

ubuntu-vps De voor de hand liggende keuze

De meeste Linux-servers gebruiken Ubuntu; waarom jij niet? Ontdek waarom iedereen van Ubuntu houdt: ontvang een geoptimaliseerde Ubuntu VPS

Koop uw Ubuntu-VPS

Veelgestelde vragen

Wat zijn de verschillen tussen HDFS en MapReduce?

Hoewel beide modules zich in het Hadoop-ecosysteem bevinden, dienen ze verschillende doeleinden. HDFS functioneert als een gedistribueerd bestandssysteem, waardoor de toegankelijkheid van gegevens wordt vergemakkelijkt. Aan de andere kant blinkt MapReduce uit in het opsplitsen en efficiënt analyseren van grote gegevensbrokken.

Wordt Hadoop beschouwd als een database?

Hadoop is geen database, hoewel deze misvatting veel voorkomt. Het werkt eerder als een gedistribueerd bestandssysteem dat de opslag en verwerking van omvangrijke gegevens mogelijk maakt met behulp van een netwerk van onderling verbonden computers. Het mag niet worden gebruikt als directe vervanging voor een traditioneel databasesysteem.

Wat zijn de vier belangrijkste componenten van Hadoop?

Hadoop bestaat uit vier kerncomponenten: HDFS (Hadoop Distributed File System), YARN (Yet Another Resource Negotiator), MapReduce en Hadoop Common. Bovendien beschouwen sommige bronnen ZooKeeper als een onderdeel, hoewel het niet officieel als zodanig wordt erkend.

Waar wordt Hadoop doorgaans gebruikt?

Hadoop vindt toepassingen in verschillende domeinen waar het beheren, opslaan, verwerken en analyseren van grootschalige data essentieel is. Het richt zich op activiteiten variërend van middelgrote bedrijven en ziekenhuizen tot snelgroeiende startups en biedt datagestuurde oplossingen.

Deel

Meer van de blog

Blijf lezen.

Origineel symbool van MongoDB gepresenteerd op een futuristische server om MongoDB op Ubuntu+ te installeren slogan over wat u kunt verwachten van het artikel + titel van het artikel + Cloudzy-merklogo
Databases en analyses

MongoDB installeren op de drie nieuwste versies van Ubuntu (stap voor stap)

Dus je hebt besloten om MongoDB te gebruiken, een geweldig alternatief voor MariaDB voor het bouwen van een MERN-stack-app, een analyseplatform of een ander documentgebaseerd systeem, maar je bent tegen een muur aangelopen met goede o

Jim SchwarzJim Schwarz 12 minuten lezen
Slim gegevensbeheer voor uw bedrijf: ‘cloudachtige’ opslag- en back-upstrategieën met VPS
Databases en analyses

Slim gegevensbeheer voor uw bedrijf: ‘cloudachtige’ opslag- en back-upstrategieën met VPS

VPS voor veilig bedrijfsgegevensbeheer is de strategie die ik aanbeveel wanneer een bedrijf besluit dat het tijd is om te stoppen met het jongleren met bestanden op laptops, e-mailbijlagen en half vergeten bestanden.

Rex CyrusRex Cyrus 7 minuten lezen
Gematerialiseerde weergave versus weergave
Databases en analyses

Gematerialiseerde weergave versus weergave: inzicht in hun rol in databases

In databasesystemen slaat een gematerialiseerde weergave als een databaseobject de vooraf berekende resultaten van een zoekopdracht op als een fysieke tabel. Omdat de gegevens feitelijk op schijf worden opgeslagen, wordt dit ingewikkeld

Ivy JohnsonIvy Johnson 7 minuten lezen

Klaar om te implementeren? Vanaf $ 2,48/maand.

Onafhankelijke cloud, sinds 2008. AMD EPYC, NVMe, 40 Gbps. 14 dagen geld-terug-garantie.