50% rabat alle planer, begrænset periode. Fra kun $2.48/mo
13 min tilbage
Databaser og Analytics

Sådan installeres Hadoop på Ubuntu: En komplet guide

Pius Bodenmann By Pius Bodenmann 13 min læsning Opdateret 1. maj 2024
sådan installeres hadoop på ubuntu linux

I dag er situationen sådan, at når en virksomhed eller enhver operation med computere vokser til det punkt, hvor der kræves mere end én computer til håndtering, starter vi straks med at bruge flere computere som en del af et enkelt netværk for mere effektivt at håndtere arbejdsbyrden. Dette er blevet så almindeligt, at næsten alle operationer inden for områder som datascience nu udføres af disse netværksforbundne computere. Selvom det uden tvivl er mere effektivt at udfører krævende computeropgaver på denne måde, er det også utrolig kompliceret, da du skal konfigurere hver computer individuelt og derefter administrere hele netværket, mens det arbejder på dine opgaver. Det er her, programmer som Hadoop kommer til undsætning.

Hadoop er en pakke af værktøjer og programmer udgivet af Apache, der gør det langt nemmere og mere effektivt at netværkssamle computere. I denne artikel gennemgår jeg Hadoop, dets use cases, fordele og ulemper, og giver et overblik over dets avancerede arkitektur, før jeg fører dig gennem en trin-for-trin installation af Hadoop på Ubuntu 20.04 i denne Hadoop-guide fra 2024.

Hvad er Apache Hadoop?

Hadoop, en værktøjspakke fra Apache, har transformeret netværksopsætning og udnyttelse i over 15 år. Brugere kan drage fordel af Hadoops ressourceeffektivitet, hvilket giver dem mulighed for at arbejde med krævende opgaver uden dyre hardwareOpgraderinger. Pakken består af fire moduler: HDFS, YARN, MapReduce og Hadoop Common, hver designet til særlige formål.

Styrken ved Hadoop ligger i dets evne til at kombinere eksisterende computerressourcer til en samlet kraft, der kan løse store beregningsopgaver. Uden Hadoop ville organisationer være tvunget til at investere i stadig dyrere computersystemer.

Hadoop-use cases

Nu ved vi hvad Hadoop er. Men hvordan bruges det i praksis? At forstå et værktøj på papiret er fint, men intet kan erstatte at se det i handling i virkelige operationer. Her er nogle konkrete eksempler, før vi går videre til Hadoop-guiden.

Risikovurdering

Som nævnt giver Hadoop dig mulighed for at samle flere computere i ét netværk og behandle store datamængder hurtigt. For enhver virksomhed er der risici, der skal analyseres. Hadoop er praktisk her. Faktisk bruger mange store hospitaler det til at analysere behandlingsrisici og forudsige resultater for deres patienter. Du kan læse mere om Hadoops vigtige rolle inden for sundhedsvæsen her.

Opdagelse af sikkerhedsbrud

Jo flere enheder og netværksforbindelser, der bruges i en virksomheds netværk, desto flere potentielle sikkerhedsrisici skal du være opmærksom på. En af Hadobps vigtigste funktioner er at analysere hele driften ved at behandle store datamængder og identificere systemets svage punkter.

Anmeldelsestilknytning

Mange virksomheder bruger kundeanmeldelser til at forbedre deres produkter eller udvikle nye markedsstrategier. Mens en person ville bruge evigheder på at gennemgå en stor samling af anmeldelser, kan Hadoop behandle det meget hurtigere ved at fordele arbejdet på flere computere.

Markedsanalyse

Når det handler om markedsstrategier, er analysen af anmeldelser faktisk ganske lille sammenlignet med den indsats, der kræves for at vurdere et marked og undersøge potentialet for et helt nyt produkt. Her glimrer Hadoop igen, fordi det gør det muligt for selv små, opstartende virksomheder effektivt at evaluere markedet ved at bruge flere computere inden for en rimelig tidsramme.

Analyse af logfiler

Jo større en virksomhed bliver, desto mere kompliceret bliver det at håndtere den software-stak, den bruger på tværs af hele organisationen. Flere applikationer betyder flere fejl og problemer, og kræver en dedikeret person til at administrere logfiler og håndtere problemer. Det tager meget tid, men med Hadoop kan virksomheder hurtigt gennemgå og analysere logfiler, finde fejl og eliminere dem.

Der er mange andre brugssager for Hadoop, men for at holde fokus på artikelens formål nævner vi ikke flere her.

Hadoop-arkitektur: oversigt

Lad os sige, du allerede har hørt om Hadoop, hvad det bruges til, og hvad det gør. Eller hvis ikke, har denne artikel forhåbentlig givet dig det overblik nu. Men for virkelig at forstå hvad Hadoop består af, og hvordan hver del fungerer sammen, skal du grave dybere. Som nævnt består Hadoop af fire overordnede lag. I denne del af guiden lærer vi om HDFS (Hadoop Distributed File System), YARN (Yet Another Resource Negotiator), MapReduce og Hadoop Common. Da Hadoop Common ikke har så mange funktioner, der skal forklares, kaldes det kernenavn Zookeeper. I dette afsnit vil jeg forklare Hadoops avancerede arkitektur, økosystem og dets fire dele i simple termer, før vi går videre til installation af Hadoop på Ubuntu 20.04.

HDFS

HDFS er lagringssystemet i Hadoop-økosystemet, som alle Hadoops undermoduler og applikationer bruger til at læse, overføre og gemme data. Det vigtigste ved HDFS Architecture er, at HDFS (i modsætning til Hadoop selv, som er open-source) er filsystemet, der driver alle operationerne i en Hadoop-klynge. HDFS er et meget pålideligt filsystem, der opdeler data i 128 MB chunks og optimerer dem til sekvensbaserede operationer.

HDFs primære rolle i Hadoop-software er at levere alle data som del af en samlet datastruktur, som derefter kan manipuleres via forskellige namenodes og racks og bruges til at organisere dine dataanalyseoperationer. Du kan derefter bruge andre muligheder som Journal racks, QJM, HA, fsimage og edit log-filer samt det overordnede log til at holde styr på og udføre andre opgaver.

YARN

YARN er en anden vigtig del af Hadoop, som bruges til at tildele computerkraft til specifikke applikationer i Hadoop-økosystemet. Kort sagt giver det dig mulighed for at bruge en ressourcestyring til at fordele ressourcer via forskellige noder til forskellige opgaver og applikationer. Som i HDFS findes der også en log i YARN, der holder styr på dine tildelte ressourcer og operationer. YARN selv består af tre dele: Resource Manager, Application Master og Node Manager.

Hver af disse tre dele opretter en ny instans per klynge, applikation og node. Med YARN kan du ikke kun tildele ressourcer til forskellige opgaver, men også planlægge dem til at ændre sig over tid for at opnå avancerede arbejdsflows. YARN er ikke begrænset til sin egen del. Der vil være mange situationer, hvor du bruger YARN sammen med andre arkitekturlag som HDFS og Zookeeper til at tildele ressourcer og evaluere din overordnede operation.

Hadoop MapReduce

Hadoop MapReduce er en anden vigtig komponent i Hadoop-økosystemet. Når du installerer Hadoop på Ubuntu, kan du bruge denne funktion til effektivt at analysere enorme datamængder fordelt på flere computere. Hadoop MapReduce fungerer sådan her: du inputter en stor datamængde i programmet. Denne data distribueres derefter på tværs af dine netværkscomputere, bliver opdelt og omblandet. Derefter bruger reducers specielle protokoller til at koncentrere data til deres vigtigste komponenter. Hver af disse operationer kaldes et Job.

Forestil dig, at du har en tre-ords sætning, som du vil analysere med MapReduce. Lad os sige sætningen er "Bjørn Jagt Kanin". Hadoop MapReduce deler sætningen op i tre separate batches med et ord hver, kombinerer disse ord med lignende data fra dine andre jobs, og opretter derefter en endeligt datafil med fjernet unødvendige data, som nemt kan analyseres.

Zookeeper

Zookeeper er en anden del af Hadoop-økosystemet, som blev populær med udgivelsen af Hadoop version 2.0. Zookeepers formål er at koordinere mellem de forskellige operationer, du kører som del af en enkelt Hadoop-instans. Derfor bruges Zookeeper næsten altid sammen med YARN's Resource Manager og HDFs forskellige funktioner. Zookeepers hovedbrug er at opdage og reparere potentielle fejlpunkter. Til dette bruger det to værktøjer: ZKFailoverController og Zookeeper Quorum.

I disse processer kategoriseres datanodes, der administreres af andre komponenter i Hadoop-arkitekturen, som aktive namenodes under brugersyn. Hver af disse namenodes gennemgår derefter kontrol inden for de to nævnte dele af Zookeeper. Dette gøres for at identificere problemområder og opdage potentielle fejl.

Installer Hadoop på Ubuntu 20.04 – trin for trin guide

Nu er det efter at have lært om Hadoop-arkitekturen tid til at komme til sagen: hvordan man installerer Hadoop på Ubuntu 20.04 som den sidste del af denne Hadoop-guide. Lad os først dække de grundlæggende krav, før vi går videre til trin-for-trin guiden til at installere Hadoop på Ubuntu 20.04. Bemærk, at denne guide også kan bruges til Ubuntu 18.04.

Forudsætninger

De grundlæggende krav for at installere Hadoop på Ubuntu er enkle. Du har brug for en Ubuntu-computer med root-adgang, enten lokalt eller fjernadgang via en VPS-server. Hvad angår programkrav, skal du sikre dig, at du allerede har Java 11 og SSH installeret. Hvis du ikke gør det, skal du køre følgende kommandoer en ad gangen for at installere dem:

sudo apt update && sudo apt upgrade -y
sudo apt install openssh-server openssh-client -y
sudo apt install openjdk-11-jdk -y

Hvad angår licenser, behøver du ingen, da Hadoop er gratis og open-source. Det er alt, du har brug for. Lad os gå videre til trin et.

Trin 1: Opret ikke-root-bruger til Hadoop

Opret en ikke-root-bruger til din Hadoop-installation med følgende kommando. Dette er en del af de forudkonfigurationer, vi skal foretage, før vi rent faktisk downloader og installerer Hadoop:

sudo adduser hdoop
su - hdoop

Trin 2: Konfigurer SSH-nøgler

For at installere Hadoop på Ubuntu skal vi nu bruge den Hadoop-bruger, du lige har oprettet, og bruge den til at oprette en SSH-forbindelse. Brug denne kommando til at generere et SSH-nøglepar og gem det:

ssh-keygen -t rsa -P '' -f ~/.ssh/id_rsa

Når nøglerne er genereret, vil denne kommando gøre det muligt at markere dem som authorized_keys og gemme dem i din SSH-mappe:

cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys

Kør nu denne kommando for at sikre, at din SSH-forbindelse har alle de nødvendige tilladelser:

chmod 600 ~/.ssh/authorized_keys
chmod 700 ~/.ssh

Bekræft ændringerne, og du vil være i stand til nemt at forbinde til din localhost når som helst med den bruger, du oprettede:

ssh localhost

Trin 3: Download og installer Hadoop på Ubuntu

Du kan besøge Apache Hadoop-webstedet for at se en liste over versioner med deres seneste ændringer. Vælg den version, du ønsker, og du får vist et link, som du kan bruge med følgende kommando til at downloade og installere Hadoop på Ubuntu. Her vælger jeg version 3.3.6. Erstat '3.3.6' med den seneste stabile version, hvis det er nødvendigt:

wget https://downloads.apache.org/hadoop/common/hadoop-3.3.6/hadoop-3.3.6.tar.gz

Når downloaden er færdig, brug denne linje til at færdiggøre udpakningen og installationen:

tar xzf hadoop-3.3.6.tar.gz
sudo mv hadoop-3.3.6 /usr/local/hadoop
sudo chown -R hdoop:hdoop /usr/local/hadoop

Trin 4: Konfigurer Hadoop-miljøet

Indstil JAVA_HOME in /usr/local/hadoop/etc/hadoop/hadoop-env.sh:

echo 'export JAVA_HOME=$(readlink -f /usr/bin/java | sed "s:bin/java::")' | sudo tee -a /usr/local/hadoop/etc/hadoop/hadoop-env.sh

Trin 5: Rediger konfigurationsfiler

Opdater Hadoops XML-konfigurationsfiler med dine kluster-indstillinger.

nano /usr/local/hadoop/etc/hadoop/core-site.xml

Trin 6: Formatér HDFS

Initialiser Hadoops filsystem-namespace.

/usr/local/hadoop/bin/hdfs namenode -format

Trin 7: Start Hadoop-tjenester

Start HDFS- og YARN-tjenester.

/usr/local/hadoop/sbin/start-dfs.sh
/usr/local/hadoop/sbin/start-yarn.sh

Trin 8: Bekræft installation

Kontroller de kørende Java-processer for at bekræfte, at Hadoop kører.

jps

Trin 9: Få adgang til webgrænseflader

Åbn webbrowsere til Hadoops NameNode- og ResourceManager-interfaces.

NameNode: http://localhost:9870
ResourceManager: http://localhost:8088

Trin 10: Kør et MapReduce-eksempel

Kør et eksempel-MapReduce-job for at validere opsætningen.

/usr/local/hadoop/bin/hdfs dfs -mkdir /input
/usr/local/hadoop/bin/hdfs dfs -put localfile.txt /input
/usr/local/hadoop/bin/hadoop jar
/usr/local/hadoop/share/hadoop/mapreduce/hadoop-mapreduce-examples-3.3.6.jar grep /input /output 'dfs[a-z.]+'
/usr/local/hadoop/bin/hdfs dfs -cat /output/*

Trin 11: Konfigurer miljøvariabler

Tilføj Hadoop's bin og sbin mapper til systemets PATH.

echo 'export PATH=$PATH:/usr/local/hadoop/bin:/usr/local/hadoop/sbin' >> ~/.bashrc
source ~/.bashrc

Og det var det! Du har netop installeret og konfigureret Apache Hadoop på Ubuntu 20.04 med succes!

Konklusion

Hadoop-installation på Ubuntu 20.04 er en grundig proces, der kræver omhyggelig opmærksomhed og vilje til at forstå opsætningens detaljer. Ved at følge trinene i denne guide kan Ubuntu-brugere begive sig ud på en produktiv vej, hvor de kan udnytte Hadoops fulde potentiale til deres datauddragningsformål.

Min anbefaling er at implementere Hadoop som en single-node-deployment ved hjælp af limited distribution, hvis du kun vil lære og eksperimentere med det. Til dette formål vil en VPS arbejde perfekt for dig. Cloudzy giver dig mange forskellige Linux VPS-services herunder en pålidelig Ubuntu VPS som kan konfigureres på kort tid til at blive den perfekte Hadoop-læringsplatform for dig. Fra $4.95 pr. måned kan du få din egen Ubuntu VPS med mere end 12 placeringer og 24/7 kundesupport!

ubuntu-vps Det åbenlyse valg

Størstedelen af Linux-serverene kører Ubuntu; hvorfor ikke du? Opdag hvorfor alle elsker Ubuntu, få en optimeret Ubuntu VPS

Få din Ubuntu VPS

Ofte stillede spørgsmål

Hvad er forskellene mellem HDFS og MapReduce?

Selvom begge moduler findes i Hadoop-økosystemet, tjener de forskellige formål. HDFS fungerer som et distribueret filsystem, der gør data tilgængelige. MapReduce derimod er glimrende til at opdele og analysere store datamængder effektivt.

Er Hadoop en database?

Hadoop er ikke en database, selvom denne misforståelse er almindelig. Det fungerer snarere som et distribueret filsystem, der muliggør lagring og behandling af store mængder data ved hjælp af et netværk af forbundne computere. Det bør ikke bruges som direkte erstatning for et traditionelt databasesystem.

Hvad er Hadoops fire primære komponenter?

Hadoop består af fire kernekomponer: HDFS (Hadoop Distributed File System), YARN (Yet Another Resource Negotiator), MapReduce og Hadoop Common. Nogle kilder betragter også ZooKeeper som en komponent, selvom det ikke officielt anerkendes som sådan.

Hvor bruges Hadoop typisk?

Hadoop bruges inden for mange områder, hvor det er nødvendigt at håndtere, lagre, behandle og analysere store datamængder. Det understøtter operationer for alt fra mellemstore virksomheder og hospitaler til voksende startups og leverer datadrevne løsninger.

Del

Mere fra bloggen

Læs videre.

Originalt symbol for MongoDB præsenteret på en futuristisk server til installation af MongoDB på Ubuntu + tagline om, hvad du kan forvente af artiklen + artikeltitel + Cloudzy-brandlogo
Databaser og Analytics

Sådan installeres MongoDB på de tre seneste versioner af Ubuntu (trin-for-trin)

Du har besluttet at bruge MongoDB, et fantastisk alternativ til MariaDB til at bygge en MERN stack-app, en analyseplatform eller ethvert dokumentbaseret system, men du står fast uden gode

Jim SchwarzJim Schwarz 12 min læsning
Smart datahåndtering til din virksomhed: «Cloud-lignende» lager- og backup-strategier med VPS
Databaser og Analytics

Smart datahåndtering til din virksomhed: «Cloud-lignende» lager- og backup-strategier med VPS

VPS til sikker virksomhedsdatahåndtering er den strategi, jeg anbefaler, når en virksomhed beslutter sig for at stoppe med at jonglere filer på tværs af computere, e-mail-vedhæftelser og glemte mapper

Rexa CyrusRexa Cyrus 7 min læsning
Materialiseret View vs. View
Databaser og Analytics

Materialiseret View vs. View: Forståelse af Deres Rolle i Databaser

I databasesystemer gemmer en materialiseret view som et databaseobjekt de forbehandlede resultater af en forespørgsel som en fysisk tabel. Fordi dataene er faktisk gemt på disk, komplekse

Ivy JohnsonIvy Johnson 7 min læsning

Klar til at implementere? Fra $2,48/mdr.

Uafhængig cloud siden 2008. AMD EPYC, NVMe, 40 Gbps. 14-dages pengene-tilbage-garanti.