50% rabat alle planer, begrænset tid. Start kl $2.48/mo
13 min tilbage
Databaser og analyse

Sådan installeres Hadoop på Ubuntu: En omfattende guide

Pius Bodenmann By Pius Bodenmann 13 min læst Opdateret 1. maj 2024
hvordan man installerer hadoop på ubuntu linux

I dag begynder vi straks at bruge flere computere som en del af et enkelt netværk for mere effektivt at håndtere arbejdsbyrden, når en virksomhed eller en operation, der involverer computere, vokser i en sådan grad, at det kræver mere end én computer at håndtere. Dette er blevet almindeligt i det omfang, at næsten alle operationer inden for områder som datavidenskab i dag udføres af disse netværkscomputere. Selvom det uden tvivl er mere effektivt at udføre krævende computeropgaver på denne måde, er det også utroligt kompliceret, da du skal konfigurere hver computer individuelt og derefter administrere hele netværket, mens det gennemgår dine opgaver. Det er her programmer som Hadoop kommer ind for at redde dagen.

Hadoop er en suite af værktøjer og programmer udgivet af Apache, der gør det muligt at udføre hele processen med at netværke en masse computere sammen med meget mere effektivitet og lethed. Så i denne artikel vil jeg gennemgå Hadoop, undersøge dets brugssager, gennemgå dets fordele og ulemper og give et overblik over dets avancerede arkitektur, før jeg går videre til en trin-for-trin guide til, hvordan du installerer Hadoop på Ubuntu 20.04 for at afslutte denne 2024 Hadoop-tutorial.

Hvad er Apache Hadoop?

Hadoop, en suite af værktøjer drevet af Apache, har transformeret netværksopsætning og -anvendelse i over 15 år. Brugere kan udnytte Hadoops ressourceeffektivitet, så de kan udnytte deres nuværende computerkraft til krævende opgaver uden behov for dyre opgraderinger. Pakken består af fire moduler: HDFS, YARN, MapReduce og Hadoop Common, som hver er designet til specifikke brugstilfælde.

Glansen ved Hadoop ligger i dens iboende opfindsomhed, der på smart måde giver både enkeltpersoner og organisationer mulighed for at forene deres eksisterende beregningsevner til en sammenhængende kraft, der er i stand til at overvinde væsentlige beregningsmæssige udfordringer. Uden vejledning fra Hadoop ville disse enheder se sig nødsaget til at gå i gang med den dyre stræben efter at anskaffe stadig stærkere computermaskiner.

Hadoop Use Cases

Nu ved vi, hvad Hadoop er. Men hvordan gælder dens use cases i den virkelige verden? At forstå et program på papir er godt og godt, men det vil aldrig erstatte at realisere dets potentiale som en del af en seriøs operation. Så her vil jeg give nogle eksempler, før jeg går videre til Hadoop-tutorialen.

Risikoanalyse

Som allerede nævnt giver Hadoop dig mulighed for at udnytte kraften fra flere computersystemer som en del af en enkelt netværksenhed for effektivt at gennemgå batches af omfattende data og analysere dem hurtigere end normalt. Med enhver virksomhed er der risici, der kræver analyse og beregning. Hadoop er ekstremt praktisk her. Faktisk så meget, at mange troværdige hospitaler bruger det til at analysere risiciene ved forskellige behandlinger og formode det potentielle resultat og statistik over deres operationer for deres patienter. Du lærer mere om Hadoops revolutionerende rolle i sundhedsvæsenet her.

Opdagelse af sikkerhedsbrud

Efterhånden som den samlede mængde af netværk og brugte enheder stiger inden for et netværk eller en virksomhed, er der flere og flere potentielle sikkerhedsbrud at være opmærksomme på. En af Hadoops væsentlige værktøjer er at vurdere helheden af ​​en operation ved at analysere store batches af data og fremhæve potentielle smertepunkter i det system.

Gennemgå kortlægning

Mange virksomheder er afhængige af den anmeldelsesfeedback, de får om deres produkter, for at forbedre dem eller udvikle nye markedsstrategier. Mens et menneske vil tage evigheder at dække en stor nok anmeldelsesfil, vil Hadoop arbejde med sin netværkscomputermagi for at give meget hurtigere resultater.

Markedsanalyse

Når vi taler om markedsstrategier, blegner den førnævnte kortlægning af gennemgangen i forhold til antallet af ressourcer, der er nødvendige for at analysere markedet for at vurdere potentialet for, at et helt nyt produkt kommer ind på det. Dette er endnu en use case, hvor Hadoop skinner, da det giver selv små kommende virksomheder mulighed for effektivt at evaluere markedet med flere computere på en effektiv tidsramme og måde.

Vurdering af logfiler

Et andet aspekt af virksomheder, der bliver mere kompliceret som tiden går, og de bliver mere betydningsfulde, er mængden af ​​software, som de vil begynde at bruge over hele linjen. Brug af mere og mere software forårsager flere potentielle fejl og smertepunkter og har brug for en dedikeret medarbejder til at administrere logfilerne og håndtere problemerne. Dette vil tage meget tid, men ved hjælp af nogle få nemme protokoller kan en virksomhed bruge Hadoop til hurtigt at gennemgå og vurdere logfiler for at finde disse fejl og slippe af med dem.

Der er et væld af andre Hadoop use cases og applikationer, men for at bevare fokus på artiklens formål vil vi ikke diskutere yderligere.

Oversigt over Hadoop-arkitektur

Lad os sige, at du har hørt om Hadoop og dets overordnede brugssager, og hvad det gør. Og selvom du ikke har gjort det, har denne artikel sandsynligvis gjort det for dig indtil videre. Men nu skal du få en dybdegående forståelse af, hvad Hadoop faktisk er lavet af, og hvordan hver del af det fungerer med sine andre funktioner. Som nævnt før er der fire generelle lag af Hadoop; i denne del af Hadoop-øvelsen skal vi lære mere om HDFS (Hadoop Distributed File System), YARN (Yet Another Resource Negotiator), MapReduce og Hadoop Common. Men da Hadoop Common ikke har så mange funktioner, der skal forklares, er det væsentlige ved det kendt som Zookeeper. Så i dette afsnit vil jeg forsøge at koge den avancerede Hadoop-arkitektur og økosystem og dets fire sektioner ned i grundlæggende termer, før jeg endelig går videre til, hvordan man installerer Hadoop på Ubuntu 20.04.

HDFS

HDFS i Hadoop økosystem, udgør det overordnede lagringssystem, som alle Hadoop undersektioner og applikationer bruger til at vurdere, overføre og gemme data. Hovedpointen i HDFS Architecture er, at i modsætning til Hadoop selv, et open source-program, er HDFS i Hadoop faktisk det filsystem, der er ansvarligt for at køre alle de underliggende operationer i en enkelt Hadoop-klynge. HDFS er et utroligt modstandsdygtigt filsystem, der opdeler databatcherne i 128 MB chinks og optimerer dem til sekvensbaserede operationer.

Den primære rolle for HDFS i Hadoop-software er at levere alle data som en del af et samlet datarack, som derefter kan manipuleres via forskellige navnenoder og sekundære stativer til undersektioner for at organisere din dataanalyseoperation. Du kan derefter bruge de andre muligheder som Journal racks, QJM, HA, fsimage og redigere logfiler og den overordnede forklaringslog til at holde styr på og udføre andre opgaver.

GARN

YARN er en anden udøvende gren af ​​Hadoop, der bruges til at tildele ønskede mængder af computeraktiver til specifikke applikationer i Hadoop-økosystemet. I bund og grund giver det dig mulighed for at bruge en ressourcemanager til dine kunder til at allokere disse ressourcer gennem et sæt forskellige noder til forskellige opgaver og applikationer. Der er også en legende i YARN, der ligner den i HDFS, giver dig mulighed for at holde styr på alle dine allokerede aktiver og operationer. YARN selv er opdelt i tre undersektioner: Ressourcemanageren, Application Masteren og Node Manageren.

Hver af disse tre undersektioner opretter en ny instans af sig selv pr. hhv. klynge, applikation og node. Ikke alene kan du allokere ressourcer til forskellige opgaver ved hjælp af YARN, men du kan også planlægge disse ressourcer til at ændre sig over tid for at komme med avancerede algoritmiske arbejdsgange. YARN er ikke begrænset til dets underafsnit. Der vil være mange tilfælde, hvor du vil bruge YARN sammen med andre arkitektoniske lag som HDFS og Zookeeper til at allokere ressourcer og evaluere din overordnede drift.

Hadoop Mapreduce

Hadoop MapReduce er en anden vigtig komponent i Hadoop-økosystemet. Når du først har installeret Hadoop på Ubuntu, kan du bruge denne funktion til effektivt at få en enorm batch af data analyseret på en distribueret måde af flere forskellige computere. I det væsentlige fungerer Hadoop MapReduce sådan: du indtaster et stort kort med data i programmet. Dette datakort vil blive blandet, opdelt og distribueret på tværs af dine netværkscomputere. Efterfølgende, ved hjælp af særlige protokoller kendt som reducerere, koges dataene ned til deres vigtigste komponenter og reduceres. Hver af disse operationer er kendt som et job.

Lad os sige, at du har en sætning på tre ord, der fungerer som det datakort, du vil analysere med MapReduce. Lad os sige, at sætningen er Bear Hunt Rabbit. Hadoop MapReduce vil nedbryde og reducere denne sætning i tre forskellige batches hver med ét ord, og derefter bruge disse ord og lave nye kombinationer med lignende datainput af dine andre jobs for at skabe en endelig homogeniseret databatch med fjernede unødvendige data og let kan analyseres.

Zookeeper

Zookeeper er en anden undersektion af Hadoop-økosystemet, der oprindeligt blev fremtrædende og almindeligt brugt med udgivelsen af ​​Hadoop version 2.0. Zookeepers vigtigste servicepunkt er at koordinere mellem de forskellige operationer, du kører som en del af en enkelt Hadoop-instans. Som sådan bruges Zookeeper næsten altid sammen med YARN's Resource Manager og de forskellige funktioner i HDFS i Hadoop. Zookeepers primære anvendelse i disse operationer er at opdage og afhjælpe de potentielle fejlpunkter. For at gøre dette bruger den to forskellige værktøjer: ZKFiloverControer og Zookeeper Quorum.

I disse procedurer kategoriseres dataknuderne, der administreres af andre komponenter i Hadoop-arkitekturen, som aktive navnenoder, overvåget af brugeren. Efterfølgende gennemgår hver af disse navnenoder granskning inden for de to førnævnte undersektioner af Zookeeperen. Dette gøres for at lokalisere vanskeligheder og identificere potentielle fejl.

Installer Hadoop på Ubuntu 20.04 - Trin-for-trin-vejledning

Og endelig, efter at have lært om Hadoop-arkitekturen, er det tid til at komme til sagens kerne, nemlig hvordan man installerer Hadoop på Ubuntu 20.04 som den sidste del af denne Hadoop-tutorial. Lad os dække forudsætningerne, før vi går videre til trin-for-trin-vejledningen til installation af Hadoop på Ubuntu 20.04. Husk, at denne vejledning også kan bruges til Ubuntu 18.04.

Forudsætninger

De nødvendige forudsætninger for at installere Hadoop på Ubuntu er ret enkle. Alt du behøver er en Ubuntu-drevet computer med root-adgang, enten lokalt tilgængelig eller ekstern tilgængelig via en VPS-server. Med hensyn til forudsætningsprogrammer skal du sikre dig, at du allerede har Java 11 og SSH installeret. Hvis du ikke har dem, skal du køre følgende kommandoer en ad gangen for at installere dem:

sudo apt update && sudo apt upgrade -y
sudo apt install openssh-server openssh-client -y
sudo apt install openjdk-11-jdk -y

Hvad angår licensen, har du ikke brug for nogen, da Hadoop er gratis og open source. Det er alt hvad du behøver. Lad os gå videre til trin et.

Trin 1: Opret ikke-rootbruger til Hadoop

Opret en ikke-rootbruger til din Hadoop ved hjælp af følgende kommando. Dette er en del af de præ-konfigurationer, som vi skal gøre, før vi faktisk downloader og installerer Hadoop:

sudo adduser hdoop
su - hdoop

Trin 2: Konfigurer SSH-nøgler

For nu at installere Hadoop på Ubuntu vil vi bruge den Hadoop-bruger, du lige har oprettet, og bruge den til at oprette en SSH-forbindelse med den. Brug denne kommando til at generere et SSH-nøglepar og gemme det:

ssh-keygen -t rsa -P '' -f ~/.ssh/id_rsa

Når nøglerne er genereret, vil denne følgende linje gøre dig i stand til at markere dem som autoriserede_nøgler og gem dem i din SSH-mappe:

cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys

Brug nu denne kommando til at sikre dig, at din SSH-forbindelse har alle de nødvendige tilladelser:

chmod 600 ~/.ssh/authorized_keys
chmod 700 ~/.ssh

Bekræft ændringerne, og du vil til enhver tid nemt kunne oprette forbindelse til din lokale vært med den bruger, du har lavet:

ssh localhost

Trin 3: Download og installer Hadoop på Ubuntu

Du kan besøge Apache Hadoop hjemmeside for at se en liste over versioner med deres seneste ændringslog. Vælg den version, du kan lide, og du vil blive præsenteret for et link, der kan bruges med følgende kommando til at downloade og installere Hadoop på Ubuntu. Her vælger jeg version 3.3.6. Erstat '3.3.6' med den seneste stabile version, hvis det er nødvendigt:

wget https://downloads.apache.org/hadoop/common/hadoop-3.3.6/hadoop-3.3.6.tar.gz

Når overførslen er slut, skal du bruge denne linje til at afslutte udpakningen og installationsprocessen:

tar xzf hadoop-3.3.6.tar.gz
sudo mv hadoop-3.3.6 /usr/local/hadoop
sudo chown -R hdoop:hdoop /usr/local/hadoop

Trin 4: Konfigurer Hadoop-miljøet

Sæt JAVA_HOME in /usr/local/hadoop/etc/hadoop/hadoop-env.sh:

echo 'export JAVA_HOME=$(readlink -f /usr/bin/java | sed "s:bin/java::")' | sudo tee -a /usr/local/hadoop/etc/hadoop/hadoop-env.sh

Trin 5: Rediger konfigurationsfiler

Opdater Hadoops XML-konfigurationsfiler med dine klyngeindstillinger.

nano /usr/local/hadoop/etc/hadoop/core-site.xml

Trin 6: Formater HDFS

Initialiser Hadoop-filsystemets navneområde.

/usr/local/hadoop/bin/hdfs namenode -format

Trin 7: Start Hadoop Services

Start HDFS- og YARN-tjenester.

/usr/local/hadoop/sbin/start-dfs.sh
/usr/local/hadoop/sbin/start-yarn.sh

Trin 8: Bekræft installationen

Tjek de kørende Java-processer for at bekræfte, at Hadoop kører.

jps

Trin 9: Få adgang til webgrænseflader

Åbn webbrowsere til Hadoops NameNode- og ResourceManager-grænseflader.

NameNode: http://localhost:9870
ResourceManager: http://localhost:8088

Trin 10: Kør et MapReduce-eksempel

Udfør et eksempel på MapReduce-job for at validere opsætningen.

/usr/local/hadoop/bin/hdfs dfs -mkdir /input
/usr/local/hadoop/bin/hdfs dfs -put localfile.txt /input
/usr/local/hadoop/bin/hadoop jar
/usr/local/hadoop/share/hadoop/mapreduce/hadoop-mapreduce-examples-3.3.6.jar grep /input /output 'dfs[a-z.]+'
/usr/local/hadoop/bin/hdfs dfs -cat /output/*

Trin 11: Indstil miljøvariabler

Tilføj Hadoop's beholder og sbin mapper til systemet PATH.

echo 'export PATH=$PATH:/usr/local/hadoop/bin:/usr/local/hadoop/sbin' >> ~/.bashrc
source ~/.bashrc

Og det er det! Du har lige formået at konfigurere og installere Apache Hadoop på Ubuntu 20.04!

Konklusion

Sammenfattende er installationen af ​​Hadoop på Ubuntu 20.04 en grundig proces, der kræver omhyggelig opmærksomhed og en parathed til at udforske nuancerne i opsætningen. Ved at følge de trin, der er angivet i denne vejledning, kan Ubuntu-brugere begive sig ud på en transformativ rejse og udnytte Hadoops betydelige muligheder for fuldt ud at realisere potentialet i deres dataanalyseaktiviteter.

Min anbefaling er at implementere Hadoop som en enkelt-node-implementering ved hjælp af begrænset distribution, hvis du kun har til hensigt at lære og lege med det. Til dette formål vil en VPS fungere perfekt for dig. Cloudzy tilbyder dig et væld af forskellige Linux VPS-tjenester inklusive en Ironclad, pålidelig Ubuntu VPS der kan konfigureres på ingen tid til at blive den perfekte Hadoop læringslegeplads for dig. Fra $4,95 om måneden kan du få din egen Ubuntu VPS med mere end 12 lokationer og 24/7 omsorgsfuld support!

ubuntu-vps Det åbenlyse valg

Størstedelen af ​​Linux-drevne servere bruger Ubuntu; hvorfor ikke dig? Opdag, hvorfor alle elsker Ubuntu - få en optimeret Ubuntu VPS

Få din Ubuntu VPS

FAQ

Hvad er HDFS vs. MapReduce forskelle?

Mens begge moduler findes i Hadoop-økosystemet, tjener de forskellige formål. HDFS fungerer som et distribueret filsystem, hvilket letter datatilgængelighed. På den anden side udmærker MapReduce sig ved at nedbryde og effektivt analysere store datastykker.

Betragtes Hadoop som en database?

Hadoop er ikke en database, selvom denne misforståelse er almindelig. Det fungerer snarere som et distribueret filsystem, der muliggør lagring og behandling af omfangsrige data ved hjælp af et netværk af indbyrdes forbundne computere. Det bør ikke bruges som en direkte erstatning for et traditionelt databasesystem.

Hvad er de fire primære komponenter i Hadoop?

Hadoop består af fire kernekomponenter: HDFS (Hadoop Distributed File System), YARN (Yet Another Resource Negotiator), MapReduce og Hadoop Common. Derudover betragter nogle ressourcer ZooKeeper som en komponent, selvom den ikke er officielt anerkendt som sådan.

Hvor bruges Hadoop typisk?

Hadoop finder applikationer i forskellige domæner, hvor håndtering, lagring, behandling og analyse af data i stor skala er afgørende. Det henvender sig til operationer lige fra mellemstore virksomheder og hospitaler til spirende startups, der leverer datadrevne løsninger.

Dele

Mere fra bloggen

Fortsæt med at læse.

Originalt symbol på MongoDB præsenteret på en futuristisk server for at installere MongoDB på Ubuntu+ tagline om, hvad man kan forvente af artiklen + titel på artiklen + Cloudzy brand logo
Databaser og analyse

Sådan installeres MongoDB på de tre seneste versioner af Ubuntu (trin-for-trin)

Så du har besluttet at bruge MongoDB, et godt alternativ til MariaDB til at bygge en MERN stack-app, en analyseplatform eller et hvilket som helst dokumentbaseret system, men har ramt en mur med gode o

Jim SchwarzJim Schwarz 12 min læst
Smart Data Management til din virksomhed: "Cloud-Like" Storage og Backup Strategier med VPS
Databaser og analyse

Smart Data Management til din virksomhed: "Cloud-Like" Storage og Backup Strategier med VPS

VPS til sikker virksomhedsdataadministration er den strategi, jeg anbefaler, hver gang en virksomhed beslutter, at det er tid til at stoppe med at jonglere med filer på tværs af bærbare computere, vedhæftede filer i e-mails og halvt glemt

Rexa CyrusRexa Cyrus 7 min læst
Materialiseret udsigt vs. udsigt
Databaser og analyse

Materialiseret visning vs. visning: Forståelse af deres rolle i databaser

I databasesystemer gemmer en materialiseret visning som et databaseobjekt de forudberegnede resultater af en forespørgsel som en fysisk tabel. Fordi dataene faktisk er gemt på disken, komplicerer det

Ivy JohnsonIvy Johnson 7 min læst

Klar til at implementere? Fra $2,48/md.

Uafhængig sky, siden 2008. AMD EPYC, NVMe, 40 Gbps. 14 dages pengene tilbage.