Jak zainstalować Hadoop na Ubuntu: obszerny przewodnik

Obecnie, gdy firma lub jakakolwiek operacja związana z komputerami rozrośnie się do tego stopnia, że będzie wymagać obsługi więcej niż jednego komputera, natychmiast zaczynamy używać wielu komputerów w ramach jednej sieci, aby wydajniej poradzić sobie z obciążeniem. Stało się to powszechne do tego stopnia, że obecnie prawie wszystkie operacje w dziedzinach takich jak analityka danych są wykonywane przez komputery połączone w sieć. Chociaż bez wątpienia wykonywanie wymagających zadań komputerowych jest w ten sposób bardziej wydajne, jest to również niezwykle skomplikowane, ponieważ trzeba indywidualnie skonfigurować każdy komputer, a następnie zarządzać całą siecią podczas wykonywania zadań. Tutaj z pomocą przychodzą programy takie jak Hadoop.

Spis treści

Co to jest Apache Hadoop?
Przypadki użycia Hadoopa
Omówienie architektury Hadoop
Zainstaluj Hadoop na Ubuntu 20.04 — przewodnik krok po kroku
Wniosek
Często zadawane pytania

Hadoop to zestaw narzędzi i programów wydany przez Apache, który umożliwia wykonanie całego procesu łączenia w sieć wielu komputerów ze znacznie większą wydajnością i łatwością. Dlatego w tym artykule dokonam przeglądu Hadoopa, przeanalizuję jego przypadki użycia, omówię zalety i wady oraz przedstawię przegląd jego zaawansowanej architektury, zanim przejdę do przewodnika krok po kroku, jak zainstalować Hadoop na Ubuntu 20.04, aby ukończyć samouczek Hadoop na rok 2024.

Co to jest Apache Hadoop?

Hadoop, zestaw narzędzi oparty na Apache, od ponad 15 lat zmienia konfigurację i wykorzystanie sieci. Użytkownicy mogą wykorzystać efektywność zasobów Hadoopa, pozwalając im wykorzystać obecną moc obliczeniową do wymagających zadań bez konieczności kosztownych aktualizacji. Pakiet składa się z czterech modułów: HDFS, YARN, MapReduce i Hadoop Common, każdy przeznaczony do konkretnych zastosowań.

Genialność Hadoopa polega na jego wrodzonej zaradności, która w sprytny sposób umożliwia zarówno jednostkom, jak i organizacjom zjednoczenie istniejących możliwości obliczeniowych w spójną siłę zdolną do pokonania znacznych wyzwań obliczeniowych. Bez wskazówek Hadoopa podmioty te byłyby zmuszone do podjęcia kosztownych wysiłków w celu nabycia coraz potężniejszych maszyn obliczeniowych.

Przypadki użycia Hadoopa

Teraz wiemy, czym jest Hadoop. Ale jak dokładnie jego przypadki użycia mają zastosowanie w prawdziwym świecie? Zrozumienie programu na papierze jest dobre i dobre, ale nigdy nie zastąpi realizacji jego potencjału w ramach poważnej operacji. Zanim przejdę do samouczka Hadoop, podam kilka przykładów.

Analiza ryzyka

Jak już wspomniano, Hadoop pozwala wykorzystać moc kilku systemów komputerowych w ramach jednej jednostki sieciowej, aby sprawnie przeglądać partie obszernych danych i analizować je szybciej niż zwykle. W każdym przedsiębiorstwie istnieje ryzyko wymagające analizy i obliczeń. Hadoop jest tutaj niezwykle przydatny. Do tego stopnia, że wiele wiarygodnych szpitali używa go do analizy ryzyka różnych metod leczenia i przewidywania potencjalnych wyników i statystyk swoich operacji dla swoich pacjentów. Więcej o rewolucyjnej roli Hadoopa w opiece zdrowotnej dowiesz się tutaj.

Wykrywanie naruszeń bezpieczeństwa

W miarę wzrostu ogólnej liczby sieci i wykorzystywanych urządzeń w sieci lub firmie istnieje coraz więcej potencjalnych naruszeń bezpieczeństwa, o których należy pamiętać. Jednym z podstawowych narzędzi Hadoopa jest ocena całości operacji poprzez analizę dużych partii danych i wskazanie potencjalnych słabych punktów tego systemu.

Przejrzyj mapowanie

Wiele firm polega na opiniach z recenzji swoich produktów, aby je ulepszyć lub opracować nowe strategie rynkowe. Podczas gdy człowiekowi zajmie wieki zapisanie wystarczająco dużego pliku recenzji, Hadoop użyje magii komputera sieciowego, aby uzyskać znacznie szybsze wyniki.

Analiza rynku

Mówiąc o strategiach rynkowych, wspomniane wcześniej mapowanie recenzji blednie w porównaniu z ilością zasobów potrzebnych do analizy rynku i oceny potencjału wejścia na niego zupełnie nowego produktu. Jest to kolejny przypadek użycia, w którym Hadoop błyszczy, ponieważ pozwala nawet małym, dobrze rozwijającym się firmom na efektywną ocenę rynku za pomocą kilku komputerów, w efektywnym czasie i w efektywny sposób.

Ocena plików dziennika

Innym aspektem działalności przedsiębiorstw, który z biegiem czasu staje się coraz bardziej skomplikowany i nabiera coraz większego znaczenia, jest ilość oprogramowania, z którego zaczną powszechnie korzystać. Korzystanie z coraz większej liczby oprogramowania powoduje więcej potencjalnych błędów i problemów oraz wymaga dedykowanego pracownika do zarządzania plikami dziennika i rozwiązywania problemów. Zajmie to dużo czasu, ale korzystając z kilku prostych protokołów, firma może użyć Hadoop do szybkiego przeglądania i oceniania plików dziennika, aby znaleźć te błędy i się ich pozbyć.

Istnieje mnóstwo innych przypadków użycia i aplikacji Hadoop, ale aby skupić się na celu artykułu, nie będziemy dalej omawiać.

Omówienie architektury Hadoop

Załóżmy, że słyszałeś o Hadoopie i jego ogólnych przypadkach użycia oraz o tym, co robi. A nawet jeśli tego nie zrobiłeś, ten artykuł prawdopodobnie zrobił to za Ciebie do tej pory. Ale teraz musisz dogłębnie zrozumieć, z czego właściwie składa się Hadoop i jak każda jego część współpracuje z innymi funkcjami. Jak wspomniano wcześniej, istnieją cztery ogólne warstwy Hadoopa; w tej części samouczka Hadoop dowiemy się więcej o HDFS (Hadoop Distributed File System), YARN (Yet Another Resource Negotiator), MapReduce i Hadoop Common. Ponieważ jednak Hadoop Common nie ma aż tak wielu funkcji wymagających wyjaśnienia, jego podstawowe elementy są znane jako Opiekun zoo. Zatem w tej sekcji spróbuję w skrócie opisać zaawansowaną architekturę i ekosystem Hadoop oraz jego cztery sekcje, zanim w końcu przejdę do sposobu instalacji Hadoopa na Ubuntu 20.04.

HDFS

HDFS w ekosystemie Hadoop stanowi ogólny system przechowywania, którego wszystkie podsekcje i aplikacje Hadoop używają do oceny, przesyłania i zapisywania danych. Główną cechą architektury HDFS jest to, że w przeciwieństwie do samego Hadoopa, programu typu open source, HDFS w Hadoop jest w rzeczywistości systemem plików odpowiedzialnym za uruchamianie wszystkich podstawowych operacji pojedynczego klastra Hadoop. HDFS to niezwykle odporny system plików, który dzieli partie danych na fragmenty o wielkości 128 MB i optymalizuje je pod kątem operacji opartych na sekwencji.

Podstawową rolą systemu HDFS w oprogramowaniu Hadoop jest dostarczanie wszystkich danych w ramach ogólnego zestawu danych, którym można następnie manipulować za pomocą różnych węzłów nazw i stojaków dodatkowych w podsekcje w celu zorganizowania operacji analizy danych. Następnie możesz użyć innych opcji, takich jak stojaki na dzienniki, QJM, HA, fsimage i edytować pliki dziennika oraz ogólny dziennik legendy, aby śledzić i wykonywać inne zadania.

PRZĘDZA

YARN to kolejna gałąź wykonawcza Hadoopa, która służy do przypisywania żądanych ilości zasobów obliczeniowych do konkretnych aplikacji w ekosystemie Hadoop. Zasadniczo umożliwia korzystanie z menedżera zasobów dla klientów w celu przydzielania tych zasobów za pośrednictwem zestawu różnych węzłów do różnych zadań i aplikacji. W YARN istnieje również legenda, podobna do tej w HDFS, która pozwala śledzić wszystkie przydzielone zasoby i operacje. Sama YARN jest podzielona na trzy podsekcje: Menedżera zasobów, Mistrza aplikacji i Menedżera węzłów.

Każda z tych trzech podsekcji tworzy nową instancję odpowiednio dla klastra, aplikacji i węzła. Za pomocą YARN możesz nie tylko przydzielać zasoby do różnych zadań, ale także planować zmiany tych zasobów w czasie, aby uzyskać zaawansowane algorytmiczne przepływy pracy. YARN nie ogranicza się do swojej podsekcji. Będzie wiele przypadków, w których będziesz używać YARN w połączeniu z innymi warstwami architektonicznymi, takimi jak HDFS i Zookeeper, w celu alokacji zasobów i oceny ogólnego działania.

Hadoop Mapreduce

Hadoop MapReduce to kolejny ważny komponent ekosystemu Hadoop. Po zainstalowaniu Hadoop w systemie Ubuntu możesz użyć tej funkcji, aby efektywnie analizować ogromną partię danych w sposób rozproszony na kilku różnych komputerach. Zasadniczo Hadoop MapReduce działa w ten sposób: wprowadzasz do programu dużą mapę danych. Ta mapa danych zostanie przetasowana, podzielona i rozdzielona na komputery w sieci. Następnie za pomocą specjalnych protokołów zwanych reduktorami dane są sprowadzane do ich najważniejszych składników i redukowane. Każda z tych operacji nazywana jest Jobem.

Załóżmy, że masz zdanie składające się z trzech słów, które pełni rolę mapy danych, którą chcesz analizować za pomocą MapReduce. Załóżmy, że zdanie brzmi: Królik Polujący na Niedźwiedzia. Hadoop MapReduce podzieli i zredukuje to zdanie na trzy różne partie, każda zawierająca jedno słowo, a następnie użyje tych słów i stworzy nowe kombinacje z podobnymi danymi wejściowymi z innych zadań, aby utworzyć ostateczną, homogenizowaną partię danych z usuniętymi niepotrzebnymi danymi, którą można łatwo przeanalizować.

Opiekun zoo

Zookeeper to kolejna podsekcja ekosystemu Hadoop, która początkowo zyskała na znaczeniu i była powszechnie stosowana wraz z wydaniem wersji Hadoop 2.0. Głównym punktem usług Zookeepera jest koordynacja różnych operacji wykonywanych w ramach pojedynczej instancji Hadoop. W związku z tym Zookeeper jest prawie zawsze używany w połączeniu z Menedżerem zasobów YARN i różnymi funkcjami HDFS w Hadoop. Podstawowym zastosowaniem Zookeepera w tych operacjach jest wykrywanie i usuwanie potencjalnych punktów awarii. W tym celu wykorzystuje dwa różne narzędzia: ZKFiloverControer i Zookeeper Quorum.

W tych procedurach węzły danych zarządzane przez inne komponenty architektury Hadoop są klasyfikowane jako aktywne węzły nazw nadzorowane przez użytkownika. Następnie każdy z tych węzłów nazw jest poddawany kontroli w ramach dwóch wyżej wymienionych podsekcji Zookeepera. Ma to na celu wskazanie obszarów trudności i zidentyfikowanie potencjalnych awarii.

Zainstaluj Hadoop na Ubuntu 20.04 – przewodnik krok po kroku

I wreszcie, po zapoznaniu się z architekturą Hadoop, czas przejść do sedna sprawy, czyli sposobu instalacji Hadoopa na Ubuntu 20.04, co stanowi ostatnią część tego samouczka Hadoop. Omówmy wymagania wstępne, zanim przejdziemy do przewodnika krok po kroku dotyczącego instalacji Hadoop na Ubuntu 20.04. Pamiętaj, że tego przewodnika można również używać w systemie Ubuntu 18.04.

Warunki wstępne

Wymagania wstępne potrzebne do zainstalowania Hadoopa na Ubuntu są dość proste. Wszystko czego potrzebujesz to komputer z systemem Ubuntu i dostępem do roota, dostępny lokalnie lub zdalnie poprzez serwer VPS. Jeśli chodzi o programy wymagane wstępnie, upewnij się, że masz już zainstalowaną wersję Java 11 i SSH. Jeśli ich nie masz, uruchom kolejno następujące polecenia, aby je zainstalować:

sudo apt update && sudo apt upgrade -y

sudo apt install openssh-server openssh-client -y

sudo apt install openjdk-11-jdk -y

Jeśli chodzi o licencję, nie będziesz jej potrzebować, ponieważ Hadoop jest darmowy i ma otwarte oprogramowanie. To wszystko, czego potrzebujesz. Przejdźmy do kroku pierwszego.

Krok 1: Utwórz użytkownika innego niż root dla Hadoop

Utwórz użytkownika innego niż root dla Hadoopa, używając następującego polecenia. Jest to część wstępnej konfiguracji, którą musimy wykonać przed faktycznym pobraniem i zainstalowaniem Hadoopa:

sudo adduser hdoop

su - hdoop

Krok 2: Skonfiguruj klucze SSH

Teraz, aby zainstalować Hadoop na Ubuntu, użyjemy właśnie utworzonego użytkownika Hadoop i użyjemy go do nawiązania z nim połączenia SSH. Użyj tego polecenia, aby wygenerować parę kluczy SSH i zapisać ją:

ssh-keygen -t rsa -P '' -f ~/.ssh/id_rsa

Po wygenerowaniu kluczy poniższy wiersz umożliwi oznaczenie ich jako autoryzowane_klucze i zapisz je w swoim katalogu SSH:

cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys

Teraz użyj tego polecenia, aby upewnić się, że połączenie SSH ma wszystkie wymagane uprawnienia:

chmod 600 ~/.ssh/authorized_keys

chmod 700 ~/.ssh

Potwierdź zmiany, a będziesz mógł łatwo połączyć się z lokalnym hostem przez cały czas z utworzonym użytkownikiem:

ssh localhost

Krok 3: Pobierz i zainstaluj Hadoop na Ubuntu

Możesz odwiedzić Witryna Apache Hadoop aby zobaczyć listę wersji wraz z dziennikiem ostatnich zmian. Wybierz wersję, która Ci się podoba, a zostanie wyświetlony link, którego można użyć z następującym poleceniem, aby pobrać i zainstalować Hadoop na Ubuntu. Tutaj wybieram wersję 3.3.6. Jeśli to konieczne, zamień „3.3.6” na najnowszą stabilną wersję:

wget https://downloads.apache.org/hadoop/common/hadoop-3.3.6/hadoop-3.3.6.tar.gz

Po zakończeniu pobierania użyj tej linii, aby zakończyć proces wyodrębniania i instalacji:

tar xzf hadoop-3.3.6.tar.gz

sudo mv hadoop-3.3.6 /usr/local/hadoop

sudo chown -R hdoop:hdoop /usr/local/hadoop

Krok 4: Skonfiguruj środowisko Hadoop

Ustawić JAVA_HOME in /usr/local/hadoop/etc/hadoop/hadoop-env.sh:

echo 'export JAVA_HOME=$(readlink -f /usr/bin/java | sed "s:bin/java::")' | sudo tee -a /usr/local/hadoop/etc/hadoop/hadoop-env.sh

Krok 5: Edytuj pliki konfiguracyjne

Zaktualizuj pliki konfiguracyjne XML Hadoopa przy użyciu ustawień klastra.

nano /usr/local/hadoop/etc/hadoop/core-site.xml

Krok 6: Sformatuj HDFS

Zainicjuj przestrzeń nazw systemu plików Hadoop.

/usr/local/hadoop/bin/hdfs namenode -format

Krok 7: Uruchom usługi Hadoop

Uruchom usługi HDFS i YARN.

/usr/local/hadoop/sbin/start-dfs.sh

/usr/local/hadoop/sbin/start-yarn.sh

Krok 8: Sprawdź instalację

Sprawdź działające procesy Java, aby upewnić się, że usługa Hadoop działa.

jps

Krok 9: Uzyskaj dostęp do interfejsów internetowych

Otwórz przeglądarki internetowe na interfejsy NameNode i ResourceManager Hadoopa.

Węzeł nazwy: http://localhost:9870
Menedżer zasobów: http://localhost:8088

Krok 10: Uruchom przykład MapReduce

Wykonaj przykładowe zadanie MapReduce, aby sprawdzić poprawność konfiguracji.

/usr/local/hadoop/bin/hdfs dfs -mkdir /input

/usr/local/hadoop/bin/hdfs dfs -put localfile.txt /input

/usr/local/hadoop/bin/hadoop jar

/usr/local/hadoop/share/hadoop/mapreduce/hadoop-mapreduce-examples-3.3.6.jar grep /input /output 'dfs[a-z.]+'

/usr/local/hadoop/bin/hdfs dfs -cat /output/*

Krok 11: Ustaw zmienne środowiskowe

Dodaj Hadoop kosz I sbin katalogi do systemowej PATH.

echo 'export PATH=$PATH:/usr/local/hadoop/bin:/usr/local/hadoop/sbin' >> ~/.bashrc

source ~/.bashrc

I to wszystko! Właśnie udało Ci się pomyślnie skonfigurować i zainstalować Apache Hadoop na Ubuntu 20.04!

Wniosek

Podsumowując, instalacja Hadoopa na Ubuntu 20.04 to dokładny proces, który wymaga skrupulatnej uwagi i gotowości do poznania niuansów konfiguracji. Postępując zgodnie z instrukcjami opisanymi w tym przewodniku, użytkownicy Ubuntu mogą wyruszyć w transformacyjną podróż, wykorzystując istotne możliwości Hadoopa, aby w pełni wykorzystać potencjał swoich poszukiwań w zakresie analizy danych.

Zalecam wdrożenie Hadoopa jako wdrożenia z jednym węzłem i przy użyciu ograniczonej dystrybucji, jeśli zamierzasz się z nim tylko uczyć i bawić. W tym celu VPS sprawdzi się idealnie dla Ciebie. Cloudzy oferuje wiele różnych Usługi VPS dla Linuksa w tym Ironclad, niezawodny Ubuntu VPS które można błyskawicznie skonfigurować, aby stały się dla Ciebie idealnym placem zabaw do nauki Hadoop. Już od 4,95 USD miesięcznie możesz otrzymać własny system Ubuntu VPS z ponad 12 lokalizacjami i całodobową pomocą techniczną!

Oczywisty wybór

Większość serwerów z systemem Linux korzysta z Ubuntu; dlaczego nie ty? Odkryj, dlaczego wszyscy kochają Ubuntu — zdobądź zoptymalizowany Ubuntu VPS

Zdobądź swój Ubuntu VPS

Często zadawane pytania

Jakie są różnice między HDFS a MapReduce?

Chociaż oba moduły znajdują się w ekosystemie Hadoop, służą różnym celom. HDFS funkcjonuje jako rozproszony system plików, ułatwiając dostęp do danych. Z drugiej strony MapReduce doskonale radzi sobie z rozkładaniem i wydajną analizą dużych fragmentów danych.

Czy Hadoop jest uważany za bazę danych?

Hadoop nie jest bazą danych, chociaż to błędne przekonanie jest powszechne. Działa raczej jako rozproszony system plików, który umożliwia przechowywanie i przetwarzanie dużych ilości danych przy użyciu sieci wzajemnie połączonych komputerów. Nie należy go używać jako bezpośredniego zamiennika tradycyjnego systemu baz danych.

Jakie są cztery główne składniki Hadoopa?

Hadoop składa się z czterech podstawowych komponentów: HDFS (Hadoop Distributed File System), YARN (Yet Another Resource Negotiator), MapReduce i Hadoop Common. Ponadto niektóre zasoby uważają ZooKeeper za komponent, chociaż nie jest on oficjalnie uznawany za taki.

Gdzie zazwyczaj korzysta się z usługi Hadoop?

Hadoop znajduje zastosowania w różnych dziedzinach, w których niezbędne jest zarządzanie, przechowywanie, przetwarzanie i analizowanie danych na dużą skalę. Obsługuje zarówno średnie przedsiębiorstwa i szpitale, jak i rozwijające się start-upy, zapewniając rozwiązania oparte na danych.

Więcej z bloga

Czytaj dalej.

Bazy danych i analityka

Jak zainstalować MongoDB w trzech najnowszych wersjach Ubuntu (krok po kroku)

Zdecydowałeś się więc użyć MongoDB, doskonałej alternatywy dla MariaDB do tworzenia aplikacji stosowej MERN, platformy analitycznej lub dowolnego systemu opartego na dokumentach, ale trafiłeś w ścianę z dobrym o

Jima Schwarza 25 lutego 2026 r 12 minut czytania

Bazy danych i analityka

Inteligentne zarządzanie danymi w Twojej firmie: strategie przechowywania i tworzenia kopii zapasowych „jak w chmurze” z VPS

VPS do bezpiecznego zarządzania danymi biznesowymi to strategia, którą polecam zawsze, gdy firma decyduje, że nadszedł czas, aby przestać żonglować plikami na laptopach, załącznikami do wiadomości e-mail i na wpół zapomnianymi

Rexa Cyrus 9 lipca 2025 r 7 minut czytania

Bazy danych i analityka

Widok zmaterializowany a widok: zrozumienie ich roli w bazach danych

W systemach baz danych zmaterializowany widok w postaci obiektu bazy danych przechowuje obliczone wyniki zapytania w postaci fizycznej tabeli. Ponieważ dane są faktycznie przechowywane na dysku, jest to skomplikowane

Ivy Johnson 20 marca 2025 r 7 minut czytania

Gotowy do wdrożenia? Od 2,48 USD/mies.

Niezależna chmura, od 2008. AMD EPYC, NVMe, 40 Gbps. 14-dniowy zwrot pieniędzy.

Wdróż VPS Zobacz wszystkie plany