Wenn heutzutage ein Unternehmen oder ein Betrieb, bei dem Computer zum Einsatz kommen, so weit wächst, dass mehr als ein Computer zur Bearbeitung erforderlich ist, beginnen wir sofort damit, mehrere Computer als Teil eines einzigen Netzwerks zu verwenden, um die Arbeitslast effizienter zu bewältigen. Dies ist so weit verbreitet, dass heutzutage fast alle Vorgänge in Bereichen wie der Datenwissenschaft von diesen vernetzten Computern ausgeführt werden. Obwohl die Ausführung anspruchsvoller Computeraufgaben auf diese Weise zweifellos effizienter ist, ist sie auch unglaublich kompliziert, da Sie jeden Computer einzeln konfigurieren und dann das gesamte Netzwerk verwalten müssen, während es Ihre Aufgaben erledigt. Hier kommen Programme wie Hadoop ins Spiel, um den Tag zu retten.
- Was ist Apache Hadoop?
- Hadoop-Anwendungsfälle
- Übersicht über die Hadoop-Architektur
- Hadoop unter Ubuntu 20.04 installieren – Schritt-für-Schritt-Anleitung
- Voraussetzungen
- Schritt 1: Erstellen Sie einen Nicht-Root-Benutzer für Hadoop
- Schritt 2: SSH-Schlüssel einrichten
- Schritt 3: Laden Sie Hadoop unter Ubuntu herunter und installieren Sie es
- Schritt 4: Konfigurieren Sie die Hadoop-Umgebung
- Schritt 5: Konfigurationsdateien bearbeiten
- Schritt 6: HDFS formatieren
- Schritt 7: Starten Sie die Hadoop-Dienste
- Schritt 8: Installation überprüfen
- Schritt 9: Greifen Sie auf Webschnittstellen zu
- Schritt 10: Führen Sie ein MapReduce-Beispiel aus
- Schritt 11: Umgebungsvariablen festlegen
- Abschluss
- FAQ
Hadoop ist eine von Apache veröffentlichte Suite von Tools und Programmen, mit der der gesamte Prozess der Vernetzung mehrerer Computer wesentlich effizienter und einfacher durchgeführt werden kann. In diesem Artikel werde ich Hadoop besprechen, seine Anwendungsfälle untersuchen, seine Vor- und Nachteile durchgehen und einen Überblick über seine fortschrittliche Architektur geben, bevor ich mit einer Schritt-für-Schritt-Anleitung zur Installation von Hadoop unter Ubuntu 20.04 fortfahre, um dieses Hadoop-Tutorial 2024 abzuschließen.
Was ist Apache Hadoop?
Hadoop, eine von Apache unterstützte Suite von Tools, verändert seit über 15 Jahren die Netzwerkeinrichtung und -nutzung. Benutzer können von der Ressourceneffizienz von Hadoop profitieren und ihre aktuelle Rechenleistung für anspruchsvolle Aufgaben nutzen, ohne dass teure Upgrades erforderlich sind. Die Suite besteht aus vier Modulen: HDFS, YARN, MapReduce und Hadoop Common, die jeweils für bestimmte Anwendungsfälle konzipiert sind.
Die Brillanz von Hadoop liegt in seinem inhärenten Einfallsreichtum, der sowohl Einzelpersonen als auch Organisationen auf clevere Weise in die Lage versetzt, ihre vorhandenen Rechenkapazitäten zu einer zusammenhängenden Kraft zu vereinen, die in der Lage ist, erhebliche Rechenherausforderungen zu bewältigen. Ohne die Anleitung von Hadoop wären diese Unternehmen gezwungen, sich auf die kostspielige Suche nach immer leistungsfähigeren Computern einzulassen.
Hadoop-Anwendungsfälle
Jetzt wissen wir, was Hadoop ist. Aber wie genau lassen sich die Anwendungsfälle in der realen Welt umsetzen? Es ist schön und gut, ein Programm auf dem Papier zu verstehen, aber es wird niemals das Erkennen seines Potenzials im Rahmen einer ernsthaften Operation ersetzen. Deshalb werde ich hier einige Beispiele bereitstellen, bevor ich mit dem Hadoop-Tutorial fortfahre.
Risikoanalyse
Wie bereits erwähnt, können Sie mit Hadoop die Leistung mehrerer Computersysteme als Teil einer einzigen Netzwerkeinheit nutzen, um Stapel umfangreicher Daten effizient zu verarbeiten und diese schneller als üblich zu analysieren. In jedem Unternehmen gibt es Risiken, die einer Analyse und Berechnung bedürfen. Hadoop ist hier äußerst praktisch. So sehr, dass viele seriöse Krankenhäuser es nutzen, um die Risiken verschiedener Behandlungen zu analysieren und die möglichen Ergebnisse und Statistiken ihrer Operationen für ihre Patienten abzuschätzen. Hier erfahren Sie mehr über die revolutionäre Rolle von Hadoop im Gesundheitswesen.
Sicherheitslücken erkennen
Da die Gesamtzahl der Netzwerke und genutzten Geräte innerhalb eines Netzwerks oder Unternehmens zunimmt, gibt es immer mehr potenzielle Sicherheitsverletzungen, die es zu beachten gilt. Einer der wesentlichen Nutzen von Hadoop ist die Bewertung des gesamten Vorgangs durch die Analyse großer Datenmengen und die Hervorhebung potenzieller Schwachstellen dieses Systems.
Überprüfungszuordnung
Viele Unternehmen verlassen sich auf das Feedback, das sie zu ihren Produkten erhalten, um diese zu verbessern oder neue Marktstrategien zu entwickeln. Während ein Mensch ewig braucht, um eine ausreichend große Prüfdatei zu bearbeiten, wird Hadoop seine vernetzte Computermagie einsetzen, um viel schnellere Ergebnisse zu erzielen.
Marktanalyse
Apropos Marktstrategien: Die oben erwähnte Überprüfungskartierung verblasst im Vergleich zu der Menge an Ressourcen, die zur Analyse des Marktes erforderlich sind, um das Potenzial für den Markteintritt eines brandneuen Produkts einzuschätzen. Dies ist ein weiterer Anwendungsfall, in dem Hadoop glänzt, da es selbst kleinen aufstrebenden Unternehmen ermöglicht, den Markt mit mehreren Computern in einem effizienten Zeitrahmen und auf effiziente Weise zu bewerten.
Protokolldateien auswerten
Ein weiterer Aspekt von Unternehmen, der mit der Zeit immer komplizierter und wichtiger wird, ist die Menge an Software, die sie flächendeckend einsetzen. Die Verwendung von immer mehr Software führt zu mehr potenziellen Fehlern und Schwachstellen und erfordert einen engagierten Mitarbeiter, der die Protokolldateien verwaltet und die Probleme löst. Dies wird viel Zeit in Anspruch nehmen, aber mit ein paar einfachen Protokollen kann ein Unternehmen Hadoop nutzen, um Protokolldateien schnell zu überprüfen und zu bewerten, um diese Fehler zu finden und zu beseitigen.
Es gibt eine Menge anderer Hadoop-Anwendungsfälle und -Anwendungen, aber um den Fokus auf den Zweck des Artikels zu legen, werden wir nicht weiter darauf eingehen.
Übersicht über die Hadoop-Architektur
Nehmen wir an, Sie haben von Hadoop und seinen allgemeinen Anwendungsfällen und seinen Funktionen gehört. Und selbst wenn Sie es nicht getan haben, hat dieser Artikel das bisher wahrscheinlich für Sie erledigt. Jetzt müssen Sie jedoch ein tiefgreifendes Verständnis dafür erlangen, woraus Hadoop eigentlich besteht und wie jeder Teil davon mit seinen anderen Funktionen zusammenarbeitet. Wie bereits erwähnt, gibt es vier allgemeine Schichten von Hadoop; In diesem Teil des Hadoop-Tutorials erfahren wir mehr über HDFS (Hadoop Distributed File System), YARN (Yet Another Resource Negotiator), MapReduce und Hadoop Common. Da Hadoop Common jedoch nicht über allzu viele Funktionen verfügt, die einer Erklärung bedürfen, werden die wesentlichen Merkmale als „“ bezeichnet Tierpfleger. In diesem Abschnitt werde ich versuchen, die fortgeschrittene Hadoop-Architektur und das Hadoop-Ökosystem sowie ihre vier Abschnitte in grundlegenden Begriffen zusammenzufassen, bevor ich mich schließlich mit der Installation von Hadoop unter Ubuntu 20.04 befasse.
HDFS
HDFS im Hadoop-Ökosystem stellt das Gesamtspeichersystem dar, das alle Hadoop-Unterabschnitte und -Anwendungen zum Auswerten, Übertragen und Speichern von Daten verwenden. Der Hauptpunkt der HDFS-Architektur besteht darin, dass HDFS in Hadoop im Gegensatz zu Hadoop selbst, einem Open-Source-Programm, tatsächlich das Dateisystem ist, das für die Ausführung aller zugrunde liegenden Vorgänge eines einzelnen Hadoop-Clusters verantwortlich ist. HDFS ist ein unglaublich belastbares Dateisystem, das die Datenstapel in 128-MB-Chinks aufteilt und sie für sequenzbasierte Vorgänge optimiert.
Die Hauptaufgabe von HDFS in der Hadoop-Software besteht darin, alle Daten als Teil eines gesamten Daten-Racks bereitzustellen, die dann über verschiedene Namensknoten und sekundäre Racks in Unterabschnitte manipuliert werden können, um Ihren Datenanalysevorgang zu organisieren. Sie können dann die anderen Optionen wie Journal-Racks, QJM, HA, fsimage verwenden und Protokolldateien und das gesamte Legendenprotokoll bearbeiten, um den Überblick zu behalten und andere Aufgaben auszuführen.
GARN
YARN ist ein weiterer ausführender Zweig von Hadoop, der verwendet wird, um bestimmten Anwendungen innerhalb des Hadoop-Ökosystems gewünschte Mengen an Rechenressourcen zuzuweisen. Im Wesentlichen ermöglicht es Ihnen, einen Ressourcenmanager für Ihre Clients zu verwenden, um diese Ressourcen über eine Reihe verschiedener Knoten verschiedenen Aufgaben und Anwendungen zuzuweisen. Es gibt auch eine Legende in YARN, die es Ihnen ähnlich wie in HDFS ermöglicht, den Überblick über alle Ihre zugewiesenen Assets und Vorgänge zu behalten. YARN selbst ist in drei Unterabschnitte unterteilt: den Ressourcenmanager, den Anwendungsmaster und den Knotenmanager.
Jeder dieser drei Unterabschnitte erstellt jeweils eine neue Instanz pro Cluster, Anwendung und Knoten. Sie können mit YARN nicht nur Ressourcen verschiedenen Aufgaben zuweisen, sondern Sie können diese Ressourcen auch so planen, dass sie sich im Laufe der Zeit ändern, um erweiterte algorithmische Arbeitsabläufe zu erstellen. YARN ist nicht auf seinen Unterabschnitt beschränkt. Es wird viele Fälle geben, in denen Sie YARN in Verbindung mit anderen Architekturschichten wie HDFS und Zookeeper verwenden, um Ressourcen zuzuweisen und Ihren Gesamtbetrieb zu bewerten.
Hadoop Mapreduce
Hadoop MapReduce ist eine weitere wichtige Komponente im Hadoop-Ökosystem. Sobald Sie Hadoop unter Ubuntu installiert haben, können Sie diese Funktion nutzen, um eine große Menge an Daten effektiv und verteilt auf mehreren verschiedenen Computern analysieren zu lassen. Im Wesentlichen funktioniert Hadoop MapReduce so: Sie geben eine große Datenkarte in das Programm ein. Diese Datenkarte wird gemischt, aufgeschlüsselt und auf Ihren vernetzten Computern verteilt. Anschließend werden die Daten mithilfe bestimmter Protokolle, sogenannter Reducer, auf ihre wesentlichen Bestandteile reduziert und reduziert. Jeder dieser Vorgänge wird als Job bezeichnet.
Nehmen wir an, Sie haben einen aus drei Wörtern bestehenden Satz, der als Datenkarte dient, die Sie mit MapReduce analysieren möchten. Nehmen wir an, der Satz lautet „Bear Hunt Rabbit“. Hadoop MapReduce zerlegt und reduziert diesen Satz in drei verschiedene Stapel mit jeweils einem Wort, verwendet dann diese Wörter und erstellt neue Kombinationen mit ähnlichen Dateneingaben Ihrer anderen Jobs, um einen endgültigen homogenisierten Datenstapel mit entfernten unnötigen Daten zu erstellen, der leicht analysiert werden kann.
Tierpfleger
Zookeeper ist ein weiterer Unterabschnitt des Hadoop-Ökosystems, der erstmals mit der Veröffentlichung von Hadoop Version 2.0 an Bedeutung und allgemeiner Nutzung erlangte. Der Hauptzweck von Zookeeper besteht darin, die verschiedenen Vorgänge zu koordinieren, die Sie als Teil einer einzelnen Hadoop-Instanz ausführen. Daher wird Zookeeper fast immer in Verbindung mit dem Resource Manager von YARN und den verschiedenen Funktionen von HDFS in Hadoop verwendet. Der Hauptzweck von Zookeeper bei diesen Vorgängen besteht darin, potenzielle Fehlerquellen zu erkennen und zu beheben. Dazu nutzt es zwei verschiedene Tools: ZKFiloverControer und das Zookeeper Quorum.
Bei diesen Verfahren werden die von anderen Komponenten der Hadoop-Architektur verwalteten Datenknoten als aktive Namensknoten kategorisiert, die vom Benutzer überwacht werden. Anschließend wird jeder dieser Namensknoten in den beiden oben genannten Unterabschnitten des Zookeepers einer Prüfung unterzogen. Dies geschieht, um Problembereiche zu lokalisieren und potenzielle Fehler zu identifizieren.
Hadoop unter Ubuntu 20.04 installieren – Schritt-für-Schritt-Anleitung
Und schließlich, nachdem Sie etwas über die Hadoop-Architektur erfahren haben, ist es an der Zeit, sich im letzten Teil dieses Hadoop-Tutorials mit der Sache zu befassen, nämlich der Installation von Hadoop unter Ubuntu 20.04. Lassen Sie uns die Voraussetzungen besprechen, bevor wir mit der Schritt-für-Schritt-Anleitung zur Installation von Hadoop unter Ubuntu 20.04 fortfahren. Beachten Sie, dass dieses Handbuch auch für Ubuntu 18.04 verwendet werden kann.
Voraussetzungen
Die Voraussetzungen für die Installation von Hadoop unter Ubuntu sind ziemlich einfach. Sie benötigen lediglich einen Ubuntu-Computer mit Root-Zugriff, der entweder lokal verfügbar oder über einen VPS-Server remote zugänglich ist. Stellen Sie hinsichtlich der erforderlichen Programme sicher, dass Java 11 und SSH bereits installiert sind. Wenn Sie sie nicht haben, führen Sie die folgenden Befehle nacheinander aus, um sie zu installieren:
sudo apt update && sudo apt upgrade -y
sudo apt install openssh-server openssh-client -y
sudo apt install openjdk-11-jdk -y
Sie benötigen keine Lizenz, da Hadoop kostenlos und Open Source ist. Das ist alles was Sie brauchen. Fahren wir mit Schritt eins fort.
Schritt 1: Erstellen Sie einen Nicht-Root-Benutzer für Hadoop
Erstellen Sie mit dem folgenden Befehl einen Nicht-Root-Benutzer für Ihr Hadoop. Dies ist Teil der Vorkonfigurationen, die wir vornehmen müssen, bevor wir Hadoop tatsächlich herunterladen und installieren:
sudo adduser hdoop
su - hdoop
Schritt 2: SSH-Schlüssel einrichten
Um nun Hadoop unter Ubuntu zu installieren, verwenden wir den soeben erstellten Hadoop-Benutzer und stellen damit eine SSH-Verbindung her. Mit diesem Befehl generieren Sie ein SSH-Schlüsselpaar und speichern es:
ssh-keygen -t rsa -P '' -f ~/.ssh/id_rsa
Sobald die Schlüssel generiert wurden, können Sie sie in der folgenden Zeile als markieren autorisierte_Schlüssel und speichern Sie sie in Ihrem SSH-Verzeichnis:
cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys
Stellen Sie nun mit diesem Befehl sicher, dass Ihre SSH-Verbindung über alle erforderlichen Berechtigungen verfügt:
chmod 600 ~/.ssh/authorized_keys
chmod 700 ~/.ssh
Bestätigen Sie die Änderungen und Sie können jederzeit problemlos eine Verbindung zu Ihrem Localhost mit dem von Ihnen erstellten Benutzer herstellen:
ssh localhost
Schritt 3: Laden Sie Hadoop unter Ubuntu herunter und installieren Sie es
Sie können die besuchen Apache Hadoop-Website um eine Liste der Versionen mit ihrem letzten Änderungsprotokoll anzuzeigen. Wählen Sie die gewünschte Version aus und Sie erhalten einen Link, der mit dem folgenden Befehl zum Herunterladen und Installieren von Hadoop unter Ubuntu verwendet werden kann. Hier wähle ich Version 3.3.6. Ersetzen Sie „3.3.6“ bei Bedarf durch die neueste stabile Version:
wget https://downloads.apache.org/hadoop/common/hadoop-3.3.6/hadoop-3.3.6.tar.gz
Sobald der Download abgeschlossen ist, verwenden Sie diese Zeile, um den Extraktions- und Installationsvorgang abzuschließen:
tar xzf hadoop-3.3.6.tar.gz
sudo mv hadoop-3.3.6 /usr/local/hadoop
sudo chown -R hdoop:hdoop /usr/local/hadoop
Schritt 4: Konfigurieren Sie die Hadoop-Umgebung
Satz JAVA_HOME in /usr/local/hadoop/etc/hadoop/hadoop-env.sh:
echo 'export JAVA_HOME=$(readlink -f /usr/bin/java | sed "s:bin/java::")' | sudo tee -a /usr/local/hadoop/etc/hadoop/hadoop-env.sh
Schritt 5: Konfigurationsdateien bearbeiten
Aktualisieren Sie die XML-Konfigurationsdateien von Hadoop mit Ihren Cluster-Einstellungen.
nano /usr/local/hadoop/etc/hadoop/core-site.xml
Schritt 6: HDFS formatieren
Initialisieren Sie den Namespace des Hadoop-Dateisystems.
/usr/local/hadoop/bin/hdfs namenode -format
Schritt 7: Starten Sie die Hadoop-Dienste
Starten Sie HDFS- und YARN-Dienste.
/usr/local/hadoop/sbin/start-dfs.sh
/usr/local/hadoop/sbin/start-yarn.sh
Schritt 8: Installation überprüfen
Überprüfen Sie die laufenden Java-Prozesse, um sicherzustellen, dass Hadoop ausgeführt wird.
jps
Schritt 9: Greifen Sie auf Webschnittstellen zu
Öffnen Sie Webbrowser für die NameNode- und ResourceManager-Schnittstellen von Hadoop.
NameNode: http://localhost:9870
RessourcenManager: http://localhost:8088
Schritt 10: Führen Sie ein MapReduce-Beispiel aus
Führen Sie einen MapReduce-Beispieljob aus, um die Einrichtung zu validieren.
/usr/local/hadoop/bin/hdfs dfs -mkdir /input
/usr/local/hadoop/bin/hdfs dfs -put localfile.txt /input
/usr/local/hadoop/bin/hadoop jar
/usr/local/hadoop/share/hadoop/mapreduce/hadoop-mapreduce-examples-3.3.6.jar grep /input /output 'dfs[a-z.]+'
/usr/local/hadoop/bin/hdfs dfs -cat /output/*
Schritt 11: Umgebungsvariablen festlegen
Fügen Sie Hadoops hinzu Mülleimer Und sbin Verzeichnisse in den Systempfad.
echo 'export PATH=$PATH:/usr/local/hadoop/bin:/usr/local/hadoop/sbin' >> ~/.bashrc
source ~/.bashrc
Und das ist es! Sie haben es gerade geschafft, Apache Hadoop unter Ubuntu 20.04 erfolgreich zu konfigurieren und zu installieren!
Abschluss
Zusammenfassend lässt sich sagen, dass die Installation von Hadoop unter Ubuntu 20.04 ein gründlicher Prozess ist, der sorgfältige Aufmerksamkeit und die Bereitschaft erfordert, die Nuancen des Setups zu erkunden. Durch Befolgen der in diesem Leitfaden beschriebenen Schritte können Ubuntu-Benutzer eine transformative Reise beginnen und die umfangreichen Funktionen von Hadoop nutzen, um das Potenzial ihrer Datenanalyseaktivitäten voll auszuschöpfen.
Meine Empfehlung ist, Hadoop als Einzelknotenbereitstellung mit begrenzter Verteilung bereitzustellen, wenn Sie nur beabsichtigen, damit zu lernen und damit zu experimentieren. Zu diesem Zweck ist ein VPS perfekt für Sie geeignet. Cloudzy bietet Ihnen eine Vielzahl verschiedener Linux VPS-Dienste einschließlich eines Panzerpanzers, zuverlässig Ubuntu VPS Das lässt sich im Handumdrehen so konfigurieren, dass es für Sie zum perfekten Hadoop-Lernspielplatz wird. Ab 4,95 $ pro Monat können Sie Ihren eigenen Ubuntu VPS mit mehr als 12 Standorten und kompetentem Support rund um die Uhr erhalten!
Die offensichtliche Wahl
Die meisten Linux-Server nutzen Ubuntu; warum nicht du? Entdecken Sie, warum jeder Ubuntu liebt – holen Sie sich einen optimierten Ubuntu VPS
Holen Sie sich Ihren Ubuntu VPSFAQ
Was sind die Unterschiede zwischen HDFS und MapReduce?
Obwohl sich beide Module im Hadoop-Ökosystem befinden, dienen sie unterschiedlichen Zwecken. HDFS fungiert als verteiltes Dateisystem und erleichtert den Datenzugriff. Andererseits zeichnet sich MapReduce dadurch aus, dass es große Datenmengen aufschlüsselt und effizient analysiert.
Gilt Hadoop als Datenbank?
Hadoop ist keine Datenbank, obwohl dieses Missverständnis weit verbreitet ist. Vielmehr handelt es sich um ein verteiltes Dateisystem, das die Speicherung und Verarbeitung umfangreicher Daten über ein Netzwerk miteinander verbundener Computer ermöglicht. Es sollte nicht als direkter Ersatz für ein herkömmliches Datenbanksystem verwendet werden.
Was sind die vier Hauptkomponenten von Hadoop?
Hadoop besteht aus vier Kernkomponenten: HDFS (Hadoop Distributed File System), YARN (Yet Another Resource Negotiator), MapReduce und Hadoop Common. Darüber hinaus betrachten einige Ressourcen ZooKeeper als Komponente, obwohl es nicht offiziell als solche anerkannt ist.
Wo wird Hadoop typischerweise eingesetzt?
Hadoop findet Anwendungen in verschiedenen Bereichen, in denen die Verwaltung, Speicherung, Verarbeitung und Analyse großer Datenmengen von entscheidender Bedeutung ist. Es richtet sich an Betriebe von mittelständischen Unternehmen und Krankenhäusern bis hin zu aufstrebenden Start-ups und bietet datengesteuerte Lösungen.