Comment installer Hadoop sur Ubuntu : un guide complet

De nos jours, dès qu'une entreprise ou toute opération impliquant des ordinateurs se développe au point de nécessiter la gestion de plusieurs ordinateurs, nous commençons immédiatement à utiliser plusieurs ordinateurs dans le cadre d'un réseau unique pour gérer plus efficacement la charge de travail. C’est devenu monnaie courante à tel point qu’aujourd’hui presque toutes les opérations dans des domaines comme la science des données sont effectuées par ces ordinateurs en réseau. Même si l'exécution de tâches informatiques exigeantes est sans aucun doute plus efficace de cette façon, cela est également incroyablement compliqué, car vous devez configurer individuellement chaque ordinateur, puis gérer l'ensemble du réseau au fur et à mesure de vos tâches. C’est là que des programmes comme Hadoop entrent en jeu pour sauver la situation.

Table des matières

Qu’est-ce qu’Apache Hadoop ?
Cas d'utilisation de Hadoop
Présentation de l'architecture Hadoop
Installer Hadoop sur Ubuntu 20.04 – Guide étape par étape
Conclusion
FAQ

Hadoop est une suite d'outils et de programmes publiés par Apache qui permet d'effectuer l'ensemble du processus de mise en réseau d'un groupe d'ordinateurs avec beaucoup plus d'efficacité et de facilité. Ainsi, dans cet article, je vais passer en revue Hadoop, examiner ses cas d'utilisation, passer en revue ses avantages et ses inconvénients et donner un aperçu de son architecture avancée, avant de passer à un guide étape par étape sur la façon d'installer Hadoop sur Ubuntu 20.04 pour terminer ce didacticiel Hadoop 2024.

Qu’est-ce qu’Apache Hadoop ?

Hadoop, une suite d'outils optimisée par Apache, transforme la configuration et l'utilisation du réseau depuis plus de 15 ans. Les utilisateurs peuvent tirer parti de l’efficacité des ressources de Hadoop, ce qui leur permet d’exploiter leur puissance de calcul actuelle pour des tâches exigeantes sans avoir besoin de mises à niveau coûteuses. La suite se compose de quatre modules : HDFS, YARN, MapReduce et Hadoop Common, chacun conçu pour des cas d'utilisation spécifiques.

L'éclat de Hadoop réside dans son ingéniosité inhérente, permettant intelligemment aux individus et aux organisations d'unir leurs capacités informatiques existantes en une force cohésive capable de surmonter d'importants défis informatiques. Sans les conseils de Hadoop, ces entités se retrouveraient obligées de se lancer dans la coûteuse acquisition de machines informatiques de plus en plus puissantes.

Cas d'utilisation de Hadoop

Nous savons maintenant ce qu'est Hadoop. Mais comment exactement ses cas d’utilisation s’appliquent-ils dans le monde réel ? Comprendre un programme sur papier, c'est bien beau, mais cela ne remplacera jamais la réalisation de son potentiel dans le cadre d'une opération sérieuse. Je vais donc ici donner quelques exemples avant de passer au tutoriel Hadoop.

Analyse des risques

Comme déjà mentionné, Hadoop vous permet d'exploiter la puissance de plusieurs systèmes informatiques dans le cadre d'une seule unité réseau pour parcourir efficacement des lots de données volumineuses et les analyser plus rapidement que d'habitude. Dans toute entreprise, il existe des risques qui nécessitent une analyse et un calcul. Hadoop est extrêmement pratique ici. À tel point que de nombreux hôpitaux crédibles l’utilisent pour analyser les risques de différents traitements et supposer les résultats potentiels et les statistiques de leurs opérations pour leurs patients. Vous en apprenez davantage sur le rôle révolutionnaire de Hadoop dans le domaine de la santé ici.

Détection des failles de sécurité

À mesure que le nombre total de réseaux et d'appareils utilisés augmente au sein d'un réseau ou d'une entreprise, il existe de plus en plus de failles de sécurité potentielles dont il faut tenir compte. L'un des utilitaires essentiels de Hadoop consiste à évaluer l'intégralité d'une opération en analysant de gros lots de données et en mettant en évidence les points faibles potentiels de ce système.

Cartographie des avis

De nombreuses entreprises s'appuient sur les commentaires qu'elles reçoivent sur leurs produits pour les améliorer ou développer de nouvelles stratégies de marché. Alors qu'il faudra du temps à un humain pour couvrir un fichier de révision suffisamment volumineux, Hadoop utilisera la magie de son ordinateur en réseau pour produire des résultats beaucoup plus rapides.

Analyse de marché

En parlant de stratégies de marché, la cartographie d’examen susmentionnée n’est rien en comparaison du nombre de ressources nécessaires pour analyser le marché et évaluer le potentiel d’entrée d’un tout nouveau produit. Il s'agit d'un autre cas d'utilisation dans lequel Hadoop brille car il permet même aux petites entreprises émergentes d'évaluer efficacement le marché avec plusieurs ordinateurs dans un délai et de manière efficaces.

Évaluation des fichiers journaux

Un autre aspect des entreprises qui se complique au fil du temps et qui devient plus important est la quantité de logiciels qu’elles commenceront à utiliser à tous les niveaux. L'utilisation de plus en plus de logiciels entraîne davantage de bugs et de problèmes potentiels et nécessite un employé dédié pour gérer les fichiers journaux et gérer les problèmes. Cela prendra beaucoup de temps, mais en utilisant quelques protocoles simples, une entreprise peut utiliser Hadoop pour examiner et évaluer rapidement les fichiers journaux afin de trouver ces bogues et de s'en débarrasser.

Il existe une tonne d'autres cas d'utilisation et applications Hadoop, mais afin de rester concentrés sur l'objectif de l'article, nous n'en discuterons pas davantage.

Présentation de l'architecture Hadoop

Disons que vous avez entendu parler de Hadoop, de ses cas d'utilisation généraux et de ce qu'il fait. Et même si ce n’est pas le cas, cet article l’a probablement fait pour vous jusqu’à présent. Mais vous devez maintenant acquérir une compréhension approfondie de ce qui constitue réellement Hadoop et de la manière dont chaque partie fonctionne avec ses autres fonctionnalités. Comme mentionné précédemment, il existe quatre couches générales de Hadoop : dans cette partie du didacticiel Hadoop, nous allons en apprendre davantage sur HDFS (Hadoop Distributed File System), YARN (Yet Another Resource Negoator), MapReduce et Hadoop Common. Cependant, comme Hadoop Common ne possède pas beaucoup de fonctionnalités à expliquer, ses éléments essentiels sont connus sous le nom de Gardien de zoo. Ainsi, dans cette section, je vais tenter de résumer l'architecture et l'écosystème avancés de Hadoop et ses quatre sections en termes de base, avant de finalement passer à la façon d'installer Hadoop sur Ubuntu 20.04.

HDFS

HDFS dans l'écosystème Hadoop constitue le système de stockage global que toutes les sous-sections et applications Hadoop utilisent pour évaluer, transférer et enregistrer des données. Le point principal de l'architecture HDFS est que contrairement à Hadoop lui-même, un programme open source, HDFS dans Hadoop est en fait le système de fichiers responsable de l'exécution de toutes les opérations sous-jacentes d'un seul cluster Hadoop. HDFS est un système de fichiers incroyablement résilient qui divise les lots de données en intervalles de 128 Mo et les optimise pour les opérations basées sur des séquences.

Le rôle principal de HDFS dans le logiciel Hadoop est de fournir toutes les données dans le cadre d'un rack de données global, qui peut ensuite être manipulé via différents nœuds de nom et racks secondaires en sous-sections pour organiser votre opération d'analyse de données. Vous pouvez ensuite utiliser les autres options telles que les racks de journaux, QJM, HA, fsimage et modifier les fichiers journaux ainsi que le journal de légende global pour suivre et effectuer d'autres tâches.

FIL

YARN est une autre branche exécutive de Hadoop utilisée pour attribuer les quantités souhaitées d'actifs informatiques à des applications spécifiques au sein de l'écosystème Hadoop. Essentiellement, il vous permet d'utiliser un gestionnaire de ressources pour vos clients afin d'allouer ces ressources via un ensemble de nœuds différents à différentes tâches et applications. Il existe également une légende dans YARN, similaire à celle de HDFS, qui vous permet de suivre tous vos actifs et opérations alloués. YARN lui-même est divisé en trois sous-sections : le gestionnaire de ressources, l'application maître et le gestionnaire de nœuds.

Chacune de ces trois sous-sections crée une nouvelle instance d'elle-même par cluster, application et nœud, respectivement. Non seulement vous pouvez allouer des ressources à différentes tâches à l'aide de YARN, mais vous pouvez également planifier ces ressources pour qu'elles changent au fil du temps afin de proposer des flux de travail algorithmiques avancés. YARN ne se limite pas à sa sous-section. Il y aura de nombreux cas dans lesquels vous utiliserez YARN en conjonction avec d'autres couches architecturales telles que HDFS et Zookeeper pour allouer des ressources et évaluer votre fonctionnement global.

Hadoop Mapreduce

Hadoop MapReduce est un autre composant majeur de l'écosystème Hadoop. Une fois que vous avez installé Hadoop sur Ubuntu, vous pouvez utiliser cette fonctionnalité pour analyser efficacement un énorme lot de données de manière distribuée par plusieurs ordinateurs différents. Essentiellement, Hadoop MapReduce fonctionne comme ceci : vous saisissez une grande carte de données dans le programme. Cette carte de données sera mélangée, décomposée et distribuée sur vos ordinateurs en réseau. Par la suite, à l’aide de protocoles particuliers appelés réducteurs, les données sont réduites à leurs composants les plus essentiels et réduites. Chacune de ces opérations est appelée un Job.

Disons que vous disposez d'une phrase de trois mots qui fait office de carte de données que vous souhaitez analyser avec MapReduce. Disons que la phrase est Bear Hunt Rabbit. Hadoop MapReduce décomposera et réduira cette phrase en trois lots différents contenant chacun un mot, puis utilisera ces mots et fera de nouvelles combinaisons avec la saisie de données similaires de vos autres tâches pour créer un lot de données final homogénéisé avec les données inutiles supprimées et pouvant facilement être analysé.

Gardien de zoo

Zookeeper est une autre sous-section de l'écosystème Hadoop qui est initialement devenue importante et couramment utilisée avec la sortie de Hadoop version 2.0. Le principal point de service de Zookeeper est de coordonner les différentes opérations que vous exécutez dans le cadre d'une seule instance Hadoop. En tant que tel, Zookeeper est presque toujours utilisé en conjonction avec le gestionnaire de ressources de YARN et les différentes fonctionnalités de HDFS dans Hadoop. L’utilisation principale de Zookeeper dans ces opérations est de détecter et de remédier aux points de défaillance potentiels. Pour ce faire, il utilise deux outils différents : ZKFiloverControer et Zookeeper Quorum.

Dans ces procédures, les nœuds de données gérés par d'autres composants de l'architecture Hadoop sont classés comme nœuds de noms actifs, supervisés par l'utilisateur. Par la suite, chacun de ces nœuds de noms est soumis à un examen minutieux au sein des deux sous-sections susmentionnées du Zookeeper. Ceci est fait pour identifier les zones de difficulté et identifier les échecs potentiels.

Installer Hadoop sur Ubuntu 20.04 – Guide étape par étape

Et enfin, après avoir découvert l'architecture Hadoop, il est temps d'entrer dans le vif du sujet, à savoir comment installer Hadoop sur Ubuntu 20.04 dans le cadre de la dernière partie de ce didacticiel Hadoop. Passons en revue les conditions préalables avant de passer au guide étape par étape pour installer Hadoop sur Ubuntu 20.04. Gardez à l’esprit que ce guide peut également être utilisé pour Ubuntu 18.04.

Conditions préalables

Les conditions préalables nécessaires pour installer Hadoop sur Ubuntu sont assez simples. Tout ce dont vous avez besoin est un ordinateur fonctionnant sous Ubuntu avec un accès root, disponible localement ou accessible à distance via un serveur VPS. Concernant les programmes prérequis, assurez-vous que Java 11 et SSH sont déjà installés. Si vous ne les avez pas, exécutez les commandes suivantes une par une pour les installer :

sudo apt update && sudo apt upgrade -y

sudo apt install openssh-server openssh-client -y

sudo apt install openjdk-11-jdk -y

Quant à la licence, vous n’en aurez pas besoin, puisque Hadoop est gratuit et open-source. C'est tout ce dont vous avez besoin. Passons à la première étape.

Étape 1 : Créer un utilisateur non root pour Hadoop

Créez un utilisateur non root pour votre Hadoop à l'aide de la commande suivante. Cela fait partie des pré-configurations que nous devons effectuer avant de télécharger et d'installer Hadoop :

sudo adduser hdoop

su - hdoop

Étape 2 : configurer les clés SSH

Maintenant, afin d'installer Hadoop sur Ubuntu, nous allons utiliser l'utilisateur Hadoop que vous venez de créer et l'utiliser pour établir une connexion SSH avec lui. Utilisez cette commande pour générer une paire de clés SSH et enregistrez-la :

ssh-keygen -t rsa -P '' -f ~/.ssh/id_rsa

Une fois les clés générées, cette ligne suivante vous permettra de les marquer comme clés_autorisées et enregistrez-les dans votre répertoire SSH :

cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys

Utilisez maintenant cette commande pour vous assurer que votre connexion SSH dispose de toutes les autorisations requises :

chmod 600 ~/.ssh/authorized_keys

chmod 700 ~/.ssh

Confirmez les modifications et vous pourrez facilement vous connecter à votre localhost à tout moment avec l'utilisateur que vous avez créé :

ssh localhost

Étape 3 : Téléchargez et installez Hadoop sur Ubuntu

Vous pouvez visiter le Site Web Apache Hadoop pour voir une liste des versions avec leur journal des modifications récentes. Sélectionnez la version de votre choix et un lien qui peut être utilisé avec la commande suivante vous sera présenté pour télécharger et installer Hadoop sur Ubuntu. Ici, je choisis la version 3.3.6. Remplacez « 3.3.6 » par la dernière version stable si nécessaire :

wget https://downloads.apache.org/hadoop/common/hadoop-3.3.6/hadoop-3.3.6.tar.gz

Une fois le téléchargement terminé, utilisez cette ligne pour terminer le processus d'extraction et d'installation :

tar xzf hadoop-3.3.6.tar.gz

sudo mv hadoop-3.3.6 /usr/local/hadoop

sudo chown -R hdoop:hdoop /usr/local/hadoop

Étape 4 : configurer l'environnement Hadoop

Ensemble JAVA_HOME in /usr/local/hadoop/etc/hadoop/hadoop-env.sh:

echo 'export JAVA_HOME=$(readlink -f /usr/bin/java | sed "s:bin/java::")' | sudo tee -a /usr/local/hadoop/etc/hadoop/hadoop-env.sh

Étape 5 : Modifier les fichiers de configuration

Mettez à jour les fichiers de configuration XML de Hadoop avec les paramètres de votre cluster.

nano /usr/local/hadoop/etc/hadoop/core-site.xml

Étape 6 : Formater HDFS

Initialisez l'espace de noms du système de fichiers Hadoop.

/usr/local/hadoop/bin/hdfs namenode -format

Étape 7 : Démarrez les services Hadoop

Lancez les services HDFS et YARN.

/usr/local/hadoop/sbin/start-dfs.sh

/usr/local/hadoop/sbin/start-yarn.sh

Étape 8 : Vérifier l'installation

Vérifiez les processus Java en cours d'exécution pour confirmer que Hadoop est en cours d'exécution.

jps

Étape 9 : accéder aux interfaces Web

Ouvrez les navigateurs Web sur les interfaces NameNode et ResourceManager de Hadoop.

NomNode : http://localhost:9870
Gestionnaire de ressources : http://localhost:8088

Étape 10 : Exécuter un exemple MapReduce

Exécutez un exemple de tâche MapReduce pour valider la configuration.

/usr/local/hadoop/bin/hdfs dfs -mkdir /input

/usr/local/hadoop/bin/hdfs dfs -put localfile.txt /input

/usr/local/hadoop/bin/hadoop jar

/usr/local/hadoop/share/hadoop/mapreduce/hadoop-mapreduce-examples-3.3.6.jar grep /input /output 'dfs[a-z.]+'

/usr/local/hadoop/bin/hdfs dfs -cat /output/*

Étape 11 : Définir les variables d'environnement

Ajouter Hadoop poubelle et sbin répertoires vers le PATH du système.

echo 'export PATH=$PATH:/usr/local/hadoop/bin:/usr/local/hadoop/sbin' >> ~/.bashrc

source ~/.bashrc

Et c'est tout ! Vous venez de réussir à configurer et installer Apache Hadoop sur Ubuntu 20.04 !

Conclusion

En résumé, l'installation de Hadoop sur Ubuntu 20.04 est un processus approfondi qui nécessite une attention méticuleuse et une volonté d'explorer les nuances de la configuration. En respectant les étapes fournies dans ce guide, les utilisateurs d'Ubuntu peuvent se lancer dans un voyage de transformation, en exploitant les capacités substantielles de Hadoop pour réaliser pleinement le potentiel de leurs activités d'analyse de données.

Ma recommandation est de déployer Hadoop en tant que déploiement à nœud unique en utilisant une distribution limitée si vous avez uniquement l'intention d'apprendre et de jouer avec. A cet effet, un VPS fonctionnera parfaitement pour vous. Cloudzy vous propose une multitude de différents Services VPS Linux y compris un Ironclad, fiable VPN Ubuntu qui peut être configuré en un rien de temps pour devenir le terrain de jeu d'apprentissage Hadoop parfait pour vous. À partir de 4,95 $ par mois, vous pouvez obtenir votre propre VPS Ubuntu avec plus de 12 emplacements et une assistance attentionnée 24h/24 et 7j/7 !

Le choix évident

La majorité des serveurs exécutés sous Linux utilisent Ubuntu ; pourquoi pas toi ? Découvrez pourquoi tout le monde aime Ubuntu : obtenez un VPS Ubuntu optimisé

Obtenez votre VPS Ubuntu

FAQ

Quelles sont les différences entre HDFS et MapReduce ?

Bien que les deux modules résident dans l'écosystème Hadoop, ils répondent à des objectifs distincts. HDFS fonctionne comme un système de fichiers distribué, facilitant l'accessibilité aux données. D'un autre côté, MapReduce excelle dans la décomposition et l'analyse efficace de gros morceaux de données.

Hadoop est-il considéré comme une base de données ?

Hadoop n'est pas une base de données, même si cette idée fausse est courante. Il fonctionne plutôt comme un système de fichiers distribué qui permet le stockage et le traitement de données volumineuses à l'aide d'un réseau d'ordinateurs interconnectés. Il ne doit pas être utilisé en remplacement direct d’un système de base de données traditionnel.

Quels sont les quatre composants principaux de Hadoop ?

Hadoop se compose de quatre composants principaux : HDFS (Hadoop Distributed File System), YARN (Yet Another Resource Negoator), MapReduce et Hadoop Common. De plus, certaines ressources considèrent ZooKeeper comme un composant, bien qu'il ne soit pas officiellement reconnu comme tel.

Où Hadoop est-il généralement utilisé ?

Hadoop trouve des applications dans divers domaines où la gestion, le stockage, le traitement et l'analyse de données à grande échelle sont essentiels. Il s'adresse à des opérations allant des entreprises et hôpitaux de taille moyenne aux startups en plein essor, en fournissant des solutions basées sur les données.

Plus du blog

Continuez à lire.

Bases de données et analyses

Comment installer MongoDB sur les trois dernières versions d'Ubuntu (étape par étape)

Vous avez donc décidé d'utiliser MongoDB, une excellente alternative à MariaDB pour créer une application de pile MERN, une plate-forme d'analyse ou tout autre système basé sur des documents, mais vous vous êtes heurté à un mur avec une bonne solution.

Jim Schwarz 25 février 2026 12 minutes de lecture

Bases de données et analyses

Gestion intelligente des données pour votre entreprise : stratégies de stockage et de sauvegarde « de type cloud » avec VPS

Le VPS pour la gestion sécurisée des données d'entreprise est la stratégie que je recommande chaque fois qu'une entreprise décide qu'il est temps d'arrêter de jongler avec les fichiers sur les ordinateurs portables, les pièces jointes aux e-mails et les moitiés oubliées.

Rexa Cyrus 9 juillet 2025 7 minutes de lecture

Bases de données et analyses

Vue matérialisée vs vue : comprendre leur rôle dans les bases de données

Dans les systèmes de bases de données, une vue matérialisée en tant qu'objet de base de données stocke les résultats précalculés d'une requête sous forme de table physique. Parce que les données sont en fait stockées sur disque, cela complique

Ivy Johnson 20 mars 2025 7 minutes de lecture

Prêt à déployer ? À partir de 2,48 $/mois.

Cloud indépendant, depuis 2008. AMD EPYC, NVMe, 40 Gbps. Remboursement sous 14 jours.

Déployer un VPS Voir tous les forfaits