50% de descuento Todos los planes, tiempo limitado. A partir de $2.48/mo
Quedan 13 minutos
Bases de datos y análisis

Cómo instalar Hadoop en Ubuntu: una guía completa

Pío Bodenmann By Pío Bodenmann 13 minutos de lectura Actualizado el 1 de mayo de 2024
cómo instalar hadoop en ubuntu linux

Hoy en día, una vez que una empresa o cualquier operación que involucre computadoras crece hasta el punto de requerir más de una computadora para manejarla, inmediatamente comenzamos a usar varias computadoras como parte de una sola red para manejar la carga de trabajo de manera más eficiente. Esto se ha vuelto común hasta el punto de que hoy en día casi todas las operaciones en campos como la ciencia de datos se realizan mediante estas computadoras en red. Si bien sin duda realizar tareas informáticas exigentes es más eficiente de esta manera, también es increíblemente complicado, ya que necesita configurar individualmente cada computadora y luego administrar toda la red a medida que realiza sus tareas. Aquí es donde entran programas como Hadoop para salvar el día.

Hadoop es un conjunto de herramientas y programas lanzado por Apache que permite que todo el proceso de conexión en red de un grupo de computadoras se realice con mucha más eficiencia y facilidad. Entonces, en este artículo, revisaré Hadoop, examinaré sus casos de uso, repasaré sus ventajas y desventajas y brindaré una descripción general de su arquitectura avanzada, antes de pasar a una guía paso a paso sobre cómo instalar Hadoop en Ubuntu 20.04 para finalizar este tutorial de Hadoop 2024.

¿Qué es Apache Hadoop?

Hadoop, un conjunto de herramientas impulsadas por Apache, ha estado transformando la configuración y utilización de la red durante más de 15 años. Los usuarios pueden aprovechar la eficiencia de los recursos de Hadoop, lo que les permite aprovechar su potencia informática actual para tareas exigentes sin necesidad de costosas actualizaciones. La suite consta de cuatro módulos: HDFS, YARN, MapReduce y Hadoop Common, cada uno diseñado para casos de uso específicos.

La brillantez de Hadoop radica en su ingenio inherente, que permite hábilmente tanto a individuos como a organizaciones unir sus capacidades computacionales existentes en una fuerza cohesiva capaz de superar desafíos computacionales sustanciales. Sin la guía de Hadoop, estas entidades se verían obligadas a embarcarse en la costosa búsqueda de adquirir máquinas informáticas cada vez más potentes.

Casos de uso de Hadoop

Ahora sabemos qué es Hadoop. Pero, ¿cómo se aplican exactamente sus casos de uso en el mundo real? Comprender un programa sobre el papel está muy bien, pero nunca sustituirá la realización de su potencial como parte de una operación seria. Así que aquí proporcionaré algunos ejemplos antes de pasar al tutorial de Hadoop.

Análisis de riesgos

Como ya se mencionó, Hadoop le permite aprovechar el poder de varios sistemas informáticos como parte de una única unidad de red para revisar de manera eficiente lotes de datos extensos y analizarlos más rápido de lo habitual. En cualquier negocio existen riesgos que necesitan análisis y cálculo. Hadoop es extremadamente útil aquí. Tanto es así que muchos hospitales creíbles lo utilizan para analizar los riesgos de diferentes tratamientos y suponer el resultado potencial y las estadísticas de sus operaciones para sus pacientes. Obtenga más información sobre el papel revolucionario de Hadoop en la atención médica aquí.

Detectar violaciones de seguridad

A medida que aumenta la cantidad total de redes y dispositivos utilizados dentro de una red o empresa, hay cada vez más posibles violaciones de seguridad a tener en cuenta. Una de las utilidades esenciales de Hadoop es evaluar la totalidad de una operación analizando grandes lotes de datos y resaltando los posibles puntos débiles de ese sistema.

Revisar el mapeo

Muchas empresas confían en los comentarios que reciben sobre sus productos para mejorarlos o desarrollar nuevas estrategias de mercado. Mientras que a un humano le tomará mucho tiempo cubrir un archivo de revisión lo suficientemente grande, Hadoop hará uso de su magia informática en red para producir resultados mucho más rápidos.

Análisis de mercado

Hablando de estrategias de mercado, el mapeo de revisión antes mencionado palidece en comparación con la cantidad de recursos necesarios para analizar el mercado y evaluar el potencial de que ingrese un producto nuevo. Este es otro caso de uso en el que Hadoop brilla, ya que permite que incluso las pequeñas empresas emergentes evalúen eficientemente el mercado con varias computadoras en un plazo y manera eficientes.

Evaluación de archivos de registro

Otro aspecto de las empresas que se vuelve más complicado a medida que pasa el tiempo y se vuelven más importantes es la cantidad de software que comenzarán a utilizar en todos los ámbitos. El uso de cada vez más software genera más errores y puntos débiles potenciales y necesita un empleado dedicado para administrar los archivos de registro y manejar los problemas. Esto llevará mucho tiempo, pero utilizando algunos protocolos sencillos, una empresa puede utilizar Hadoop para revisar y evaluar rápidamente los archivos de registro para encontrar estos errores y deshacerse de ellos.

Hay muchos otros casos de uso y aplicaciones de Hadoop, pero para mantener el enfoque en el propósito del artículo, no discutiremos más.

Descripción general de la arquitectura de Hadoop

Supongamos que ha oído hablar de Hadoop, sus casos de uso generales y lo que hace. E incluso si no lo ha hecho, este artículo probablemente lo haya hecho hasta ahora. Pero ahora necesita obtener una comprensión profunda de de qué está hecho realmente Hadoop y cómo funciona cada parte con sus otras características. Como se mencionó anteriormente, existen cuatro capas generales de Hadoop; En esta parte del tutorial de Hadoop aprenderemos más sobre HDFS (Sistema de archivos distribuidos de Hadoop), YARN (Otro negociador de recursos), MapReduce y Hadoop Common. Sin embargo, dado que Hadoop Common no tiene tantas características que deban explicarse, sus aspectos esenciales se conocen como cuidador del zoológico. Entonces, en esta sección, intentaré resumir la arquitectura y el ecosistema avanzados de Hadoop y sus cuatro secciones en términos básicos, antes de pasar finalmente a cómo instalar Hadoop en Ubuntu 20.04.

HDFS

HDFS en el ecosistema Hadoop constituye el sistema de almacenamiento general que todas las subsecciones y aplicaciones de Hadoop utilizan para evaluar, transferir y guardar datos. El punto principal de la arquitectura HDFS es que, a diferencia del propio Hadoop, un programa de código abierto, HDFS en Hadoop es en realidad el sistema de archivos responsable de ejecutar todas las operaciones subyacentes de un único clúster de Hadoop. HDFS es un sistema de archivos increíblemente resistente que divide los lotes de datos en bloques de 128 MB y los optimiza para operaciones basadas en secuencias.

La función principal de HDFS en el software Hadoop es proporcionar todos los datos como parte de un bastidor de datos general, que luego se puede manipular a través de diferentes nodos de nombre y bastidores secundarios en subsecciones para organizar su operación de análisis de datos. Luego puede usar otras opciones como Journal racks, QJM, HA, fsimage y editar archivos de registro y el registro de leyenda general para realizar un seguimiento y realizar otras tareas.

HILO

YARN es otra rama ejecutiva de Hadoop que se utiliza para asignar cantidades deseadas de activos informáticos a aplicaciones específicas dentro del ecosistema de Hadoop. En esencia, le permite utilizar un administrador de recursos para que sus clientes asigne estos recursos a través de un conjunto de diferentes nodos a diferentes tareas y aplicaciones. También hay una leyenda en YARN, que, similar a la de HDFS, le permite realizar un seguimiento de todos sus activos y operaciones asignados. YARN en sí se divide en tres subsecciones: Administrador de recursos, Maestro de aplicaciones y Administrador de nodos.

Cada una de estas tres subsecciones crea una nueva instancia de sí mismas por clúster, aplicación y nodo, respectivamente. No solo puede asignar recursos a diferentes tareas utilizando YARN, sino que también puede programar estos recursos para que cambien con el tiempo y generar flujos de trabajo algorítmicos avanzados. YARN no se limita a su subsección. Habrá muchos casos en los que utilizará YARN junto con otras capas arquitectónicas como HDFS y Zookeeper para asignar recursos y evaluar su operación general.

Reducción de mapas de Hadoop

Hadoop MapReduce es otro componente importante del ecosistema Hadoop. Una vez que instale Hadoop en Ubuntu, puede usar esta función para analizar de manera efectiva una gran cantidad de datos de manera distribuida en varias computadoras diferentes. En esencia, Hadoop MapReduce funciona así: ingresas un gran mapa de datos en el programa. Este mapa de datos se mezclará, desglosará y distribuirá entre sus computadoras en red. Posteriormente, utilizando protocolos particulares conocidos como reductores, los datos se reducen a sus componentes más esenciales. Cada una de estas operaciones se conoce como Trabajo.

Digamos que tiene una oración de tres palabras que actúa como el mapa de datos que desea analizar con MapReduce. Digamos que la oración es Bear Hunt Rabbit. Hadoop MapReduce dividirá y reducirá esta oración en tres lotes diferentes, cada uno con una palabra, luego usará estas palabras y hará nuevas combinaciones con entradas de datos similares de sus otros trabajos para crear un lote de datos final homogeneizado con datos innecesarios eliminados y que pueda analizarse fácilmente.

cuidador del zoológico

Zookeeper es otra subsección del ecosistema Hadoop que inicialmente adquirió importancia y uso común con el lanzamiento de la versión 2.0 de Hadoop. El principal punto de servicio de Zookeeper es coordinar las diferentes operaciones que ejecuta como parte de una única instancia de Hadoop. Como tal, Zookeeper casi siempre se usa junto con el Administrador de recursos de YARN y las diferentes funciones de HDFS en Hadoop. El uso principal de Zookeeper en estas operaciones es detectar y remediar los posibles puntos de falla. Para ello utiliza dos herramientas diferentes: ZKFiloverControer y Zookeeper Quorum.

En estos procedimientos, los nodos de datos administrados por otros componentes de la arquitectura Hadoop se clasifican como nodos de nombre activos, supervisados ​​por el usuario. Posteriormente, cada uno de estos nodos de nombre se somete a un escrutinio dentro de las dos subsecciones antes mencionadas de Zookeeper. Esto se hace para identificar áreas de dificultad e identificar fallas potenciales.

Instalar Hadoop en Ubuntu 20.04 – Guía paso a paso

Y finalmente, después de aprender sobre la arquitectura de Hadoop, es hora de llegar al meollo del asunto, que es cómo instalar Hadoop en Ubuntu 20.04 como parte final de este tutorial de Hadoop. Cubramos los requisitos previos antes de pasar a la guía paso a paso para instalar Hadoop en Ubuntu 20.04. Tenga en cuenta que esta guía también se puede utilizar para Ubuntu 18.04.

Requisitos previos

Los requisitos previos necesarios para instalar Hadoop en Ubuntu son bastante simples. Todo lo que necesita es una computadora con Ubuntu con acceso raíz, ya sea disponible localmente o accesible de forma remota a través de un servidor VPS. Con respecto a los programas de requisitos previos, asegúrese de tener Java 11 y SSH instalados. Si no los tiene, ejecute los siguientes comandos uno a la vez para instalarlos:

sudo apt update && sudo apt upgrade -y
sudo apt install openssh-server openssh-client -y
sudo apt install openjdk-11-jdk -y

En cuanto a la licencia, no necesitarás ninguna, ya que Hadoop es gratuito y de código abierto. Eso es todo lo que necesitas. Pasemos al paso uno.

Paso 1: crear un usuario no root para Hadoop

Cree un usuario no root para su Hadoop usando el siguiente comando. Esto es parte de las configuraciones previas que debemos realizar antes de descargar e instalar Hadoop:

sudo adduser hdoop
su - hdoop

Paso 2: configurar claves SSH

Ahora, para instalar Hadoop en Ubuntu, usaremos el usuario de Hadoop que acaba de crear y lo usaremos para establecer una conexión SSH con él. Utilice este comando para generar un par de claves SSH y guardarlo:

ssh-keygen -t rsa -P '' -f ~/.ssh/id_rsa

Una vez generadas las claves, la siguiente línea le permitirá marcarlas como claves_autorizadas y guárdelos en su directorio SSH:

cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys

Ahora use este comando para asegurarse de que su conexión SSH tenga todos los permisos necesarios:

chmod 600 ~/.ssh/authorized_keys
chmod 700 ~/.ssh

Confirma los cambios y podrás conectarte fácilmente a tu localhost en todo momento con el usuario que realizaste:

ssh localhost

Paso 3: descargue e instale Hadoop en Ubuntu

Puedes visitar el Sitio web de Apache Hadoop para ver una lista de versiones con su registro de cambios recientes. Seleccione la versión de su agrado y se le presentará un enlace que puede usarse con el siguiente comando para descargar e instalar Hadoop en Ubuntu. Aquí elijo la versión 3.3.6. Reemplace '3.3.6' con la última versión estable si es necesario:

wget https://downloads.apache.org/hadoop/common/hadoop-3.3.6/hadoop-3.3.6.tar.gz

Una vez finalizada la descarga, utilice esta línea para finalizar el proceso de extracción e instalación:

tar xzf hadoop-3.3.6.tar.gz
sudo mv hadoop-3.3.6 /usr/local/hadoop
sudo chown -R hdoop:hdoop /usr/local/hadoop

Paso 4: configurar el entorno Hadoop

Colocar JAVA_INICIO in /usr/local/hadoop/etc/hadoop/hadoop-env.sh:

echo 'export JAVA_HOME=$(readlink -f /usr/bin/java | sed "s:bin/java::")' | sudo tee -a /usr/local/hadoop/etc/hadoop/hadoop-env.sh

Paso 5: Editar archivos de configuración

Actualice los archivos de configuración XML de Hadoop con la configuración de su clúster.

nano /usr/local/hadoop/etc/hadoop/core-site.xml

Paso 6: Formatee HDFS

Inicialice el espacio de nombres del sistema de archivos Hadoop.

/usr/local/hadoop/bin/hdfs namenode -format

Paso 7: inicie los servicios de Hadoop

Inicie los servicios HDFS y YARN.

/usr/local/hadoop/sbin/start-dfs.sh
/usr/local/hadoop/sbin/start-yarn.sh

Paso 8: verificar la instalación

Verifique los procesos de Java en ejecución para confirmar que Hadoop se esté ejecutando.

jps

Paso 9: Acceda a las interfaces web

Abra los navegadores web a las interfaces NameNode y ResourceManager de Hadoop.

NombreNodo: http://localhost:9870
Administrador de recursos: http://localhost:8088

Paso 10: ejecutar un ejemplo de MapReduce

Ejecute un trabajo MapReduce de muestra para validar la configuración.

/usr/local/hadoop/bin/hdfs dfs -mkdir /input
/usr/local/hadoop/bin/hdfs dfs -put localfile.txt /input
/usr/local/hadoop/bin/hadoop jar
/usr/local/hadoop/share/hadoop/mapreduce/hadoop-mapreduce-examples-3.3.6.jar grep /input /output 'dfs[a-z.]+'
/usr/local/hadoop/bin/hdfs dfs -cat /output/*

Paso 11: Establecer variables de entorno

Agregar Hadoop papelera y sbin directorios a la RUTA del sistema.

echo 'export PATH=$PATH:/usr/local/hadoop/bin:/usr/local/hadoop/sbin' >> ~/.bashrc
source ~/.bashrc

¡Y eso es todo! ¡Acaba de lograr configurar e instalar con éxito Apache Hadoop en Ubuntu 20.04!

Conclusión

En resumen, la instalación de Hadoop en Ubuntu 20.04 es un proceso minucioso que exige una atención meticulosa y una disposición para explorar los matices de la configuración. Al seguir los pasos proporcionados en esta guía, los usuarios de Ubuntu pueden embarcarse en un viaje transformador, aprovechando las capacidades sustanciales de Hadoop para aprovechar plenamente el potencial de sus actividades de análisis de datos.

Mi recomendación es implementar Hadoop como una implementación de un solo nodo usando una distribución limitada si solo tiene la intención de aprender y jugar con él. Para ello, un VPS funcionará perfectamente para ti. Cloudzy te ofrece una gran cantidad de diferentes Servicios VPS Linux incluido un acorazado y confiable VPS Ubuntu que se puede configurar en poco tiempo para convertirse en el campo de aprendizaje de Hadoop perfecto para usted. ¡A partir de $ 4,95 por mes, puede obtener su propio VPS Ubuntu con más de 12 ubicaciones y soporte atento las 24 horas, los 7 días de la semana!

ubuntu-vps La elección obvia

La mayoría de los servidores ejecutados por Linux utilizan Ubuntu; ¿Por qué no tú? Descubra por qué todo el mundo ama Ubuntu: obtenga un VPS Ubuntu optimizado

Consigue tu VPS Ubuntu

Preguntas frecuentes

¿Cuáles son las diferencias entre HDFS y MapReduce?

Si bien ambos módulos residen en el ecosistema de Hadoop, tienen propósitos distintos. HDFS funciona como un sistema de archivos distribuido, facilitando la accesibilidad a los datos. Por otro lado, MapReduce se destaca por descomponer y analizar de manera eficiente grandes cantidades de datos.

¿Se considera Hadoop una base de datos?

Hadoop no es una base de datos, aunque esta idea errónea es común. Más bien, opera como un sistema de archivos distribuido que permite el almacenamiento y procesamiento de datos voluminosos utilizando una red de computadoras interconectadas. No debe utilizarse como reemplazo directo de un sistema de base de datos tradicional.

¿Cuáles son los cuatro componentes principales de Hadoop?

Hadoop consta de cuatro componentes principales: HDFS (Sistema de archivos distribuidos de Hadoop), YARN (Otro negociador de recursos), MapReduce y Hadoop Common. Además, algunos recursos consideran a ZooKeeper como un componente, aunque no está reconocido oficialmente como tal.

¿Dónde se utiliza normalmente Hadoop?

Hadoop encuentra aplicaciones en diversos dominios donde es esencial gestionar, almacenar, procesar y analizar datos a gran escala. Atiende operaciones que van desde medianas empresas y hospitales hasta nuevas empresas emergentes, proporcionando soluciones basadas en datos.

Compartir

Más del blog

Sigue leyendo.

Símbolo original de MongoDB presentado en un servidor futurista para instalar MongoDB en Ubuntu+ lema sobre qué esperar del artículo + título del artículo + logotipo de la marca Cloudzy
Bases de datos y análisis

Cómo instalar MongoDB en las tres últimas versiones de Ubuntu (paso a paso)

Entonces decidió usar MongoDB, una excelente alternativa a MariaDB para crear una aplicación de pila MERN, una plataforma de análisis o cualquier sistema basado en documentos, pero se topó con una pared con buena o

Jim SchwarzJim Schwarz 12 minutos de lectura
Gestión inteligente de datos para su empresa: estrategias de almacenamiento y copia de seguridad “similares a las de la nube” con VPS
Bases de datos y análisis

Gestión inteligente de datos para su empresa: estrategias de almacenamiento y copia de seguridad “similares a las de la nube” con VPS

VPS para la gestión segura de datos empresariales es la estrategia que recomiendo cada vez que una empresa decide que es hora de dejar de hacer malabarismos con archivos entre portátiles, archivos adjuntos de correo electrónico y medio olvidos.

Rexa CiroRexa Ciro 7 minutos de lectura
Vista materializada frente a vista
Bases de datos y análisis

Vista materializada frente a vista: comprensión de su función en las bases de datos

En los sistemas de bases de datos, una vista materializada como un objeto de base de datos almacena los resultados precalculados de una consulta como una tabla física. Debido a que los datos en realidad se almacenan en el disco, complicar

Ivy JohnsonIvy Johnson 7 minutos de lectura

¿Listo para implementar? Desde $2,48/mes.

Nube independiente, desde 2008. AMD EPYC, NVMe, 40 Gbps. Devolución de dinero en 14 días.