Hoy en día, una vez que una empresa o cualquier operación que involucre computadoras crece hasta el punto de requerir más de una computadora para manejarla, inmediatamente comenzamos a usar varias computadoras como parte de una sola red para manejar la carga de trabajo de manera más eficiente. Esto se ha vuelto común hasta el punto de que hoy en día casi todas las operaciones en campos como la ciencia de datos se realizan mediante estas computadoras en red. Si bien sin duda realizar tareas informáticas exigentes es más eficiente de esta manera, también es increíblemente complicado, ya que necesita configurar individualmente cada computadora y luego administrar toda la red a medida que realiza sus tareas. Aquí es donde entran programas como Hadoop para salvar el día.
- ¿Qué es Apache Hadoop?
- Casos de uso de Hadoop
- Descripción general de la arquitectura de Hadoop
- Instalar Hadoop en Ubuntu 20.04: guía paso a paso
- Requisitos previos
- Paso 1: crear un usuario no root para Hadoop
- Paso 2: configurar claves SSH
- Paso 3: descargue e instale Hadoop en Ubuntu
- Paso 4: configurar el entorno Hadoop
- Paso 5: Editar archivos de configuración
- Paso 6: Formatee HDFS
- Paso 7: inicie los servicios de Hadoop
- Paso 8: verificar la instalación
- Paso 9: Acceda a las interfaces web
- Paso 10: ejecutar un ejemplo de MapReduce
- Paso 11: Establecer variables de entorno
- Conclusión
- Preguntas frecuentes
Hadoop es un conjunto de herramientas y programas lanzado por Apache que permite que todo el proceso de conexión en red de un grupo de computadoras se realice con mucha más eficiencia y facilidad. Entonces, en este artículo, revisaré Hadoop, examinaré sus casos de uso, repasaré sus ventajas y desventajas y brindaré una descripción general de su arquitectura avanzada, antes de pasar a una guía paso a paso sobre cómo instalar Hadoop en Ubuntu 20.04 para finalizar este tutorial de Hadoop 2024.
¿Qué es Apache Hadoop?
Hadoop, un conjunto de herramientas impulsadas por Apache, ha estado transformando la configuración y utilización de la red durante más de 15 años. Los usuarios pueden aprovechar la eficiencia de los recursos de Hadoop, lo que les permite aprovechar su potencia informática actual para tareas exigentes sin necesidad de costosas actualizaciones. La suite consta de cuatro módulos: HDFS, YARN, MapReduce y Hadoop Common, cada uno diseñado para casos de uso específicos.
La brillantez de Hadoop radica en su ingenio inherente, que permite hábilmente tanto a individuos como a organizaciones unir sus capacidades computacionales existentes en una fuerza cohesiva capaz de superar desafíos computacionales sustanciales. Sin la guía de Hadoop, estas entidades se verían obligadas a embarcarse en la costosa búsqueda de adquirir máquinas informáticas cada vez más potentes.
Casos de uso de Hadoop
Ahora sabemos qué es Hadoop. Pero, ¿cómo se aplican exactamente sus casos de uso en el mundo real? Comprender un programa sobre el papel está muy bien, pero nunca sustituirá la realización de su potencial como parte de una operación seria. Así que aquí proporcionaré algunos ejemplos antes de pasar al tutorial de Hadoop.
Análisis de riesgos
Como ya se mencionó, Hadoop le permite aprovechar el poder de varios sistemas informáticos como parte de una única unidad de red para revisar de manera eficiente lotes de datos extensos y analizarlos más rápido de lo habitual. En cualquier negocio existen riesgos que necesitan análisis y cálculo. Hadoop es extremadamente útil aquí. Tanto es así que muchos hospitales creíbles lo utilizan para analizar los riesgos de diferentes tratamientos y suponer el resultado potencial y las estadísticas de sus operaciones para sus pacientes. Obtenga más información sobre el papel revolucionario de Hadoop en la atención médica aquí.
Detectar violaciones de seguridad
A medida que aumenta la cantidad total de redes y dispositivos utilizados dentro de una red o empresa, hay cada vez más posibles violaciones de seguridad a tener en cuenta. Una de las utilidades esenciales de Hadoop es evaluar la totalidad de una operación analizando grandes lotes de datos y resaltando los posibles puntos débiles de ese sistema.
Revisar el mapeo
Muchas empresas confían en los comentarios que reciben sobre sus productos para mejorarlos o desarrollar nuevas estrategias de mercado. Mientras que a un humano le tomará mucho tiempo cubrir un archivo de revisión lo suficientemente grande, Hadoop hará uso de su magia informática en red para producir resultados mucho más rápidos.
Análisis de mercado
Hablando de estrategias de mercado, el mapeo de revisión antes mencionado palidece en comparación con la cantidad de recursos necesarios para analizar el mercado y evaluar el potencial de que ingrese un producto nuevo. Este es otro caso de uso en el que Hadoop brilla, ya que permite que incluso las pequeñas empresas emergentes evalúen eficientemente el mercado con varias computadoras en un plazo y manera eficientes.
Evaluación de archivos de registro
Otro aspecto de las empresas que se vuelve más complicado a medida que pasa el tiempo y se vuelven más importantes es la cantidad de software que comenzarán a utilizar en todos los ámbitos. El uso de cada vez más software genera más errores y puntos débiles potenciales y necesita un empleado dedicado para administrar los archivos de registro y manejar los problemas. Esto llevará mucho tiempo, pero utilizando algunos protocolos sencillos, una empresa puede utilizar Hadoop para revisar y evaluar rápidamente los archivos de registro para encontrar estos errores y deshacerse de ellos.
Hay muchos otros casos de uso y aplicaciones de Hadoop, pero para mantener el enfoque en el propósito del artículo, no discutiremos más.
Descripción general de la arquitectura de Hadoop
Supongamos que ha oído hablar de Hadoop, sus casos de uso generales y lo que hace. E incluso si no lo ha hecho, este artículo probablemente lo haya hecho hasta ahora. Pero ahora necesita obtener una comprensión profunda de de qué está hecho realmente Hadoop y cómo funciona cada parte con sus otras características. Como se mencionó anteriormente, existen cuatro capas generales de Hadoop; En esta parte del tutorial de Hadoop aprenderemos más sobre HDFS (Sistema de archivos distribuidos de Hadoop), YARN (Otro negociador de recursos), MapReduce y Hadoop Common. Sin embargo, dado que Hadoop Common no tiene tantas características que deban explicarse, sus aspectos esenciales se conocen como cuidador del zoológico. Entonces, en esta sección, intentaré resumir la arquitectura y el ecosistema avanzados de Hadoop y sus cuatro secciones en términos básicos, antes de pasar finalmente a cómo instalar Hadoop en Ubuntu 20.04.
HDFS
HDFS en el ecosistema Hadoop constituye el sistema de almacenamiento general que todas las subsecciones y aplicaciones de Hadoop utilizan para evaluar, transferir y guardar datos. El punto principal de la arquitectura HDFS es que, a diferencia del propio Hadoop, un programa de código abierto, HDFS en Hadoop es en realidad el sistema de archivos responsable de ejecutar todas las operaciones subyacentes de un único clúster de Hadoop. HDFS es un sistema de archivos increíblemente resistente que divide los lotes de datos en bloques de 128 MB y los optimiza para operaciones basadas en secuencias.
La función principal de HDFS en el software Hadoop es proporcionar todos los datos como parte de un bastidor de datos general, que luego se puede manipular a través de diferentes nodos de nombre y bastidores secundarios en subsecciones para organizar su operación de análisis de datos. Luego puede usar otras opciones como Journal racks, QJM, HA, fsimage y editar archivos de registro y el registro de leyenda general para realizar un seguimiento y realizar otras tareas.
HILO
YARN es otra rama ejecutiva de Hadoop que se utiliza para asignar cantidades deseadas de activos informáticos a aplicaciones específicas dentro del ecosistema de Hadoop. En esencia, le permite utilizar un administrador de recursos para que sus clientes asigne estos recursos a través de un conjunto de diferentes nodos a diferentes tareas y aplicaciones. También hay una leyenda en YARN, que, similar a la de HDFS, le permite realizar un seguimiento de todos sus activos y operaciones asignados. YARN en sí se divide en tres subsecciones: Administrador de recursos, Maestro de aplicaciones y Administrador de nodos.
Cada una de estas tres subsecciones crea una nueva instancia de sí mismas por clúster, aplicación y nodo, respectivamente. No solo puede asignar recursos a diferentes tareas utilizando YARN, sino que también puede programar estos recursos para que cambien con el tiempo y generar flujos de trabajo algorítmicos avanzados. YARN no se limita a su subsección. Habrá muchos casos en los que utilizará YARN junto con otras capas arquitectónicas como HDFS y Zookeeper para asignar recursos y evaluar su operación general.
Reducción de mapas de Hadoop
Hadoop MapReduce es otro componente importante del ecosistema Hadoop. Una vez que instale Hadoop en Ubuntu, puede usar esta función para analizar de manera efectiva una gran cantidad de datos de manera distribuida en varias computadoras diferentes. En esencia, Hadoop MapReduce funciona así: ingresas un gran mapa de datos en el programa. Este mapa de datos se mezclará, desglosará y distribuirá entre sus computadoras en red. Posteriormente, utilizando protocolos particulares conocidos como reductores, los datos se reducen a sus componentes más esenciales. Cada una de estas operaciones se conoce como Trabajo.
Digamos que tiene una oración de tres palabras que actúa como el mapa de datos que desea analizar con MapReduce. Digamos que la oración es Bear Hunt Rabbit. Hadoop MapReduce dividirá y reducirá esta oración en tres lotes diferentes, cada uno con una palabra, luego usará estas palabras y hará nuevas combinaciones con entradas de datos similares de sus otros trabajos para crear un lote de datos final homogeneizado con datos innecesarios eliminados y que pueda analizarse fácilmente.
cuidador del zoológico
Zookeeper es otra subsección del ecosistema Hadoop que inicialmente adquirió importancia y uso común con el lanzamiento de la versión 2.0 de Hadoop. El principal punto de servicio de Zookeeper es coordinar las diferentes operaciones que ejecuta como parte de una única instancia de Hadoop. Como tal, Zookeeper casi siempre se usa junto con el Administrador de recursos de YARN y las diferentes funciones de HDFS en Hadoop. El uso principal de Zookeeper en estas operaciones es detectar y remediar los posibles puntos de falla. Para ello utiliza dos herramientas diferentes: ZKFiloverControer y Zookeeper Quorum.
En estos procedimientos, los nodos de datos administrados por otros componentes de la arquitectura Hadoop se clasifican como nodos de nombre activos, supervisados por el usuario. Posteriormente, cada uno de estos nodos de nombre se somete a un escrutinio dentro de las dos subsecciones antes mencionadas de Zookeeper. Esto se hace para identificar áreas de dificultad e identificar fallas potenciales.
Instalar Hadoop en Ubuntu 20.04 – Guía paso a paso
Y finalmente, después de aprender sobre la arquitectura de Hadoop, es hora de llegar al meollo del asunto, que es cómo instalar Hadoop en Ubuntu 20.04 como parte final de este tutorial de Hadoop. Cubramos los requisitos previos antes de pasar a la guía paso a paso para instalar Hadoop en Ubuntu 20.04. Tenga en cuenta que esta guía también se puede utilizar para Ubuntu 18.04.
Requisitos previos
Los requisitos previos necesarios para instalar Hadoop en Ubuntu son bastante simples. Todo lo que necesita es una computadora con Ubuntu con acceso raíz, ya sea disponible localmente o accesible de forma remota a través de un servidor VPS. Con respecto a los programas de requisitos previos, asegúrese de tener Java 11 y SSH instalados. Si no los tiene, ejecute los siguientes comandos uno a la vez para instalarlos:
sudo apt update && sudo apt upgrade -y
sudo apt install openssh-server openssh-client -y
sudo apt install openjdk-11-jdk -y
En cuanto a la licencia, no necesitarás ninguna, ya que Hadoop es gratuito y de código abierto. Eso es todo lo que necesitas. Pasemos al paso uno.
Paso 1: crear un usuario no root para Hadoop
Cree un usuario no root para su Hadoop usando el siguiente comando. Esto es parte de las configuraciones previas que debemos realizar antes de descargar e instalar Hadoop:
sudo adduser hdoop
su - hdoop
Paso 2: configurar claves SSH
Ahora, para instalar Hadoop en Ubuntu, usaremos el usuario de Hadoop que acaba de crear y lo usaremos para establecer una conexión SSH con él. Utilice este comando para generar un par de claves SSH y guardarlo:
ssh-keygen -t rsa -P '' -f ~/.ssh/id_rsa
Una vez generadas las claves, la siguiente línea le permitirá marcarlas como claves_autorizadas y guárdelos en su directorio SSH:
cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys
Ahora use este comando para asegurarse de que su conexión SSH tenga todos los permisos necesarios:
chmod 600 ~/.ssh/authorized_keys
chmod 700 ~/.ssh
Confirma los cambios y podrás conectarte fácilmente a tu localhost en todo momento con el usuario que realizaste:
ssh localhost
Paso 3: descargue e instale Hadoop en Ubuntu
Puedes visitar el Sitio web de Apache Hadoop para ver una lista de versiones con su registro de cambios recientes. Seleccione la versión de su agrado y se le presentará un enlace que puede usarse con el siguiente comando para descargar e instalar Hadoop en Ubuntu. Aquí elijo la versión 3.3.6. Reemplace '3.3.6' con la última versión estable si es necesario:
wget https://downloads.apache.org/hadoop/common/hadoop-3.3.6/hadoop-3.3.6.tar.gz
Una vez finalizada la descarga, utilice esta línea para finalizar el proceso de extracción e instalación:
tar xzf hadoop-3.3.6.tar.gz
sudo mv hadoop-3.3.6 /usr/local/hadoop
sudo chown -R hdoop:hdoop /usr/local/hadoop
Paso 4: configurar el entorno Hadoop
Colocar JAVA_INICIO in /usr/local/hadoop/etc/hadoop/hadoop-env.sh:
echo 'export JAVA_HOME=$(readlink -f /usr/bin/java | sed "s:bin/java::")' | sudo tee -a /usr/local/hadoop/etc/hadoop/hadoop-env.sh
Paso 5: Editar archivos de configuración
Actualice los archivos de configuración XML de Hadoop con la configuración de su clúster.
nano /usr/local/hadoop/etc/hadoop/core-site.xml
Paso 6: Formatee HDFS
Inicialice el espacio de nombres del sistema de archivos Hadoop.
/usr/local/hadoop/bin/hdfs namenode -format
Paso 7: inicie los servicios de Hadoop
Inicie los servicios HDFS y YARN.
/usr/local/hadoop/sbin/start-dfs.sh
/usr/local/hadoop/sbin/start-yarn.sh
Paso 8: verificar la instalación
Verifique los procesos de Java en ejecución para confirmar que Hadoop se esté ejecutando.
jps
Paso 9: Acceda a las interfaces web
Abra los navegadores web a las interfaces NameNode y ResourceManager de Hadoop.
NombreNodo: http://localhost:9870
Administrador de recursos: http://localhost:8088
Paso 10: ejecutar un ejemplo de MapReduce
Ejecute un trabajo MapReduce de muestra para validar la configuración.
/usr/local/hadoop/bin/hdfs dfs -mkdir /input
/usr/local/hadoop/bin/hdfs dfs -put localfile.txt /input
/usr/local/hadoop/bin/hadoop jar
/usr/local/hadoop/share/hadoop/mapreduce/hadoop-mapreduce-examples-3.3.6.jar grep /input /output 'dfs[a-z.]+'
/usr/local/hadoop/bin/hdfs dfs -cat /output/*
Paso 11: Establecer variables de entorno
Agregar Hadoop papelera y sbin directorios a la RUTA del sistema.
echo 'export PATH=$PATH:/usr/local/hadoop/bin:/usr/local/hadoop/sbin' >> ~/.bashrc
source ~/.bashrc
¡Y eso es todo! ¡Acaba de lograr configurar e instalar con éxito Apache Hadoop en Ubuntu 20.04!
Conclusión
En resumen, la instalación de Hadoop en Ubuntu 20.04 es un proceso minucioso que exige una atención meticulosa y una disposición para explorar los matices de la configuración. Al seguir los pasos proporcionados en esta guía, los usuarios de Ubuntu pueden embarcarse en un viaje transformador, aprovechando las capacidades sustanciales de Hadoop para aprovechar plenamente el potencial de sus actividades de análisis de datos.
Mi recomendación es implementar Hadoop como una implementación de un solo nodo usando una distribución limitada si solo tiene la intención de aprender y jugar con él. Para ello, un VPS funcionará perfectamente para ti. Cloudzy te ofrece una gran cantidad de diferentes Servicios VPS Linux incluido un acorazado y confiable VPS Ubuntu que se puede configurar en poco tiempo para convertirse en el campo de aprendizaje de Hadoop perfecto para usted. ¡A partir de $ 4,95 por mes, puede obtener su propio VPS Ubuntu con más de 12 ubicaciones y soporte atento las 24 horas, los 7 días de la semana!
La elección obvia
La mayoría de los servidores ejecutados por Linux utilizan Ubuntu; ¿Por qué no tú? Descubra por qué todo el mundo ama Ubuntu: obtenga un VPS Ubuntu optimizado
Consigue tu VPS UbuntuPreguntas frecuentes
¿Cuáles son las diferencias entre HDFS y MapReduce?
Si bien ambos módulos residen en el ecosistema de Hadoop, tienen propósitos distintos. HDFS funciona como un sistema de archivos distribuido, facilitando la accesibilidad a los datos. Por otro lado, MapReduce se destaca por descomponer y analizar de manera eficiente grandes cantidades de datos.
¿Se considera Hadoop una base de datos?
Hadoop no es una base de datos, aunque esta idea errónea es común. Más bien, opera como un sistema de archivos distribuido que permite el almacenamiento y procesamiento de datos voluminosos utilizando una red de computadoras interconectadas. No debe utilizarse como reemplazo directo de un sistema de base de datos tradicional.
¿Cuáles son los cuatro componentes principales de Hadoop?
Hadoop consta de cuatro componentes principales: HDFS (Sistema de archivos distribuidos de Hadoop), YARN (Otro negociador de recursos), MapReduce y Hadoop Common. Además, algunos recursos consideran a ZooKeeper como un componente, aunque no está reconocido oficialmente como tal.
¿Dónde se utiliza normalmente Hadoop?
Hadoop encuentra aplicaciones en diversos dominios donde es esencial gestionar, almacenar, procesar y analizar datos a gran escala. Atiende operaciones que van desde medianas empresas y hospitales hasta nuevas empresas emergentes, proporcionando soluciones basadas en datos.