50% de desconto todos os planos, por tempo limitado. Começando em $2.48/mo
Faltam 13 minutos
Bancos de dados e análises

Como instalar o Hadoop no Ubuntu: um guia completo

Pio Bodenmann By Pio Bodenmann 13 minutos de leitura Atualizado em 1º de maio de 2024
como instalar o hadoop no ubuntu linux

Hoje em dia, quando um negócio ou qualquer operação envolvendo computadores cresce a ponto de exigir mais de um computador para ser gerenciado, imediatamente começamos a usar vários computadores como parte de uma única rede para lidar com a carga de trabalho de maneira mais eficiente. Isto tornou-se comum na medida em que hoje em dia quase todas as operações em áreas como a ciência de dados são realizadas por estes computadores em rede. Embora sem dúvida a execução de tarefas exigentes no computador seja mais eficiente desta forma, também é incrivelmente complicada, pois você precisa configurar individualmente cada computador e depois gerenciar toda a rede à medida que ela executa suas tarefas. É aqui que programas como o Hadoop entram para salvar o dia.

Hadoop é um conjunto de ferramentas e programas lançado pela Apache que permite que todo o processo de interligação de vários computadores seja realizado com muito mais eficiência e facilidade. Portanto, neste artigo, revisarei o Hadoop, examinarei seus casos de uso, examinarei seus prós e contras e fornecerei uma visão geral de sua arquitetura avançada, antes de passar para um guia passo a passo sobre como instalar o Hadoop no Ubuntu 20.04 para finalizar este tutorial 2024 do Hadoop.

O que é Apache Hadoop?

Hadoop, um conjunto de ferramentas desenvolvido pela Apache, vem transformando a configuração e a utilização de redes há mais de 15 anos. Os usuários podem aproveitar a eficiência de recursos do Hadoop, permitindo-lhes aproveitar seu poder computacional atual para tarefas exigentes sem a necessidade de atualizações caras. O conjunto consiste em quatro módulos: HDFS, YARN, MapReduce e Hadoop Common, cada um projetado para casos de uso específicos.

O brilho do Hadoop reside na sua engenhosidade inerente, capacitando de forma inteligente indivíduos e organizações para unirem as suas capacidades computacionais existentes numa força coesa capaz de superar desafios computacionais substanciais. Sem a orientação do Hadoop, essas entidades seriam obrigadas a embarcar na dispendiosa busca pela aquisição de máquinas computacionais cada vez mais poderosas.

Casos de uso do Hadoop

Agora sabemos o que é Hadoop. Mas como exatamente seus casos de uso se aplicam ao mundo real? Compreender um programa no papel é muito bom, mas nunca substituirá a realização do seu potencial como parte de uma operação séria. Então, aqui irei fornecer alguns exemplos antes de passar para o tutorial do Hadoop.

Análise de Risco

Como já mencionado, o Hadoop permite aproveitar o poder de vários sistemas de computador como parte de uma única unidade de rede para passar com eficiência por lotes de dados extensos e analisá-los com mais rapidez do que o normal. Em qualquer negócio existem riscos que necessitam de análise e cálculo. O Hadoop é extremamente útil aqui. Tanto é verdade que muitos hospitais credíveis utilizam-no para analisar os riscos de diferentes tratamentos e presumir o resultado potencial e as estatísticas das suas operações para os seus pacientes. Você aprende mais sobre o papel revolucionário do Hadoop na área da saúde aqui.

Detectando violações de segurança

À medida que a quantidade total de redes e dispositivos utilizados aumenta em uma rede ou empresa, há cada vez mais possíveis violações de segurança a serem observadas. Uma das utilidades essenciais do Hadoop é avaliar a totalidade de uma operação analisando grandes lotes de dados e destacando possíveis pontos problemáticos desse sistema.

Revise o mapeamento

Muitas empresas confiam no feedback que recebem sobre seus produtos para melhorá-los ou desenvolver novas estratégias de mercado. Embora um ser humano demore muito para cobrir um arquivo de revisão grande o suficiente, o Hadoop usará sua mágica de computador em rede para produzir resultados muito mais rápidos.

Análise de Mercado

Falando em estratégias de mercado, o mapeamento de revisão mencionado acima é insignificante em comparação com a quantidade de recursos necessários para analisar o mercado e avaliar o potencial de entrada de um produto totalmente novo. Este é outro caso de uso em que o Hadoop se destaca, pois permite que até mesmo pequenas empresas emergentes avaliem eficientemente o mercado com vários computadores em um prazo e maneira eficientes.

Avaliando arquivos de log

Outro aspecto dos negócios que fica mais complicado com o passar do tempo e mais significativo é a quantidade de software que começarão a usar em todos os níveis. Usar cada vez mais software causa mais bugs e problemas potenciais e precisa de um funcionário dedicado para gerenciar os arquivos de log e lidar com os problemas. Isso levará muito tempo, mas usando alguns protocolos fáceis, uma empresa pode usar o Hadoop para revisar e avaliar rapidamente os arquivos de log para encontrar esses bugs e se livrar deles.

Existem muitos outros casos de uso e aplicativos do Hadoop, mas para manter o foco no propósito do artigo, não discutiremos mais nada.

Visão geral da arquitetura Hadoop

Digamos que você já ouviu falar sobre o Hadoop e seus casos de uso gerais e o que ele faz. E mesmo que ainda não o tenha feito, este artigo provavelmente fez isso por você até agora. Mas agora você precisa obter uma compreensão profunda do que o Hadoop realmente é feito e como cada parte dele funciona com seus outros recursos. Conforme mencionado anteriormente, existem quatro camadas gerais do Hadoop; nesta parte do tutorial do Hadoop, aprenderemos mais sobre HDFS (Hadoop Distributed File System), YARN (Yet Another Resource Negotiator), MapReduce e Hadoop Common. No entanto, como o Hadoop Common não possui tantos recursos que precisam ser explicados, seus fundamentos são conhecidos como Zelador do zoológico. Portanto, nesta seção, tentarei resumir a arquitetura e o ecossistema avançados do Hadoop e suas quatro seções em termos básicos, antes de finalmente passar para como instalar o Hadoop no Ubuntu 20.04.

HDFS

O HDFS no ecossistema Hadoop constitui o sistema de armazenamento geral que todas as subseções e aplicativos do Hadoop usam para avaliar, transferir e salvar dados. O ponto principal na arquitetura HDFS é que, diferentemente do próprio Hadoop, um programa de código aberto, o HDFS no Hadoop é na verdade o sistema de arquivos responsável por executar todas as operações subjacentes de um único cluster Hadoop. HDFS é um sistema de arquivos incrivelmente resiliente que divide os lotes de dados em fendas de 128 MB e os otimiza para operações baseadas em sequência.

A função principal do HDFS no software Hadoop é fornecer todos os dados como parte de um rack de dados geral, que pode então ser manipulado por meio de diferentes namenodes e racks secundários em subseções para organizar sua operação de análise de dados. Você pode então usar outras opções, como racks de diário, QJM, HA, fsimage e editar arquivos de log e o log de legenda geral para acompanhar e executar outras tarefas.

FIO

YARN é outro ramo executivo do Hadoop usado para atribuir quantidades desejadas de ativos de computação a aplicativos específicos dentro do ecossistema Hadoop. Em essência, ele permite que você use um gerenciador de recursos para que seus clientes aloquem esses recursos por meio de um conjunto de nós diferentes para diferentes tarefas e aplicativos. Há também uma legenda no YARN, semelhante à do HDFS, que permite acompanhar todos os seus ativos e operações alocados. O próprio YARN é dividido em três subseções: o Resource Manager, o Application Master e o Node Manager.

Cada uma dessas três subseções cria uma nova instância por cluster, aplicativo e nó, respectivamente. Você não apenas pode alocar recursos para diferentes tarefas usando o YARN, mas também pode programar esses recursos para mudar ao longo do tempo para criar fluxos de trabalho algorítmicos avançados. O YARN não está limitado à sua subseção. Haverá muitos casos em que você usará o YARN em conjunto com outras camadas arquiteturais como HDFS e Zookeeper para alocar recursos e avaliar sua operação geral.

Hadoop Mapreduce

Hadoop MapReduce é outro componente importante do ecossistema Hadoop. Depois de instalar o Hadoop no Ubuntu, você pode usar esse recurso para obter efetivamente um grande lote de dados analisados ​​de maneira distribuída por vários computadores diferentes. Em essência, o Hadoop MapReduce funciona assim: você insere um grande mapa de dados no programa. Este mapa de dados será embaralhado, dividido e distribuído pelos computadores em rede. Posteriormente, utilizando protocolos específicos conhecidos como redutores, os dados são reduzidos aos seus componentes mais essenciais e reduzidos. Cada uma dessas operações é conhecida como Job.

Digamos que você tenha uma frase de três palavras que funciona como o mapa de dados que deseja analisar com MapReduce. Digamos que a frase seja Bear Hunt Rabbit. O Hadoop MapReduce irá dividir e reduzir esta frase em três lotes diferentes, cada um com uma palavra, então usar essas palavras e fazer novas combinações com entradas de dados semelhantes de seus outros trabalhos para criar um lote final de dados homogeneizados com dados desnecessários removidos e que podem ser facilmente analisados.

Zelador do zoológico

Zookeeper é outra subseção do ecossistema Hadoop que inicialmente ganhou destaque e uso comum com o lançamento do Hadoop versão 2.0. O principal ponto de serviço do Zookeeper é coordenar as diferentes operações que você está executando como parte de uma única instância do Hadoop. Como tal, o Zookeeper é quase sempre usado em conjunto com o Resource Manager do YARN e os diferentes recursos do HDFS no Hadoop. O principal uso do Zookeeper nessas operações é detectar e remediar os possíveis pontos de falha. Para fazer isso, utiliza duas ferramentas diferentes: ZKFiloverControer e Zookeeper Quorum.

Nestes procedimentos, os nós de dados gerenciados por outros componentes da arquitetura Hadoop são categorizados como namenodes ativos, supervisionados pelo usuário. Posteriormente, cada um desses namenodes passa por um exame minucioso nas duas subseções mencionadas do Zookeeper. Isso é feito para identificar áreas de dificuldade e identificar possíveis falhas.

Instale o Hadoop no Ubuntu 20.04 – Guia passo a passo

E, finalmente, depois de aprender sobre a arquitetura Hadoop, é hora de chegar ao cerne da questão, que é como instalar o Hadoop no Ubuntu 20.04 como parte final deste tutorial do Hadoop. Vamos abordar os pré-requisitos antes de prosseguir para o guia passo a passo para instalar o Hadoop no Ubuntu 20.04. Tenha em mente que este guia também pode ser usado para Ubuntu 18.04.

Pré-requisitos

Os pré-requisitos necessários para instalar o Hadoop no Ubuntu são bastante simples. Tudo que você precisa é de um computador com Ubuntu com acesso root, disponível localmente ou acessível remotamente através de um servidor VPS. Em relação aos programas de pré-requisitos, certifique-se de já ter o Java 11 e o SSH instalados. Se você não os tiver, execute os seguintes comandos, um de cada vez, para instalá-los:

sudo apt update && sudo apt upgrade -y
sudo apt install openssh-server openssh-client -y
sudo apt install openjdk-11-jdk -y

Quanto à licença, você não precisará de nenhuma, pois o Hadoop é gratuito e de código aberto. Isso é tudo que você precisa. Vamos passar para o primeiro passo.

Etapa 1: criar usuário não root para Hadoop

Crie um usuário não root para seu Hadoop usando o comando a seguir. Isso faz parte das pré-configurações que precisamos fazer antes de baixar e instalar o Hadoop:

sudo adduser hdoop
su - hdoop

Etapa 2: configurar chaves SSH

Agora, para instalar o Hadoop no Ubuntu, usaremos o usuário Hadoop que você acabou de criar e o usaremos para fazer uma conexão SSH com ele. Use este comando para gerar um par de chaves SSH e salvá-lo:

ssh-keygen -t rsa -P '' -f ~/.ssh/id_rsa

Depois que as chaves forem geradas, a linha a seguir permitirá marcá-las como chaves_autorizadas e salve-os em seu diretório SSH:

cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys

Agora use este comando para garantir que sua conexão SSH tenha todas as permissões necessárias:

chmod 600 ~/.ssh/authorized_keys
chmod 700 ~/.ssh

Confirme as alterações e você poderá conectar-se facilmente ao seu host local a qualquer momento com o usuário que você criou:

ssh localhost

Etapa 3: Baixe e instale o Hadoop no Ubuntu

Você pode visitar o Site Apache Hadoop para ver uma lista de versões com seu log de alterações recentes. Selecione a versão de sua preferência e será apresentado um link que pode ser usado com o seguinte comando para baixar e instalar o Hadoop no Ubuntu. Aqui estou escolhendo a versão 3.3.6. Substitua ‘3.3.6’ pela versão estável mais recente, se necessário:

wget https://downloads.apache.org/hadoop/common/hadoop-3.3.6/hadoop-3.3.6.tar.gz

Terminado o download, use esta linha para finalizar o processo de extração e instalação:

tar xzf hadoop-3.3.6.tar.gz
sudo mv hadoop-3.3.6 /usr/local/hadoop
sudo chown -R hdoop:hdoop /usr/local/hadoop

Etapa 4: configurar o ambiente Hadoop

Definir JAVA_HOME in /usr/local/hadoop/etc/hadoop/hadoop-env.sh:

echo 'export JAVA_HOME=$(readlink -f /usr/bin/java | sed "s:bin/java::")' | sudo tee -a /usr/local/hadoop/etc/hadoop/hadoop-env.sh

Etapa 5: editar arquivos de configuração

Atualize os arquivos de configuração XML do Hadoop com as configurações do seu cluster.

nano /usr/local/hadoop/etc/hadoop/core-site.xml

Etapa 6: formatar HDFS

Inicialize o namespace do sistema de arquivos Hadoop.

/usr/local/hadoop/bin/hdfs namenode -format

Etapa 7: iniciar os serviços Hadoop

Inicie os serviços HDFS e YARN.

/usr/local/hadoop/sbin/start-dfs.sh
/usr/local/hadoop/sbin/start-yarn.sh

Etapa 8: verifique a instalação

Verifique os processos Java em execução para confirmar se o Hadoop está em execução.

jps

Etapa 9: acessar interfaces da web

Abra navegadores da web nas interfaces NameNode e ResourceManager do Hadoop.

NomeNode: http://localhost:9870
Gerenciador de recursos: http://localhost:8088

Etapa 10: execute um exemplo de MapReduce

Execute um trabalho MapReduce de amostra para validar a configuração.

/usr/local/hadoop/bin/hdfs dfs -mkdir /input
/usr/local/hadoop/bin/hdfs dfs -put localfile.txt /input
/usr/local/hadoop/bin/hadoop jar
/usr/local/hadoop/share/hadoop/mapreduce/hadoop-mapreduce-examples-3.3.6.jar grep /input /output 'dfs[a-z.]+'
/usr/local/hadoop/bin/hdfs dfs -cat /output/*

Etapa 11: definir variáveis ​​de ambiente

Adicionar Hadoop caixa e sbin diretórios para o PATH do sistema.

echo 'export PATH=$PATH:/usr/local/hadoop/bin:/usr/local/hadoop/sbin' >> ~/.bashrc
source ~/.bashrc

E é isso! Você acabou de configurar e instalar com sucesso o Apache Hadoop no Ubuntu 20.04!

Conclusão

Em resumo, a instalação do Hadoop no Ubuntu 20.04 é um processo minucioso que exige atenção meticulosa e disposição para explorar as nuances da configuração. Ao seguir as etapas fornecidas neste guia, os usuários do Ubuntu podem embarcar em uma jornada transformadora, aproveitando os recursos substanciais do Hadoop para realizar plenamente o potencial de suas atividades de análise de dados.

Minha recomendação é implantar o Hadoop como uma implantação de nó único usando distribuição limitada se você pretende apenas aprender e brincar com ele. Para este efeito, um VPS funcionará perfeitamente para você. Cloudzy oferece uma série de diferentes Serviços VPS Linux incluindo um Ironclad, confiável Ubuntu VPS que pode ser configurado rapidamente para se tornar o playground de aprendizagem Hadoop perfeito para você. A partir de US$ 4,95 por mês, você pode obter seu próprio Ubuntu VPS com mais de 12 locais e suporte 24 horas por dia, 7 dias por semana!

ubuntu-vps A escolha óbvia

A maioria dos servidores Linux usam Ubuntu; por que não você? Descubra por que todo mundo adora o Ubuntu — obtenha um Ubuntu VPS otimizado

Obtenha seu Ubuntu VPS

Perguntas frequentes

Quais são as diferenças entre HDFS e MapReduce?

Embora ambos os módulos residam no ecossistema Hadoop, eles servem a propósitos distintos. O HDFS funciona como um sistema de arquivos distribuído, facilitando a acessibilidade dos dados. Por outro lado, o MapReduce é excelente na divisão e análise eficiente de grandes blocos de dados.

O Hadoop é considerado um banco de dados?

O Hadoop não é um banco de dados, embora esse equívoco seja comum. Em vez disso, funciona como um sistema de arquivos distribuído que permite o armazenamento e o processamento de dados volumosos usando uma rede de computadores interconectados. Não deve ser usado como substituto direto de um sistema de banco de dados tradicional.

Quais são os quatro componentes principais do Hadoop?

O Hadoop consiste em quatro componentes principais: HDFS (Hadoop Distributed File System), YARN (Yet Another Resource Negotiator), MapReduce e Hadoop Common. Além disso, alguns recursos consideram o ZooKeeper como um componente, embora não seja oficialmente reconhecido como tal.

Onde o Hadoop é normalmente utilizado?

O Hadoop encontra aplicações em vários domínios onde o gerenciamento, o armazenamento, o processamento e a análise de dados em grande escala são essenciais. Ela atende operações que vão desde empresas de médio porte e hospitais até startups em crescimento, fornecendo soluções baseadas em dados.

Compartilhar

Mais do blog

Continue lendo.

Símbolo original do MongoDB apresentado em um servidor futurista para instalação do MongoDB no Ubuntu+ slogan sobre o que esperar do artigo + título do artigo + logotipo da marca Cloudzy
Bancos de dados e análises

Como instalar o MongoDB nas três versões mais recentes do Ubuntu (passo a passo)

Então você decidiu usar o MongoDB, uma ótima alternativa ao MariaDB para construir um aplicativo de pilha MERN, uma plataforma analítica ou qualquer sistema baseado em documentos, mas se deparou com um bom problema.

Jim SchwarzJim Schwarz 12 minutos de leitura
Gerenciamento inteligente de dados para sua empresa: estratégias de armazenamento e backup “semelhantes à nuvem” com VPS
Bancos de dados e análises

Gerenciamento inteligente de dados para sua empresa: estratégias de armazenamento e backup “semelhantes à nuvem” com VPS

VPS para gerenciamento seguro de dados corporativos é a estratégia que recomendo sempre que uma empresa decide que é hora de parar de fazer malabarismos com arquivos entre laptops, anexos de e-mail e arquivos meio esquecidos.

Rexa CiroRexa Ciro 7 minutos de leitura
Visão materializada vs. visão
Bancos de dados e análises

Visão materializada vs. visão: entendendo seu papel nos bancos de dados

Em sistemas de banco de dados, uma visão materializada como objeto de banco de dados armazena os resultados pré-computados de uma consulta como uma tabela física. Como os dados são realmente armazenados em disco, complica

Ivy JohnsonIvy Johnson 7 minutos de leitura

Pronto para implantar? A partir de $ 2,48 / mês.

Nuvem independente, desde 2008. AMD EPYC, NVMe, 40 Gbps. Devolução do dinheiro em 14 dias.