오늘날 비즈니스나 컴퓨터를 활용하는 작업이 단일 컴퓨터로 처리할 수 없을 만큼 커지면, 여러 대의 컴퓨터를 하나의 네트워크로 묶어 작업을 효율적으로 분산하는 방식을 자연스럽게 사용하게 됩니다. 이 방식은 이제 매우 보편화되어, 데이터 과학 같은 분야에서는 거의 모든 작업이 이런 네트워크 기반 컴퓨터들로 처리됩니다. 물론 이 방식이 컴퓨팅 집약적인 작업에는 훨씬 효율적이지만, 각 컴퓨터를 개별적으로 구성하고 전체 네트워크를 관리해야 한다는 점에서 상당히 복잡하기도 합니다. Hadoop 같은 프로그램이 필요한 이유가 바로 여기에 있습니다.
Hadoop은 Apache가 공개한 도구 모음으로, 여러 컴퓨터를 하나의 네트워크로 묶는 과정을 훨씬 효율적이고 간편하게 처리할 수 있게 해줍니다. 이 글에서는 Hadoop의 개요와 활용 사례, 장단점, 고급 아키텍처를 살펴본 뒤, Ubuntu 20.04에 Hadoop을 설치하는 방법을 단계별로 안내합니다.
Apache Hadoop이란?
Apache 기반의 도구 모음인 Hadoop은 15년 이상 네트워크 구성과 활용 방식을 바꿔온 솔루션입니다. 기존 컴퓨팅 자원을 최대한 활용하기 때문에 고비용 업그레이드 없이도 부하가 큰 작업을 처리할 수 있습니다. Hadoop은 HDFS, YARN, MapReduce, Hadoop Common, 이렇게 네 가지 모듈로 구성되며 각각 특정 용도에 맞게 설계되어 있습니다.
Hadoop의 핵심 강점은 자원 효율성에 있습니다. 개인과 조직 모두 기존 컴퓨팅 자원을 하나로 통합해 대규모 연산 과제를 해결할 수 있습니다. Hadoop 없이는 점점 더 강력한 컴퓨터를 구매하는 데 막대한 비용을 지출해야 했을 것입니다.
Hadoop 활용 사례
이제 Hadoop이 무엇인지 알았습니다. 그렇다면 실제로 어떻게 활용될까요? 이론으로 프로그램을 이해하는 것과 실제 운영 환경에서 그 가치를 확인하는 것은 다릅니다. Hadoop 설치 튜토리얼로 넘어가기 전에 몇 가지 활용 사례를 살펴보겠습니다.
위험 분석
앞서 언급했듯이 Hadoop은 여러 컴퓨터를 하나의 네트워크 단위로 묶어 대용량 데이터를 효율적으로 처리하고 분석 속도를 높입니다. 모든 비즈니스에는 분석과 계산이 필요한 위험 요소가 있는데, Hadoop은 이 부분에서 특히 유용합니다. 실제로 많은 병원에서 Hadoop을 활용해 다양한 치료법의 위험도를 분석하고 환자별 수술 결과와 통계를 예측합니다.
보안 침해 탐지
네트워크 규모가 커지고 연결 기기가 늘어날수록 보안 위협도 증가합니다. Hadoop의 주요 활용 사례 중 하나는 대용량 데이터를 분석해 시스템 전체를 점검하고 잠재적인 취약 지점을 찾아내는 것입니다.
리뷰 매핑
많은 기업이 제품 리뷰를 바탕으로 개선 방향을 찾거나 새로운 마케팅 전략을 수립합니다. 사람이 방대한 리뷰 데이터를 분석하려면 오랜 시간이 걸리지만, Hadoop은 여러 컴퓨터의 연산력을 활용해 훨씬 빠르게 결과를 도출합니다.
시장 분석
마케팅 전략 측면에서 리뷰 분석보다 더 많은 자원이 필요한 작업이 바로 신규 제품의 시장 진입 가능성을 평가하는 시장 분석입니다. Hadoop은 소규모 스타트업도 여러 대의 컴퓨터로 빠르고 효율적으로 시장을 분석할 수 있게 해줍니다.
로그 파일 분석
기업이 성장할수록 사용하는 소프트웨어도 늘어나고, 그에 따라 버그와 문제 발생 가능성도 커집니다. 로그 파일을 관리하고 문제를 해결하는 데는 상당한 시간이 필요하지만, Hadoop을 활용하면 간단한 설정만으로 로그 파일을 빠르게 검토하고 버그를 찾아 해결할 수 있습니다.
Hadoop의 활용 사례는 이 외에도 다양하지만, 이 글의 주제에 집중하기 위해 더 이상 다루지 않겠습니다.
Hadoop 아키텍처 개요
Hadoop이 무엇이고 어떤 용도로 쓰이는지 알았다면, 이제 내부 구조를 자세히 이해할 차례입니다. Hadoop은 크게 네 개의 레이어로 구성됩니다. 이 섹션에서는 HDFS(Hadoop Distributed File System), YARN(Yet Another Resource Negotiator), MapReduce, Hadoop Common을 살펴봅니다. 단, Hadoop Common은 별도로 설명할 기능이 많지 않아 핵심 내용만 Zookeeper으로 정리했습니다. 이 섹션에서는 Hadoop의 고급 아키텍처와 에코시스템을 네 가지 구성 요소 중심으로 쉽게 풀어본 뒤, Ubuntu 20.04에 Hadoop을 설치하는 방법으로 넘어갑니다.
HDFS
Hadoop 에코시스템에서 HDFS는 모든 Hadoop 하위 시스템과 애플리케이션이 데이터를 접근, 전송, 저장하는 데 사용하는 전체 스토리지 시스템입니다. Hadoop 자체는 오픈소스 프로그램이지만, HDFS는 단일 Hadoop 클러스터의 모든 하위 작업을 담당하는 파일 시스템입니다. HDFS는 높은 내결함성을 갖추고 있으며 데이터를 128 MB 단위로 분할해 순차 처리에 최적화합니다.
Hadoop 소프트웨어에서 HDFS의 주요 역할은 전체 데이터를 하나의 데이터 랙으로 제공하는 것입니다. 이 데이터는 네임노드와 보조 랙을 통해 하위 섹션으로 분리되어 데이터 분석 작업을 구조화합니다. Journal 랙, QJM, HA, fsimage, 편집 로그 파일, 전체 범례 로그 등을 활용해 작업을 추적하고 다양한 관리 작업을 수행할 수 있습니다.
YARN
YARN은 Hadoop 에코시스템 내 각 애플리케이션에 필요한 컴퓨팅 자원을 할당하는 역할을 합니다. 리소스 매니저를 통해 여러 노드에 걸쳐 다양한 작업과 애플리케이션에 자원을 배분할 수 있습니다. HDFS와 마찬가지로 YARN에도 할당된 자원과 작업을 한눈에 파악할 수 있는 범례 기능이 있습니다. YARN은 Resource Manager, Application Master, Node Manager, 세 가지 하위 구성 요소로 나뉩니다.
이 세 가지 하위 구성 요소는 각각 클러스터, 애플리케이션, 노드 단위로 새 인스턴스를 생성합니다. YARN을 사용하면 작업별로 자원을 할당할 뿐만 아니라 시간에 따라 자원 배분을 동적으로 조정해 고급 알고리즘 워크플로를 구성할 수 있습니다. YARN은 단독으로 사용하는 것에 그치지 않고 HDFS, Zookeeper 등 다른 아키텍처 레이어와 함께 자원을 할당하고 전체 운영을 평가하는 데 폭넓게 활용됩니다.
Hadoop MapReduce
Hadoop MapReduce는 Hadoop 생태계의 또 다른 핵심 구성 요소입니다. Ubuntu에 Hadoop을 설치하면 이 기능을 활용해 방대한 양의 데이터를 여러 컴퓨터에 분산하여 효율적으로 분석할 수 있습니다. Hadoop MapReduce의 동작 방식은 다음과 같습니다. 먼저 대규모 데이터 맵을 프로그램에 입력합니다. 이 데이터 맵은 섞이고 분할된 뒤 네트워크로 연결된 여러 컴퓨터에 분배됩니다. 이후 리듀서(reducer)라고 불리는 특정 프로토콜을 통해 데이터가 핵심 요소로 압축되고 정제됩니다. 이 각각의 처리 단위를 Job이라고 합니다.
예를 들어, MapReduce로 분석하려는 데이터 맵이 세 단어로 이루어진 문장이라고 가정해 봅시다. 'Bear Hunt Rabbit'이라는 문장을 입력한다면, Hadoop MapReduce는 이 문장을 단어 하나씩 세 개의 배치로 분할합니다. 그런 다음 이 단어들을 다른 Job의 유사한 입력 데이터와 조합하여, 불필요한 데이터가 제거된 최종 통합 데이터 배치를 생성합니다. 이렇게 만들어진 결과물은 쉽게 분석할 수 있습니다.
Zookeeper
Zookeeper는 Hadoop 2.0 출시와 함께 본격적으로 주목받기 시작한 Hadoop 생태계의 또 다른 하위 구성 요소입니다. Zookeeper의 주요 역할은 단일 Hadoop 인스턴스 내에서 실행 중인 다양한 작업들 간의 조율입니다. 그렇기 때문에 Zookeeper는 대부분 YARN의 Resource Manager 및 HDFS의 여러 기능과 함께 사용됩니다. 이러한 작업에서 Zookeeper의 핵심 역할은 잠재적인 장애 지점을 감지하고 처리하는 것입니다. 이를 위해 ZKFailoverController와 Zookeeper Quorum, 두 가지 도구를 활용합니다.
이 과정에서 Hadoop 아키텍처의 다른 구성 요소들이 관리하는 데이터 노드는 사용자가 감독하는 액티브 네임노드(active namenode)로 분류됩니다. 이후 각 네임노드는 앞서 언급한 Zookeeper의 두 하위 구성 요소를 통해 검토됩니다. 이는 문제 지점을 정확히 파악하고 잠재적 장애를 식별하기 위한 과정입니다.
Ubuntu 20.04에 Hadoop 설치하기 - 단계별 가이드
Hadoop 아키텍처를 살펴봤으니, 이제 이 Hadoop 튜토리얼의 마지막 단계인 Ubuntu 20.04에 Hadoop을 설치하는 방법으로 넘어갈 차례입니다. 단계별 설치 가이드에 앞서 사전 준비 사항을 먼저 확인하겠습니다. 참고로 이 가이드는 Ubuntu 18.04에서도 동일하게 사용할 수 있습니다.
필수 조건
Ubuntu에 Hadoop을 설치하기 위한 사전 요구 사항은 간단합니다. 필요한 것은 루트 접근 권한이 있는 Ubuntu 기반 컴퓨터뿐입니다. 로컬에서 직접 접근하거나 VPS 서버를 통해 원격으로 접속할 수 있으면 됩니다. 사전 설치 프로그램의 경우, Java 11과 SSH가 이미 설치되어 있어야 합니다. 설치되어 있지 않다면 아래 명령어를 순서대로 하나씩 실행하여 설치하세요.
sudo apt update && sudo apt upgrade -y
sudo apt install openssh-server openssh-client -y
sudo apt install openjdk-11-jdk -y
라이선스는 별도로 필요하지 않습니다. Hadoop은 무료 오픈 소스 소프트웨어이기 때문입니다. 준비는 끝났습니다. 이제 첫 번째 단계로 넘어가겠습니다.
1단계: Hadoop용 비루트 사용자 생성
다음 명령어를 사용하여 Hadoop 전용 비루트(non-root) 사용자를 생성합니다. 이는 Hadoop을 실제로 다운로드하고 설치하기 전에 수행해야 하는 사전 설정 작업 중 하나입니다.
sudo adduser hdoop
su - hdoop
2단계: SSH 키 설정
이제 Ubuntu에 Hadoop을 설치하기 위해 방금 생성한 Hadoop 사용자를 사용하여 SSH 연결을 설정합니다. 다음 명령어로 SSH 키 쌍을 생성하고 저장하세요.
ssh-keygen -t rsa -P '' -f ~/.ssh/id_rsa
키가 생성되면, 다음 명령어를 통해 해당 키를 다음과 같이 표시하고 authorized_keys SSH 디렉터리에 저장할 수 있습니다.
cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys
이제 다음 명령어를 실행하여 SSH 연결에 필요한 권한이 모두 올바르게 설정되어 있는지 확인합니다.
chmod 600 ~/.ssh/authorized_keys
chmod 700 ~/.ssh
변경 사항을 확인하고 나면, 생성한 사용자로 언제든지 localhost에 간편하게 접속할 수 있습니다.
ssh localhost
3단계: Ubuntu에 Hadoop 다운로드 및 설치
아래 링크를 방문하세요. Apache Hadoop 공식 웹사이트 각 버전의 최신 변경 로그 목록을 확인할 수 있습니다. 원하는 버전을 선택하면 다운로드 링크가 제공됩니다. 이 링크를 아래 명령어에 사용하면 Ubuntu에 Hadoop을 다운로드하고 설치할 수 있습니다. 여기서는 버전 3.3.6을 기준으로 설명합니다. 필요한 경우 '3.3.6'을 최신 안정 버전으로 교체하세요.
wget https://downloads.apache.org/hadoop/common/hadoop-3.3.6/hadoop-3.3.6.tar.gz
다운로드가 완료되면 다음 명령어를 실행하여 압축 해제 및 설치를 마무리합니다.
tar xzf hadoop-3.3.6.tar.gz
sudo mv hadoop-3.3.6 /usr/local/hadoop
sudo chown -R hdoop:hdoop /usr/local/hadoop
4단계: Hadoop 환경 구성
설정 JAVA_HOME in /usr/local/hadoop/etc/hadoop/hadoop-env.sh:
echo 'export JAVA_HOME=$(readlink -f /usr/bin/java | sed "s:bin/java::")' | sudo tee -a /usr/local/hadoop/etc/hadoop/hadoop-env.sh
5단계: 설정 파일 편집
클러스터 설정으로 Hadoop XML 구성 파일을 업데이트합니다.
nano /usr/local/hadoop/etc/hadoop/core-site.xml
6단계: HDFS 포맷
Hadoop 파일시스템 네임스페이스를 초기화합니다.
/usr/local/hadoop/bin/hdfs namenode -format
7단계: Hadoop 서비스 시작
HDFS와 YARN 서비스를 시작합니다.
/usr/local/hadoop/sbin/start-dfs.sh
/usr/local/hadoop/sbin/start-yarn.sh
8단계: 설치 확인
실행 중인 Java 프로세스를 확인하여 Hadoop이 정상적으로 동작하는지 검증합니다.
jps
9단계: 웹 인터페이스 접속
웹 브라우저에서 Hadoop의 NameNode 및 ResourceManager 인터페이스를 엽니다.
NameNode: http://localhost:9870
ResourceManager: http://localhost:8088
10단계: MapReduce 예제 실행
설정이 올바른지 확인하려면 샘플 MapReduce 작업을 실행하세요.
/usr/local/hadoop/bin/hdfs dfs -mkdir /input
/usr/local/hadoop/bin/hdfs dfs -put localfile.txt /input
/usr/local/hadoop/bin/hadoop jar
/usr/local/hadoop/share/hadoop/mapreduce/hadoop-mapreduce-examples-3.3.6.jar grep /input /output 'dfs[a-z.]+'
/usr/local/hadoop/bin/hdfs dfs -cat /output/*
11단계: 환경 변수 설정
Hadoop 추가 bin 및 sbin 시스템 PATH에 디렉토리를 추가합니다.
echo 'export PATH=$PATH:/usr/local/hadoop/bin:/usr/local/hadoop/sbin' >> ~/.bashrc
source ~/.bashrc
이제 끝입니다! Ubuntu 20.04에 Apache Hadoop을 성공적으로 설치하고 구성했습니다!
결론
Ubuntu 20.04에 Hadoop을 설치하는 과정은 세심한 주의와 꼼꼼한 설정이 필요합니다. 이 가이드의 단계를 따르면, Ubuntu 사용자는 Hadoop의 강력한 기능을 활용해 데이터 분석을 본격적으로 시작할 수 있습니다.
학습 및 테스트 목적으로만 사용한다면, 단일 노드로 Hadoop을 배포하는 것을 권장합니다. 이 경우 VPS가 적합합니다. Cloudzy는 다양한 Linux VPS 서비스 안정적인 Ironclad Ubuntu VPS 를 제공하며, 빠르게 구성해 Hadoop 학습 환경으로 바로 활용할 수 있습니다. 월 $4.95부터 시작하는 Ubuntu VPS를 12개 이상의 지역과 24/7 지원과 함께 이용해 보세요!
명확한 선택
Linux 서버의 대다수는 이미 Ubuntu를 사용하고 있습니다. 지금 바로 시작해 보세요. 최적화된 Ubuntu VPS로 그 이유를 직접 확인하세요.
Ubuntu VPS 시작하기자주 묻는 질문
HDFS와 MapReduce의 차이점은 무엇인가요?
HDFS와 MapReduce는 모두 Hadoop 생태계에 속하지만, 역할이 다릅니다. HDFS는 분산 파일 시스템으로 데이터 접근성을 담당하고, MapReduce는 대용량 데이터를 분할하여 효율적으로 분석하는 데 특화되어 있습니다.
Hadoop은 데이터베이스인가요?
Hadoop은 데이터베이스가 아닙니다. 흔히 혼동하지만, Hadoop은 여러 컴퓨터를 연결해 대용량 데이터를 저장하고 처리하는 분산 파일 시스템입니다. 기존 데이터베이스를 대체하는 용도로 사용해서는 안 됩니다.
Hadoop의 네 가지 주요 구성 요소는 무엇인가요?
Hadoop은 네 가지 핵심 구성 요소로 이루어져 있습니다: HDFS(Hadoop Distributed File System), YARN(Yet Another Resource Negotiator), MapReduce, 그리고 Hadoop Common입니다. 일부에서는 ZooKeeper도 구성 요소로 보지만, 공식적으로는 포함되지 않습니다.
Hadoop은 주로 어떤 분야에서 활용되나요?
Hadoop은 대규모 데이터를 관리, 저장, 처리, 분석해야 하는 다양한 분야에서 활용됩니다. 중견 기업과 병원부터 성장 중인 스타트업까지, 데이터 기반 솔루션을 필요로 하는 곳이라면 어디서든 사용됩니다.