diskon 50% semua paket, waktu terbatas. Mulai dari $2.48/mo
13 menit tersisa
Database & Analytics

Cara Install Hadoop di Ubuntu: Panduan Lengkap

Pius Bodenmann By Pius Bodenmann Baca dalam 13 menit Diperbarui 1 Mei 2024
cara install hadoop di ubuntu linux

Saat ini, begitu sebuah bisnis atau operasi yang melibatkan komputer berkembang hingga membutuhkan lebih dari satu komputer, kita langsung mulai menggunakan beberapa komputer dalam satu jaringan untuk menangani beban kerja dengan lebih efisien. Hal ini sudah sangat umum, sehingga hampir semua operasi di bidang seperti data science kini dijalankan oleh komputer-komputer yang terhubung dalam jaringan. Meski cara ini jelas lebih efisien untuk tugas-tugas komputasi berat, pengelolaannya juga sangat kompleks karena Anda perlu mengonfigurasi setiap komputer secara terpisah, lalu mengelola seluruh jaringan saat menjalankan tugas-tugas tersebut. Di sinilah program seperti Hadoop hadir sebagai solusi.

Hadoop adalah kumpulan alat dan program yang dirilis oleh Apache, yang memungkinkan proses penghubungan sejumlah komputer menjadi jauh lebih efisien dan mudah. Dalam artikel ini, saya akan mengulas Hadoop, membahas kasus penggunaannya, menjabarkan kelebihan dan kekurangannya, serta memberikan gambaran umum arsitektur tingkat lanjutnya, sebelum melanjutkan ke panduan langkah demi langkah cara menginstal Hadoop di Ubuntu 20.04 sebagai penutup tutorial Hadoop 2024 ini.

Apa Itu Apache Hadoop?

Hadoop, kumpulan alat yang didukung oleh Apache, telah mengubah cara pengaturan dan pemanfaatan jaringan selama lebih dari 15 tahun. Pengguna dapat memaksimalkan efisiensi sumber daya Hadoop untuk menjalankan tugas-tugas berat menggunakan daya komputasi yang sudah dimiliki, tanpa perlu upgrade perangkat keras yang mahal. Suite ini terdiri dari empat modul: HDFS, YARN, MapReduce, dan Hadoop Common, masing-masing dirancang untuk kebutuhan tertentu.

Keunggulan Hadoop terletak pada kemampuannya menggabungkan daya komputasi yang sudah ada, baik milik individu maupun organisasi, menjadi satu kesatuan yang mampu menangani beban komputasi berat. Tanpa Hadoop, mereka harus mengeluarkan biaya besar untuk terus membeli mesin yang semakin bertenaga.

Kasus Penggunaan Hadoop

Sekarang kita sudah tahu apa itu Hadoop. Tapi bagaimana penerapannya di dunia nyata? Memahami sebuah program secara teori memang berguna, tapi tidak ada yang bisa menggantikan pengalaman langsung menggunakannya dalam operasi sesungguhnya. Berikut beberapa contoh sebelum kita masuk ke tutorial Hadoop.

Analisis Risiko

Seperti yang sudah disebutkan, Hadoop memungkinkan Anda memanfaatkan kekuatan beberapa sistem komputer sebagai satu unit jaringan untuk memproses kumpulan data besar secara efisien dan menganalisisnya lebih cepat dari biasanya. Setiap bisnis pasti menghadapi risiko yang perlu dianalisis dan dihitung. Hadoop sangat berguna di sini. Bahkan banyak rumah sakit ternama menggunakannya untuk menganalisis risiko berbagai tindakan medis dan memperkirakan hasil serta statistik operasi bagi pasien mereka. Baca lebih lanjut tentang peran Hadoop di bidang layanan kesehatan di sini.

Mendeteksi Pelanggaran Keamanan

Seiring bertambahnya perangkat dan koneksi dalam suatu jaringan atau bisnis, potensi celah keamanan pun semakin banyak. Salah satu kegunaan utama Hadoop adalah mengevaluasi keseluruhan operasi dengan menganalisis kumpulan data besar dan menandai titik-titik rawan dalam sistem tersebut.

Pemetaan Ulasan

Banyak bisnis mengandalkan ulasan produk mereka untuk melakukan perbaikan atau menyusun strategi pasar baru. Sementara manusia butuh waktu sangat lama untuk menelusuri file ulasan yang besar, Hadoop memanfaatkan jaringan komputernya untuk menghasilkan hasil yang jauh lebih cepat.

Analisis Pasar

Berbicara soal strategi pasar, pemetaan ulasan tadi tidak ada artinya dibandingkan jumlah sumber daya yang dibutuhkan untuk menganalisis pasar guna menilai potensi produk baru yang akan masuk ke dalamnya. Ini adalah kasus penggunaan lain di mana Hadoop unggul, karena memungkinkan bahkan bisnis kecil yang baru berkembang untuk mengevaluasi pasar secara efisien menggunakan beberapa komputer dalam waktu yang wajar.

Menganalisis File Log

Aspek lain dari bisnis yang semakin rumit seiring perkembangannya adalah jumlah perangkat lunak yang digunakan di berbagai lini. Semakin banyak perangkat lunak berarti semakin banyak potensi bug dan masalah, dan dibutuhkan staf khusus untuk mengelola file log serta menangani masalah-masalah tersebut. Proses ini memakan banyak waktu, namun dengan beberapa protokol sederhana, bisnis dapat menggunakan Hadoop untuk meninjau dan mengevaluasi file log dengan cepat, menemukan bug, dan membereskannya.

Masih banyak kasus penggunaan dan aplikasi Hadoop lainnya, namun agar artikel ini tetap fokus pada tujuannya, kita tidak akan membahasnya lebih lanjut.

Gambaran Umum Arsitektur Hadoop

Katakanlah Anda sudah mendengar tentang Hadoop, kasus penggunaannya, dan apa yang bisa dilakukannya. Dan jika belum, artikel ini sudah menjelaskannya sejauh ini. Tapi sekarang Anda perlu memahami lebih dalam apa yang sebenarnya membentuk Hadoop dan bagaimana setiap bagiannya bekerja bersama fitur lainnya. Seperti yang disebutkan sebelumnya, ada empat lapisan umum dalam Hadoop. Pada bagian tutorial Hadoop ini, kita akan mempelajari lebih lanjut tentang HDFS (Hadoop Distributed File System), YARN (Yet Another Resource Negotiator), MapReduce, dan Hadoop Common. Namun, karena Hadoop Common tidak memiliki banyak fitur yang perlu dijelaskan secara mendalam, intinya dikenal sebagai Zookeeper. Jadi di bagian ini, saya akan mencoba menjelaskan arsitektur dan ekosistem Hadoop tingkat lanjut beserta keempat komponennya dalam bahasa yang mudah dipahami, sebelum akhirnya beralih ke cara menginstal Hadoop di Ubuntu 20.04.

HDFS

HDFS dalam ekosistem Hadoop merupakan sistem penyimpanan utama yang digunakan oleh semua subsistem dan aplikasi Hadoop untuk mengakses, memindahkan, dan menyimpan data. Poin utama dalam arsitektur HDFS adalah bahwa tidak seperti Hadoop itu sendiri yang bersifat open-source, HDFS dalam Hadoop sebenarnya adalah sistem file yang bertanggung jawab menjalankan semua operasi mendasar dari sebuah Hadoop cluster. HDFS adalah sistem file yang sangat andal, yang membagi kumpulan data menjadi potongan 128 MB dan mengoptimalkannya untuk operasi berbasis urutan.

Peran utama HDFS dalam perangkat lunak Hadoop adalah menyediakan semua data sebagai bagian dari rak data keseluruhan, yang kemudian dapat dimanipulasi melalui berbagai namenode dan rak sekunder menjadi subseksi untuk mengatur operasi analisis data Anda. Anda kemudian dapat menggunakan opsi lain seperti Journal rack, QJM, HA, fsimage dan edit log file, serta log legend keseluruhan untuk memantau dan menjalankan tugas-tugas lainnya.

YARN

YARN adalah cabang eksekutif lain dari Hadoop yang digunakan untuk mengalokasikan jumlah sumber daya komputasi yang diinginkan ke aplikasi tertentu dalam ekosistem Hadoop. Pada dasarnya, YARN memungkinkan Anda menggunakan resource manager untuk klien guna mendistribusikan sumber daya tersebut melalui sekumpulan node ke berbagai tugas dan aplikasi. Ada juga legend di YARN yang, mirip dengan yang ada di HDFS, memungkinkan Anda memantau semua aset dan operasi yang telah dialokasikan. YARN sendiri dibagi menjadi tiga subseksi: Resource Manager, Application Master, dan Node Manager.

Masing-masing dari ketiga subseksi ini membuat instance baru per cluster, aplikasi, dan node secara berurutan. Selain mengalokasikan sumber daya ke berbagai tugas menggunakan YARN, Anda juga dapat menjadwalkan perubahan sumber daya tersebut dari waktu ke waktu untuk membangun alur kerja algoritmik yang lebih canggih. YARN tidak terbatas pada subseksinya sendiri. Akan ada banyak situasi di mana Anda menggunakan YARN bersama lapisan arsitektur lain seperti HDFS dan Zookeeper untuk mengalokasikan sumber daya dan mengevaluasi keseluruhan operasi Anda.

Hadoop Mapreduce

Hadoop MapReduce adalah komponen utama lain dalam ekosistem Hadoop. Setelah menginstal Hadoop di Ubuntu, Anda dapat menggunakan fitur ini untuk menganalisis kumpulan data besar secara terdistribusi di beberapa komputer sekaligus. Cara kerja Hadoop MapReduce secara sederhana: Anda memasukkan peta data berukuran besar ke dalam program. Peta data ini akan diacak, dipecah, lalu didistribusikan ke seluruh komputer dalam jaringan Anda. Selanjutnya, menggunakan protokol khusus yang disebut reducer, data disederhanakan menjadi komponen-komponen paling esensialnya. Setiap operasi ini disebut sebagai sebuah Job.

Bayangkan Anda memiliki kalimat tiga kata sebagai peta data yang ingin dianalisis dengan MapReduce. Misalnya kalimatnya adalah Bear Hunt Rabbit. Hadoop MapReduce akan memecah dan mereduksi kalimat ini menjadi tiga batch terpisah, masing-masing berisi satu kata. Kata-kata tersebut kemudian dikombinasikan dengan input data serupa dari job lain untuk menghasilkan satu batch data akhir yang homogen, sudah dibersihkan dari data yang tidak diperlukan, dan siap dianalisis.

Zookeeper

Zookeeper adalah subseksi lain dari ekosistem Hadoop yang mulai dikenal dan digunakan secara luas sejak rilis Hadoop versi 2.0. Fungsi utama Zookeeper adalah mengkoordinasikan berbagai operasi yang berjalan dalam satu instance Hadoop. Karena itu, Zookeeper hampir selalu digunakan bersama Resource Manager milik YARN dan berbagai fitur HDFS di Hadoop. Peran utama Zookeeper dalam operasi-operasi ini adalah mendeteksi dan menangani potensi titik kegagalan. Untuk melakukannya, Zookeeper menggunakan dua alat: ZKFiloverControer dan Zookeeper Quorum.

Dalam prosedur ini, node data yang dikelola oleh komponen-komponen lain dalam arsitektur Hadoop dikategorikan sebagai active namenode, yang diawasi oleh pengguna. Selanjutnya, setiap namenode tersebut diperiksa di dalam dua subseksi Zookeeper yang telah disebutkan. Proses ini dilakukan untuk mengidentifikasi area bermasalah dan mendeteksi potensi kegagalan.

Instal Hadoop di Ubuntu 20.04 – Panduan Langkah demi Langkah

Setelah memahami arsitektur Hadoop, kini saatnya masuk ke inti pembahasan: cara menginstal Hadoop di Ubuntu 20.04 sebagai bagian terakhir dari tutorial Hadoop ini. Mari kita bahas prasyaratnya terlebih dahulu sebelum masuk ke panduan langkah demi langkah. Perlu diketahui, panduan ini juga berlaku untuk Ubuntu 18.04.

Prasyarat

Prasyarat untuk menginstal Hadoop di Ubuntu cukup sederhana. Yang Anda butuhkan hanyalah komputer berbasis Ubuntu dengan akses root, baik secara lokal maupun jarak jauh melalui server VPS. Dari sisi perangkat lunak, pastikan Java 11 dan SSH sudah terpasang. Jika belum, jalankan perintah-perintah berikut satu per satu untuk menginstalnya:

sudo apt update && sudo apt upgrade -y
sudo apt install openssh-server openssh-client -y
sudo apt install openjdk-11-jdk -y

Untuk lisensi, Anda tidak membutuhkannya karena Hadoop bersifat gratis dan open-source. Itu saja yang diperlukan. Mari lanjut ke langkah pertama.

Langkah 1: Buat Non-Root User untuk Hadoop

Buat pengguna non-root untuk Hadoop Anda menggunakan perintah berikut. Ini adalah bagian dari konfigurasi awal yang perlu dilakukan sebelum mengunduh dan menginstal Hadoop:

sudo adduser hdoop
su - hdoop

Langkah 2: Siapkan Kunci SSH

Sekarang, untuk menginstal Hadoop di Ubuntu, kita akan menggunakan pengguna Hadoop yang baru saja dibuat dan menggunakannya untuk membuat koneksi SSH. Gunakan perintah ini untuk membuat pasangan kunci SSH dan menyimpannya:

ssh-keygen -t rsa -P '' -f ~/.ssh/id_rsa

Setelah kunci dibuat, baris berikut akan memungkinkan Anda menandainya sebagai authorized_keys dan menyimpannya di direktori SSH Anda:

cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys

Gunakan perintah ini untuk memastikan koneksi SSH Anda memiliki semua izin yang diperlukan:

chmod 600 ~/.ssh/authorized_keys
chmod 700 ~/.ssh

Konfirmasi perubahan tersebut, dan Anda akan dapat terhubung ke localhost kapan saja menggunakan pengguna yang telah dibuat:

ssh localhost

Langkah 3: Unduh dan Instal Hadoop di Ubuntu

Anda dapat mengunjungi situs web Hadoop Apache untuk melihat daftar versi beserta log perubahan terbaru. Pilih versi yang Anda inginkan, lalu Anda akan mendapatkan tautan yang dapat digunakan bersama perintah berikut untuk mengunduh dan menginstal Hadoop di Ubuntu. Di sini saya memilih versi 3.3.6. Ganti '3.3.6' dengan versi stabil terbaru jika diperlukan:

wget https://downloads.apache.org/hadoop/common/hadoop-3.3.6/hadoop-3.3.6.tar.gz

Setelah unduhan selesai, gunakan baris ini untuk menyelesaikan proses ekstraksi dan instalasi:

tar xzf hadoop-3.3.6.tar.gz
sudo mv hadoop-3.3.6 /usr/local/hadoop
sudo chown -R hdoop:hdoop /usr/local/hadoop

Langkah 4: Konfigurasi Environment Hadoop

Atur JAVA_HOME in /usr/local/hadoop/etc/hadoop/hadoop-env.sh:

echo 'export JAVA_HOME=$(readlink -f /usr/bin/java | sed "s:bin/java::")' | sudo tee -a /usr/local/hadoop/etc/hadoop/hadoop-env.sh

Langkah 5: Edit File Konfigurasi

Perbarui file konfigurasi XML Hadoop dengan pengaturan cluster Anda.

nano /usr/local/hadoop/etc/hadoop/core-site.xml

Langkah 6: Format HDFS

Inisialisasi namespace filesystem Hadoop.

/usr/local/hadoop/bin/hdfs namenode -format

Langkah 7: Mulai Layanan Hadoop

Jalankan layanan HDFS dan YARN.

/usr/local/hadoop/sbin/start-dfs.sh
/usr/local/hadoop/sbin/start-yarn.sh

Langkah 8: Verifikasi Instalasi

Periksa proses Java yang berjalan untuk memastikan Hadoop aktif.

jps

Langkah 9: Akses Antarmuka Web

Buka browser web menuju antarmuka NameNode dan ResourceManager milik Hadoop.

NameNode: http://localhost:9870
ResourceManager: http://localhost:8088

Langkah 10: Jalankan Contoh MapReduce

Jalankan contoh job MapReduce untuk memvalidasi konfigurasi.

/usr/local/hadoop/bin/hdfs dfs -mkdir /input
/usr/local/hadoop/bin/hdfs dfs -put localfile.txt /input
/usr/local/hadoop/bin/hadoop jar
/usr/local/hadoop/share/hadoop/mapreduce/hadoop-mapreduce-examples-3.3.6.jar grep /input /output 'dfs[a-z.]+'
/usr/local/hadoop/bin/hdfs dfs -cat /output/*

Langkah 11: Atur Variabel Lingkungan

Tambahkan Hadoop bin dan sbin direktori ke PATH sistem.

echo 'export PATH=$PATH:/usr/local/hadoop/bin:/usr/local/hadoop/sbin' >> ~/.bashrc
source ~/.bashrc

Selesai! Kamu berhasil mengonfigurasi dan menginstal Apache Hadoop di Ubuntu 20.04!

Kesimpulan

Secara keseluruhan, instalasi Hadoop di Ubuntu 20.04 adalah proses yang cukup menyeluruh dan membutuhkan perhatian teliti pada setiap langkahnya. Dengan mengikuti panduan ini, pengguna Ubuntu dapat mulai memanfaatkan kemampuan Hadoop secara penuh untuk keperluan analitik data mereka.

Rekomendasiku adalah men-deploy Hadoop sebagai single-node menggunakan distribusi terbatas jika kamu hanya ingin belajar dan bereksperimen. Untuk keperluan itu, sebuah VPS sudah lebih dari cukup. Cloudzy menawarkan berbagai pilihan layanan Linux VPS termasuk layanan yang andal dan terpercaya Ubuntu VPS yang bisa dikonfigurasi dengan cepat menjadi lingkungan belajar Hadoop yang ideal. Mulai dari $4,95 per bulan, kamu bisa mendapatkan Ubuntu VPS sendiri dengan lebih dari 12 lokasi dan dukungan 24/7!

ubuntu-vps Pilihan yang Tepat

Sebagian besar server Linux menggunakan Ubuntu. Mengapa bukan Anda? Temukan alasan mengapa semua orang memilih Ubuntu, dan dapatkan Ubuntu VPS yang telah dioptimalkan

Dapatkan Ubuntu VPS Anda

Pertanyaan yang Sering Diajukan

Apa perbedaan antara HDFS dan MapReduce?

Meski keduanya berada dalam ekosistem Hadoop, keduanya memiliki fungsi yang berbeda. HDFS berperan sebagai sistem file terdistribusi yang memudahkan akses data. Sementara itu, MapReduce unggul dalam memecah dan menganalisis data berukuran besar secara efisien.

Apakah Hadoop termasuk database?

Hadoop bukan database, meskipun kesalahpahaman ini cukup umum terjadi. Hadoop beroperasi sebagai sistem file terdistribusi yang memungkinkan penyimpanan dan pemrosesan data dalam jumlah besar menggunakan jaringan komputer yang saling terhubung. Hadoop tidak dimaksudkan sebagai pengganti langsung untuk sistem database tradisional.

Apa saja empat komponen utama Hadoop?

Hadoop terdiri dari empat komponen utama: HDFS (Hadoop Distributed File System), YARN (Yet Another Resource Negotiator), MapReduce, dan Hadoop Common. Selain itu, beberapa referensi juga menyertakan ZooKeeper sebagai komponen, meski secara resmi tidak dikategorikan demikian.

Di mana Hadoop biasanya digunakan?

Hadoop digunakan di berbagai bidang yang membutuhkan pengelolaan, penyimpanan, pemrosesan, dan analisis data dalam skala besar. Mulai dari bisnis menengah dan rumah sakit hingga startup yang sedang berkembang, Hadoop menyediakan solusi berbasis data yang relevan.

Bagikan

Artikel lainnya dari blog

Terus baca.

Simbol asli MongoDB yang ditampilkan pada server futuristik untuk menginstal MongoDB di Ubuntu + tagline tentang apa yang bisa diharapkan dari artikel + judul artikel + logo merek Cloudzy
Database & Analytics

Cara Menginstal MongoDB di Tiga Versi Terbaru Ubuntu (Langkah demi Langkah)

Jadi Anda sudah memutuskan untuk menggunakan MongoDB, alternatif yang bagus untuk MariaDB dalam membangun aplikasi MERN stack, platform analitik, atau sistem berbasis dokumen apa pun, tetapi terkendala dengan o

Jim SchwarzJim Schwarz 12 menit baca
Manajemen Data Cerdas untuk Bisnis Anda: Strategi Penyimpanan dan Backup "Seperti Cloud" dengan VPS
Database & Analytics

Manajemen Data Cerdas untuk Bisnis Anda: Strategi Penyimpanan dan Backup "Seperti Cloud" dengan VPS

VPS untuk manajemen data bisnis yang aman adalah strategi yang saya rekomendasikan setiap kali perusahaan memutuskan sudah saatnya berhenti mengelola file yang tersebar di laptop, lampiran email, dan folder yang setengah terlupakan

Rexa CyrusRexa Cyrus 7 menit baca
Materialized View vs. View
Database & Analytics

Materialized View vs. View: Memahami Perannya dalam Database

Dalam sistem database, materialized view sebagai objek database menyimpan hasil prakalkulasi dari sebuah query dalam bentuk tabel fisik. Karena data benar-benar disimpan di disk, kueri yang kompleks

Ivy JohnsonIvy Johnson 7 menit baca

Siap untuk di-deploy? Mulai dari $2.48/bulan.

Cloud independen, sejak 2008. AMD EPYC, NVMe, 40 Gbps. Garansi uang kembali 14 hari.