Diskon 50%. semua rencana, waktu terbatas. Mulai pukul $2.48/mo
13 menit lagi
Basis Data & Analisis

Cara Menginstal Hadoop di Ubuntu: Panduan Komprehensif

Pius Bodenmann By Pius Bodenmann 13 menit membaca Diperbarui 1 Mei 2024
cara install hadoop di ubuntu linux

Saat ini, ketika bisnis atau operasi apa pun yang melibatkan komputer berkembang hingga memerlukan lebih dari satu komputer untuk menanganinya, kita segera mulai menggunakan banyak komputer sebagai bagian dari satu jaringan agar dapat menangani beban kerja dengan lebih efisien. Hal ini sudah menjadi hal yang lumrah karena saat ini hampir semua operasi di bidang seperti ilmu data dilakukan oleh komputer berjaringan ini. Meskipun tidak diragukan lagi melakukan tugas-tugas komputer yang berat lebih efisien dengan cara ini, cara ini juga sangat rumit, karena Anda perlu mengonfigurasi setiap komputer satu per satu dan kemudian mengelola seluruh jaringan saat menjalankan tugas-tugas Anda. Di sinilah program seperti Hadoop berperan untuk menyelamatkan situasi.

Hadoop adalah seperangkat alat dan program yang dirilis oleh Apache yang memungkinkan seluruh proses jaringan sekelompok komputer dilakukan dengan lebih efisien dan mudah. Jadi dalam artikel ini, saya akan mengulas Hadoop, memeriksa kasus penggunaannya, membahas kelebihan dan kekurangannya, dan memberikan gambaran umum tentang arsitektur canggihnya, sebelum melanjutkan ke panduan langkah demi langkah tentang cara menginstal Hadoop di Ubuntu 20.04 untuk menyelesaikan tutorial Hadoop 2024 ini.

Apa itu Apache Hadoop?

Hadoop, seperangkat alat yang didukung oleh Apache, telah mengubah pengaturan dan pemanfaatan jaringan selama lebih dari 15 tahun. Pengguna dapat memanfaatkan efisiensi sumber daya Hadoop, memungkinkan mereka memanfaatkan kekuatan komputasi mereka saat ini untuk tugas-tugas berat tanpa memerlukan peningkatan yang mahal. Rangkaian ini terdiri dari empat modul: HDFS, YARN, MapReduce, dan Hadoop Common, masing-masing dirancang untuk kasus penggunaan tertentu.

Kecemerlangan Hadoop terletak pada kecerdikannya, yang secara cerdik memberdayakan individu dan organisasi untuk menyatukan kemampuan komputasi yang ada menjadi kekuatan kohesif yang mampu mengatasi tantangan komputasi yang besar. Tanpa bimbingan Hadoop, entitas-entitas ini akan terpaksa melakukan upaya mahal untuk memperoleh mesin komputasi yang semakin kuat.

Kasus Penggunaan Hadoop

Sekarang kita tahu apa itu Hadoop. Namun bagaimana sebenarnya kasus penggunaannya dapat diterapkan di dunia nyata? Memahami sebuah program di atas kertas memang baik dan bagus, namun hal ini tidak akan pernah bisa menggantikan realisasi potensinya sebagai bagian dari operasi yang serius. Jadi disini saya akan memberikan beberapa contoh sebelum melanjutkan ke tutorial Hadoop.

Analisis Risiko

Seperti yang telah disebutkan, Hadoop memungkinkan Anda memanfaatkan kekuatan beberapa sistem komputer sebagai bagian dari satu unit jaringan untuk secara efisien menelusuri kumpulan data yang luas dan menganalisisnya lebih cepat dari biasanya. Dalam bisnis apa pun, ada risiko yang memerlukan analisis dan perhitungan. Hadoop sangat berguna di sini. Faktanya, banyak rumah sakit yang kredibel menggunakannya untuk menganalisis risiko berbagai perawatan dan memperkirakan potensi hasil dan statistik operasi mereka untuk pasiennya. Anda mempelajari lebih lanjut tentang peran revolusioner Hadoop dalam layanan kesehatan di sini.

Mendeteksi Pelanggaran Keamanan

Ketika jumlah keseluruhan jaringan dan perangkat yang digunakan meningkat dalam suatu jaringan atau bisnis, semakin banyak pula potensi pelanggaran keamanan yang harus diwaspadai. Salah satu utilitas penting Hadoop adalah menilai keseluruhan operasi dengan menganalisis sejumlah besar data dan menyoroti potensi titik kesulitan sistem tersebut.

Tinjau Pemetaan

Banyak bisnis mengandalkan umpan balik ulasan yang mereka peroleh terhadap produk mereka untuk menyempurnakannya atau mengembangkan strategi pasar baru. Meskipun manusia membutuhkan waktu lama untuk mencakup file ulasan yang cukup besar, Hadoop akan mengerjakan keajaiban komputer jaringannya untuk memberikan hasil yang jauh lebih cepat.

Analisis Pasar

Berbicara tentang strategi pasar, pemetaan tinjauan di atas tidak ada artinya jika dibandingkan dengan jumlah sumber daya yang dibutuhkan untuk menganalisis pasar guna menilai potensi masuknya produk baru. Ini adalah kasus penggunaan lain di mana Hadoop bersinar karena memungkinkan bisnis kecil sekalipun untuk mengevaluasi pasar secara efisien dengan beberapa komputer dalam jangka waktu dan cara yang efisien.

Menilai File Log

Aspek lain dari bisnis yang menjadi lebih rumit seiring berjalannya waktu dan menjadi lebih signifikan adalah jumlah perangkat lunak yang akan mulai mereka gunakan secara menyeluruh. Menggunakan lebih banyak perangkat lunak menyebabkan lebih banyak potensi bug dan masalah serta membutuhkan karyawan yang berdedikasi untuk mengelola file log dan menangani masalah tersebut. Ini akan memakan banyak waktu, namun dengan menggunakan beberapa protokol yang mudah, sebuah bisnis dapat menggunakan Hadoop untuk meninjau dan menilai file log dengan cepat guna menemukan bug ini dan menghilangkannya.

Ada banyak sekali kasus penggunaan dan aplikasi Hadoop lainnya, namun untuk tetap fokus pada tujuan artikel, kami tidak akan membahas lebih jauh.

Ikhtisar Arsitektur Hadoop

Katakanlah Anda pernah mendengar tentang Hadoop dan keseluruhan kasus penggunaannya serta fungsinya. Dan meskipun Anda belum melakukannya, artikel ini mungkin telah membantu Anda sejauh ini. Namun sekarang Anda perlu mendapatkan pemahaman mendalam tentang apa sebenarnya Hadoop itu terbuat dan bagaimana setiap bagiannya bekerja dengan fitur lainnya. Seperti disebutkan sebelumnya, ada empat lapisan umum Hadoop; di bagian tutorial Hadoop ini kita akan mempelajari lebih lanjut tentang HDFS (Hadoop Distributed File System), YARN (Yet Another Resource Negotiator), MapReduce, dan Hadoop Common. Namun, karena Hadoop Common tidak memiliki banyak fitur yang perlu dijelaskan, inti dari fitur tersebut dikenal sebagai Penjaga kebun binatang. Jadi di bagian ini, saya akan mencoba merangkum arsitektur dan ekosistem Hadoop tingkat lanjut serta empat bagiannya secara mendasar, sebelum akhirnya beralih ke cara menginstal Hadoop di Ubuntu 20.04.

HDFS

HDFS di ekosistem Hadoop, merupakan keseluruhan sistem penyimpanan yang digunakan oleh semua subbagian dan aplikasi Hadoop untuk menilai, mentransfer, dan menyimpan data. Poin utama dalam Arsitektur HDFS adalah bahwa tidak seperti Hadoop itu sendiri, sebuah program sumber terbuka, HDFS di Hadoop sebenarnya adalah sistem file yang bertanggung jawab untuk menjalankan semua operasi mendasar dari satu cluster Hadoop. HDFS adalah sistem file yang sangat tangguh yang membagi kumpulan data menjadi 128 MB, dan mengoptimalkannya untuk operasi berbasis urutan.

Peran utama HDFS dalam perangkat lunak Hadoop adalah menyediakan semua data sebagai bagian dari keseluruhan rak data, yang kemudian dapat dimanipulasi melalui node nama dan rak sekunder yang berbeda ke dalam subbagian untuk mengatur operasi analisis data Anda. Anda kemudian dapat menggunakan opsi lain seperti rak Jurnal, QJM, HA, fsimage dan mengedit file log serta log legenda keseluruhan untuk melacak dan melakukan tugas lainnya.

BENANG

YARN adalah cabang eksekutif Hadoop lainnya yang digunakan untuk menetapkan jumlah aset komputasi yang diinginkan ke aplikasi tertentu dalam ekosistem Hadoop. Intinya, ini memungkinkan Anda menggunakan manajer sumber daya untuk klien Anda untuk mengalokasikan sumber daya ini melalui sekumpulan node berbeda untuk tugas dan aplikasi berbeda. Ada juga legenda di YARN, yang mirip dengan yang ada di HDFS, memungkinkan Anda melacak semua aset dan operasi yang dialokasikan. YARN sendiri dibagi menjadi tiga subbagian: Resource Manager, Application Master, dan Node Manager.

Masing-masing dari ketiga subbagian ini masing-masing membuat instance baru per cluster, aplikasi, dan node. Anda tidak hanya dapat mengalokasikan sumber daya ke berbagai tugas menggunakan YARN tetapi Anda juga dapat menjadwalkan sumber daya ini agar berubah seiring waktu untuk menghasilkan alur kerja algoritmik tingkat lanjut. YARN tidak terbatas pada subbagian saja, Akan ada banyak contoh di mana Anda akan menggunakan YARN bersama dengan lapisan arsitektur lainnya seperti HDFS dan Zookeeper untuk mengalokasikan sumber daya dan mengevaluasi operasi Anda secara keseluruhan.

Pengurangan Peta Hadoop

Hadoop MapReduce adalah komponen utama lainnya dalam ekosistem Hadoop. Setelah Anda menginstal Hadoop di Ubuntu, Anda dapat menggunakan fitur ini untuk secara efektif menganalisis sejumlah besar data secara terdistribusi oleh beberapa komputer berbeda. Intinya, Hadoop MapReduce bekerja seperti ini: Anda memasukkan peta data berukuran besar ke dalam program. Peta data ini akan diacak, dipecah, dan didistribusikan ke seluruh jaringan komputer Anda. Selanjutnya, dengan menggunakan protokol tertentu yang dikenal sebagai reduksi, data diringkas menjadi komponen yang paling penting dan direduksi. Masing-masing operasi ini dikenal sebagai Pekerjaan.

Katakanlah Anda memiliki kalimat tiga kata yang berfungsi sebagai peta data yang ingin Anda analisis dengan MapReduce. Katakanlah kalimatnya adalah Beruang Berburu Kelinci. Hadoop MapReduce akan memecah dan mengurangi kalimat ini menjadi tiga kumpulan berbeda yang masing-masing berisi satu kata, lalu menggunakan kata-kata ini dan membuat kombinasi baru dengan masukan data serupa dari pekerjaan Anda yang lain untuk membuat kumpulan data akhir yang dihomogenisasi dengan menghapus data yang tidak perlu dan dapat dengan mudah dianalisis.

Penjaga kebun binatang

Zookeeper adalah subbagian lain dari ekosistem Hadoop yang awalnya menjadi terkenal dan umum digunakan dengan dirilisnya Hadoop versi 2.0. Layanan utama Zookeeper adalah mengoordinasikan berbagai operasi yang Anda jalankan sebagai bagian dari satu instance Hadoop. Oleh karena itu, Zookeeper hampir selalu digunakan bersama dengan Resource Manager YARN dan berbagai fitur HDFS di Hadoop. Kegunaan utama Penjaga Kebun Binatang dalam operasi ini adalah untuk mendeteksi dan memperbaiki potensi kegagalan. Untuk melakukan hal ini, ia menggunakan dua alat berbeda: ZKFiloverControer, dan Zookeeper Quorum.

Dalam prosedur ini, node data yang dikelola oleh komponen lain dari arsitektur Hadoop dikategorikan sebagai node nama aktif, diawasi oleh pengguna. Selanjutnya, masing-masing node nama ini diperiksa dengan cermat dalam dua subbagian Penjaga Kebun Binatang yang disebutkan di atas. Hal ini dilakukan untuk menunjukkan dengan tepat area kesulitan dan mengidentifikasi potensi kegagalan.

Instal Hadoop di Ubuntu 20.04 – Panduan Langkah demi Langkah

Dan terakhir, setelah mempelajari arsitektur Hadoop, sekarang saatnya beralih ke inti permasalahan yaitu cara menginstal Hadoop di Ubuntu 20.04 sebagai bagian terakhir dari tutorial Hadoop ini. Mari kita bahas prasyaratnya sebelum melanjutkan ke panduan langkah demi langkah untuk menginstal Hadoop di Ubuntu 20.04. Perlu diingat bahwa panduan ini juga dapat digunakan untuk Ubuntu 18.04.

Prasyarat

Prasyarat yang diperlukan untuk menginstal Hadoop di Ubuntu cukup sederhana. Yang Anda perlukan hanyalah komputer yang didukung Ubuntu dengan akses root, baik yang tersedia secara lokal atau dapat diakses dari jarak jauh melalui server VPS. Mengenai program prasyarat, pastikan Anda sudah menginstal Java 11 dan SSH. Jika Anda tidak memilikinya, jalankan perintah berikut satu per satu untuk menginstalnya:

sudo apt update && sudo apt upgrade -y
sudo apt install openssh-server openssh-client -y
sudo apt install openjdk-11-jdk -y

Sedangkan untuk lisensinya, Anda tidak memerlukannya, karena Hadoop gratis dan bersumber terbuka. Hanya itu yang Anda butuhkan. Mari kita lanjutkan ke langkah pertama.

Langkah 1: Buat Pengguna Non-Root Untuk Hadoop

Buat pengguna non-root untuk Hadoop Anda menggunakan perintah berikut. Ini adalah bagian dari pra-konfigurasi yang perlu kita lakukan sebelum benar-benar mengunduh dan menginstal Hadoop:

sudo adduser hdoop
su - hdoop

Langkah 2: Siapkan Kunci SSH

Sekarang untuk menginstal Hadoop di Ubuntu kami akan menggunakan pengguna Hadoop yang baru saja Anda buat dan menggunakannya untuk membuat koneksi SSH dengannya. Gunakan perintah ini untuk menghasilkan pasangan kunci SSH dan menyimpannya:

ssh-keygen -t rsa -P '' -f ~/.ssh/id_rsa

Setelah kunci dibuat, baris berikut ini akan memungkinkan Anda menandainya sebagai kunci_otorisasi dan simpan di direktori SSH Anda:

cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys

Sekarang gunakan perintah ini untuk memastikan bahwa koneksi SSH Anda memiliki semua izin yang diperlukan:

chmod 600 ~/.ssh/authorized_keys
chmod 700 ~/.ssh

Konfirmasikan perubahan dan Anda akan dapat dengan mudah terhubung ke localhost Anda setiap saat dengan pengguna yang Anda buat:

ssh localhost

Langkah 3: Unduh dan Instal Hadoop di Ubuntu

Anda dapat mengunjungi Situs web Apache Hadoop untuk melihat daftar versi dengan log perubahan terkininya. Pilih versi yang Anda sukai dan Anda akan disajikan tautan yang dapat digunakan dengan perintah berikut untuk mengunduh dan menginstal Hadoop di Ubuntu. Di sini saya memilih versi 3.3.6. Ganti '3.3.6' dengan versi stabil terbaru jika perlu:

wget https://downloads.apache.org/hadoop/common/hadoop-3.3.6/hadoop-3.3.6.tar.gz

Setelah pengunduhan selesai, gunakan baris ini untuk menyelesaikan proses ekstraksi dan instalasi:

tar xzf hadoop-3.3.6.tar.gz
sudo mv hadoop-3.3.6 /usr/local/hadoop
sudo chown -R hdoop:hdoop /usr/local/hadoop

Langkah 4: Konfigurasikan Lingkungan Hadoop

Mengatur JAVA_HOME in /usr/local/hadoop/etc/hadoop/hadoop-env.sh:

echo 'export JAVA_HOME=$(readlink -f /usr/bin/java | sed "s:bin/java::")' | sudo tee -a /usr/local/hadoop/etc/hadoop/hadoop-env.sh

Langkah 5: Edit File Konfigurasi

Perbarui file konfigurasi XML Hadoop dengan pengaturan cluster Anda.

nano /usr/local/hadoop/etc/hadoop/core-site.xml

Langkah 6: Format HDFS

Inisialisasi namespace sistem file Hadoop.

/usr/local/hadoop/bin/hdfs namenode -format

Langkah 7: Mulai Layanan Hadoop

Luncurkan layanan HDFS dan YARN.

/usr/local/hadoop/sbin/start-dfs.sh
/usr/local/hadoop/sbin/start-yarn.sh

Langkah 8: Verifikasi Instalasi

Periksa proses Java yang berjalan untuk mengonfirmasi bahwa Hadoop sedang berjalan.

jps

Langkah 9: Akses Antarmuka Web

Buka browser web ke antarmuka NameNode dan ResourceManager Hadoop.

NamaNode: http://localhost:9870
Manajer Sumber Daya: http://localhost:8088

Langkah 10: Jalankan Contoh MapReduce

Jalankan contoh pekerjaan MapReduce untuk memvalidasi pengaturan.

/usr/local/hadoop/bin/hdfs dfs -mkdir /input
/usr/local/hadoop/bin/hdfs dfs -put localfile.txt /input
/usr/local/hadoop/bin/hadoop jar
/usr/local/hadoop/share/hadoop/mapreduce/hadoop-mapreduce-examples-3.3.6.jar grep /input /output 'dfs[a-z.]+'
/usr/local/hadoop/bin/hdfs dfs -cat /output/*

Langkah 11: Tetapkan Variabel Lingkungan

Tambahkan Hadoop tempat sampah Dan bodoh direktori ke sistem PATH.

echo 'export PATH=$PATH:/usr/local/hadoop/bin:/usr/local/hadoop/sbin' >> ~/.bashrc
source ~/.bashrc

Dan itu saja! Anda baru saja berhasil mengkonfigurasi dan menginstal Apache Hadoop di Ubuntu 20.04!

Kesimpulan

Singkatnya, instalasi Hadoop di Ubuntu 20.04 adalah proses menyeluruh yang memerlukan perhatian cermat dan kesiapan untuk mengeksplorasi nuansa pengaturan. Dengan mengikuti langkah-langkah yang diberikan dalam panduan ini, pengguna Ubuntu dapat memulai perjalanan transformatif, memanfaatkan kemampuan substansial Hadoop untuk sepenuhnya menyadari potensi pencarian analisis data mereka.

Rekomendasi saya adalah menerapkan Hadoop sebagai penerapan node tunggal menggunakan distribusi terbatas jika Anda hanya ingin mempelajari dan bermain dengannya. Untuk tujuan ini, VPS akan bekerja sempurna untuk Anda. Cloudzy menawarkan Anda sejumlah hal berbeda Layanan VPS Linux termasuk Ironclad, dapat diandalkan VPS Ubuntu yang dapat dikonfigurasi dalam waktu singkat untuk menjadi taman bermain Hadoop yang sempurna untuk Anda. Mulai dari $4,95 per bulan, Anda bisa mendapatkan VPS Ubuntu Anda sendiri dengan lebih dari 12 lokasi dan dukungan kepedulian 24/7!

ubuntu-vps Pilihan yang Jelas

Mayoritas server yang dijalankan Linux menggunakan Ubuntu; kenapa bukan kamu? Temukan mengapa semua orang menyukai Ubuntu — dapatkan VPS Ubuntu yang dioptimalkan

Dapatkan VPS Ubuntu Anda

Pertanyaan Umum

Apa perbedaan HDFS vs. MapReduce?

Meskipun kedua modul berada di ekosistem Hadoop, keduanya memiliki tujuan yang berbeda. HDFS berfungsi sebagai sistem file terdistribusi, memfasilitasi aksesibilitas data. Di sisi lain, MapReduce unggul dalam memecah dan menganalisis potongan data besar secara efisien.

Apakah Hadoop dianggap sebagai database?

Hadoop bukanlah database, meskipun kesalahpahaman ini umum terjadi. Sebaliknya, ia beroperasi sebagai sistem file terdistribusi yang memungkinkan penyimpanan dan pemrosesan data dalam jumlah besar menggunakan jaringan komputer yang saling berhubungan. Ini tidak boleh digunakan sebagai pengganti langsung sistem database tradisional.

Apa empat komponen utama Hadoop?

Hadoop terdiri dari empat komponen inti: HDFS (Hadoop Distributed File System), YARN (Yet Another Resource Negotiator), MapReduce, dan Hadoop Common. Selain itu, beberapa sumber menganggap ZooKeeper sebagai sebuah komponen, meskipun tidak diakui secara resmi.

Di mana Hadoop biasanya digunakan?

Hadoop menemukan aplikasi di berbagai domain yang memerlukan pengelolaan, penyimpanan, pemrosesan, dan analisis data skala besar. Perusahaan ini melayani operasional mulai dari bisnis skala menengah dan rumah sakit hingga perusahaan rintisan yang sedang berkembang, menyediakan solusi berbasis data.

Membagikan

Selengkapnya dari blog

Teruslah membaca.

Simbol asli MongoDB disajikan di server futuristik untuk menginstal MongoDB di tagline Ubuntu+ tentang apa yang diharapkan dari artikel + judul artikel + logo merek Cloudzy
Basis Data & Analisis

Cara Install MongoDB di Tiga Versi Terbaru Ubuntu (Langkah demi Langkah)

Jadi Anda telah memutuskan untuk menggunakan MongoDB, alternatif yang bagus untuk MariaDB untuk membangun aplikasi tumpukan MERN, platform analitik, atau sistem berbasis dokumen apa pun, tetapi telah menemui jalan buntu.

Jim SchwarzJim Schwarz 12 menit membaca
Manajemen Data Cerdas untuk Bisnis Anda: Strategi Penyimpanan dan Pencadangan “Seperti Cloud” dengan VPS
Basis Data & Analisis

Manajemen Data Cerdas untuk Bisnis Anda: Strategi Penyimpanan dan Pencadangan “Seperti Cloud” dengan VPS

VPS untuk manajemen data bisnis yang aman adalah strategi yang saya rekomendasikan setiap kali perusahaan memutuskan sudah waktunya untuk berhenti memindahkan file ke laptop, lampiran email, dan setengah lupa

Rexa CyrusRexa Cyrus 7 menit membaca
Pandangan Terwujud vs. Pandangan
Basis Data & Analisis

Tampilan Terwujud vs. Tampilan: Memahami Perannya dalam Basis Data

Dalam sistem basis data, tampilan terwujud sebagai objek basis data menyimpan hasil kueri yang telah dihitung sebelumnya sebagai tabel fisik. Karena data sebenarnya disimpan di disk, jadi rumit

Ivy JohnsonIvy Johnson 7 menit membaca

Siap untuk diterapkan? Mulai dari $2,48/bln.

Cloud independen, sejak 2008. AMD EPYC, NVMe, 40 Gbps. Uang kembali 14 hari.