Günümüzde, bilgisayarlarla ilgili bir iş veya herhangi bir operasyon, birden fazla bilgisayarın yönetilmesini gerektirecek kadar büyüdüğünde, iş yükünü daha verimli bir şekilde ele almak için hemen birden fazla bilgisayarı tek bir ağın parçası olarak kullanmaya başlıyoruz. Bu, günümüzde veri bilimi gibi alanlardaki neredeyse tüm işlemlerin bu ağ bağlantılı bilgisayarlar tarafından gerçekleştirildiği ölçüde sıradan hale geldi. Zorlu bilgisayar görevlerini gerçekleştirmek şüphesiz bu şekilde daha verimli olsa da, aynı zamanda inanılmaz derecede karmaşıktır; çünkü her bilgisayarı ayrı ayrı yapılandırmanız ve ardından görevleriniz yerine getirilirken tüm ağı yönetmeniz gerekir. Hadoop gibi programların günü kurtarmak için devreye girdiği yer burasıdır.
- Apache Hadoop Nedir?
- Hadoop Kullanım Durumları
- Hadoop Mimarisine Genel Bakış
- Hadoop'u Ubuntu 20.04'e yükleyin - Adım Adım Kılavuz
- Önkoşullar
- Adım 1: Hadoop için Root Dışı Kullanıcı Oluşturun
- Adım 2: SSH Anahtarlarını Ayarlayın
- Adım 3: Hadoop'u Ubuntu'ya indirin ve yükleyin
- 4. Adım: Hadoop Ortamını Yapılandırın
- Adım 5: Yapılandırma Dosyalarını Düzenleyin
- Adım 6: HDFS'yi biçimlendirin
- Adım 7: Hadoop Hizmetlerini başlatın
- Adım 8: Kurulumu Doğrulayın
- Adım 9: Web Arayüzlerine Erişim
- Adım 10: Bir MapReduce Örneği Çalıştırın
- Adım 11: Ortam Değişkenlerini Ayarlayın
- Çözüm
- SSS
Hadoop, Apache tarafından piyasaya sürülen ve bir grup bilgisayarın ağ oluşturma sürecinin tamamının çok daha verimli ve kolay bir şekilde gerçekleştirilmesine olanak tanıyan bir araç ve program paketidir. Bu makalede Hadoop'u inceleyeceğim, kullanım örneklerini inceleyeceğim, artılarını ve eksilerini gözden geçireceğim ve bu 2024 Hadoop eğitimini tamamlamak için Hadoop'un Ubuntu 20.04'e nasıl kurulacağına ilişkin adım adım kılavuza geçmeden önce gelişmiş mimarisine genel bir bakış sunacağım.
Apache Hadoop Nedir?
Apache tarafından desteklenen bir araç paketi olan Hadoop, 15 yılı aşkın süredir ağ kurulumunu ve kullanımını dönüştürüyor. Kullanıcılar Hadoop'un kaynak verimliliğinden yararlanabilir ve pahalı yükseltmelere ihtiyaç duymadan zorlu görevler için mevcut bilgi işlem güçlerinden yararlanabilirler. Paket, her biri özel kullanım durumları için tasarlanmış dört modülden oluşur: HDFS, YARN, MapReduce ve Hadoop Common.
Hadoop'un dehası, hem bireyleri hem de kuruluşları, mevcut hesaplama yeteneklerini önemli hesaplama zorluklarının üstesinden gelebilecek uyumlu bir güçte birleştirme konusunda akıllıca güçlendiren doğal beceriksizliğinde yatmaktadır. Hadoop'un rehberliği olmasaydı, bu kuruluşlar kendilerini giderek daha güçlü bilgi işlem makineleri edinmenin maliyetli arayışına girmek zorunda kalacaklardı.
Hadoop Kullanım Durumları
Artık Hadoop'un ne olduğunu biliyoruz. Peki kullanım durumları gerçek dünyada tam olarak nasıl uygulanıyor? Bir programı kağıt üzerinde anlamak iyi ve güzeldir, ancak bu hiçbir zaman ciddi bir operasyonun parçası olarak potansiyelinin farkına varılmasının yerini alamaz. Hadoop eğitimine geçmeden önce burada bazı örnekler vereceğim.
Risk Analizi
Daha önce de belirtildiği gibi Hadoop, kapsamlı veri yığınlarının üzerinden verimli bir şekilde geçmek ve bunları normalden daha hızlı analiz etmek için tek bir ağ biriminin parçası olarak çeşitli bilgisayar sistemlerinin gücünden yararlanmanıza olanak tanır. Her işte analiz ve hesaplama gerektiren riskler vardır. Hadoop burada son derece kullanışlıdır. Öyle ki, birçok güvenilir hastane bunu farklı tedavilerin risklerini analiz etmek ve hastaları için operasyonlarının potansiyel sonuçlarını ve istatistiklerini tahmin etmek için kullanıyor. Hadoop'un sağlık hizmetlerindeki devrim niteliğindeki rolü hakkında daha fazla bilgiyi buradan edinebilirsiniz.
Güvenlik İhlallerini Tespit Etme
Bir ağ veya işletmede ağ oluşturma ve kullanılan cihazların genel miktarı arttıkça, dikkat edilmesi gereken potansiyel güvenlik ihlalleri de giderek artıyor. Hadoop'un temel faydalarından biri, büyük veri yığınlarını analiz ederek ve sistemin potansiyel sorunlu noktalarını vurgulayarak bir operasyonun tamamını değerlendirmektir.
Haritalamayı İncele
Birçok işletme, ürünlerini geliştirmek veya yeni pazar stratejileri geliştirmek için, ürünleriyle ilgili aldıkları inceleme geri bildirimlerine güvenir. Bir insanın yeterince büyük bir inceleme dosyasını incelemesi yıllar alacak olsa da Hadoop, çok daha hızlı sonuçlar elde etmek için ağ bağlantılı bilgisayar büyüsünü kullanacak.
Pazar Analizi
Pazar stratejilerinden bahsetmişken, yukarıda bahsedilen inceleme haritalaması, piyasaya giren yepyeni bir ürünün potansiyelini değerlendirmek amacıyla pazarı analiz etmek için gereken kaynak sayısıyla karşılaştırıldığında sönük kalıyor. Bu, Hadoop'un parladığı ve gelecek vaat eden küçük işletmelerin bile birkaç bilgisayarla pazarı verimli bir zaman dilimi ve şekilde verimli bir şekilde değerlendirmesine olanak tanıdığı bir başka kullanım durumudur.
Günlük Dosyalarını Değerlendirme
İşletmelerin zaman geçtikçe daha karmaşık hale gelen ve daha da önem kazanan bir diğer yönü de, genel olarak kullanmaya başlayacakları yazılım miktarıdır. Giderek daha fazla yazılım kullanmak, daha fazla potansiyel hataya ve sorun noktasına neden olur ve günlük dosyalarını yönetmek ve sorunları ele almak için özel bir çalışana ihtiyaç duyar. Bu çok zaman alacaktır, ancak birkaç kolay protokol kullanarak bir işletme, bu hataları bulmak ve onlardan kurtulmak için günlük dosyalarını hızlı bir şekilde incelemek ve değerlendirmek için Hadoop'u kullanabilir.
Bir sürü başka Hadoop kullanım durumu ve uygulaması var, ancak makalenin amacına odaklanmayı sürdürmek için daha fazla tartışmayacağız.
Hadoop Mimarisine Genel Bakış
Hadoop'u, genel kullanım örneklerini ve neler yaptığını duyduğunuzu varsayalım. Yapmamış olsanız bile, bu makale muhtemelen şu ana kadar bunu sizin için yapmıştır. Ancak şimdi Hadoop'un gerçekte neyden oluştuğunu ve her bir parçasının diğer özellikleriyle birlikte nasıl çalıştığını derinlemesine anlamanız gerekiyor. Daha önce de belirtildiği gibi Hadoop'un dört genel katmanı vardır; Hadoop eğitiminin bu bölümünde HDFS (Hadoop Dağıtılmış Dosya Sistemi), YARN (Yet Another Resource Negotiator), MapReduce ve Hadoop Common hakkında daha fazla bilgi edineceğiz. Ancak Hadoop Common, açıklanması gereken pek çok özelliğe sahip olmadığından temelleri Hadoop olarak bilinmektedir. Hayvanat Bahçesi bekçisi. Dolayısıyla bu bölümde, Hadoop'un Ubuntu 20.04'e nasıl kurulacağına geçmeden önce, gelişmiş Hadoop mimarisini, ekosistemini ve onun dört bölümünü temel terimlerle özetlemeye çalışacağım.
HDFS
Hadoop ekosistemindeki HDFS, tüm Hadoop alt bölümlerinin ve uygulamalarının verileri değerlendirmek, aktarmak ve kaydetmek için kullandığı genel depolama sistemini oluşturur. HDFS Mimarisindeki temel nokta, açık kaynaklı bir program olan Hadoop'un aksine, Hadoop'taki HDFS'nin aslında tek bir Hadoop kümesinin tüm temel işlemlerini yürütmekten sorumlu dosya sistemi olmasıdır. HDFS, veri gruplarını 128 MB'lık aralıklara bölen ve bunları dizi bazlı işlemler için optimize eden inanılmaz derecede dayanıklı bir dosya sistemidir.
Hadoop yazılımında HDFS'nin birincil rolü, tüm verileri genel bir veri rafının parçası olarak sağlamaktır; bu daha sonra veri analizi operasyonunuzu düzenlemek için farklı ad düğümleri ve ikincil raflar aracılığıyla alt bölümler halinde değiştirilebilir. Daha sonra diğer görevleri takip etmek ve gerçekleştirmek için Günlük rafları, QJM, HA, fsimage ve günlük dosyalarını ve genel açıklama günlüğünü düzenleme gibi diğer seçenekleri kullanabilirsiniz.
İPLİK
YARN, Hadoop ekosistemindeki belirli uygulamalara istenen miktarda bilgi işlem varlığını atamak için kullanılan Hadoop'un başka bir yürütme koludur. Temelde, müşterilerinizin bu kaynakları bir dizi farklı düğüm aracılığıyla farklı görevlere ve uygulamalara tahsis etmeleri için bir kaynak yöneticisi kullanmanıza olanak tanır. YARN'da da HDFS'dekine benzer bir efsane vardır; tahsis edilen tüm varlıklarınızı ve operasyonlarınızı takip etmenizi sağlar. YARN'ın kendisi üç alt bölüme ayrılmıştır: Kaynak Yöneticisi, Uygulama Yöneticisi ve Düğüm Yöneticisi.
Bu üç alt bölümün her biri sırasıyla küme, uygulama ve düğüm başına kendilerinin yeni bir örneğini oluşturur. YARN'ı kullanarak kaynakları yalnızca farklı görevlere tahsis etmekle kalmaz, aynı zamanda gelişmiş algoritmik iş akışları oluşturmak için bu kaynakların zaman içinde değişmesini de planlayabilirsiniz. YARN alt bölümüyle sınırlı değildir. Kaynakları tahsis etmek ve genel operasyonunuzu değerlendirmek için YARN'ı HDFS ve Zookeeper gibi diğer mimari katmanlarla birlikte kullanacağınız birçok örnek olacaktır.
Hadoop Mapreduce
Hadoop MapReduce, Hadoop ekosistemindeki bir diğer önemli bileşendir. Hadoop'u Ubuntu'ya yükledikten sonra, büyük miktarda verinin birkaç farklı bilgisayar tarafından dağıtılmış bir şekilde analiz edilmesini etkili bir şekilde elde etmek için bu özelliği kullanabilirsiniz. Hadoop MapReduce özünde şu şekilde çalışır: programa büyük bir veri haritası girersiniz. Bu veri haritası karıştırılacak, parçalanacak ve ağ bağlantılı bilgisayarlarınıza dağıtılacak. Daha sonra, indirgeyici olarak bilinen belirli protokoller kullanılarak veriler en önemli bileşenlerine indirgenir ve azaltılır. Bu işlemlerin her biri İş olarak bilinir.
Diyelim ki MapReduce ile analiz etmek istediğiniz veri haritası görevi gören üç kelimelik bir cümleniz var. Cümlenin Ayı Avı Tavşanı olduğunu varsayalım. Hadoop MapReduce, bu cümleyi her biri bir kelime içeren üç farklı gruba ayıracak ve azaltacaktır, daha sonra bu kelimeleri kullanacak ve diğer işlerinizin benzer veri girişleriyle yeni kombinasyonlar oluşturarak gereksiz verilerin kaldırıldığı ve kolayca analiz edilebilecek son bir homojenleştirilmiş veri grubu oluşturacaktır.
Hayvanat Bahçesi bekçisi
Zookeeper, Hadoop ekosisteminin bir başka alt bölümüdür ve ilk olarak Hadoop sürüm 2.0'ın piyasaya sürülmesiyle ön plana çıkmış ve yaygın olarak kullanılmaya başlanmıştır. Zookeeper'ın ana hizmet noktası, tek bir Hadoop örneğinin parçası olarak yürüttüğünüz farklı işlemler arasında koordinasyon sağlamaktır. Bu nedenle Zookeeper neredeyse her zaman YARN'ın Kaynak Yöneticisi ve Hadoop'taki HDFS'nin farklı özellikleriyle birlikte kullanılır. Zookeeper'ın bu operasyonlardaki birincil kullanımı, potansiyel arıza noktalarını tespit etmek ve düzeltmektir. Bunu yapmak için iki farklı araç kullanır: ZKFiloverControer ve Zookeeper Quorum.
Bu prosedürlerde, Hadoop mimarisinin diğer bileşenleri tarafından yönetilen veri düğümleri, kullanıcı tarafından denetlenen aktif ad düğümleri olarak kategorize edilir. Daha sonra, bu ad düğümlerinin her biri, Zookeeper'ın yukarıda belirtilen iki alt bölümü kapsamında incelemeye tabi tutulur. Bu, zorlu alanları tespit etmek ve potansiyel arızaları belirlemek için yapılır.
Hadoop'u Ubuntu 20.04'e yükleyin - Adım Adım Kılavuz
Ve son olarak, Hadoop mimarisini öğrendikten sonra, bu Hadoop eğitiminin son kısmı olarak Hadoop'un Ubuntu 20.04'e nasıl kurulacağı konusuna gelmenin zamanı geldi. Hadoop'u Ubuntu 20.04'e kurmak için adım adım kılavuza geçmeden önce önkoşulları ele alalım. Bu kılavuzun Ubuntu 18.04 için de kullanılabileceğini unutmayın.
Önkoşullar
Hadoop'u Ubuntu'ya kurmak için gereken önkoşullar oldukça basittir. İhtiyacınız olan tek şey, yerel olarak kullanılabilen veya bir VPS sunucusu aracılığıyla uzaktan erişilebilen, root erişimine sahip, Ubuntu destekli bir bilgisayardır. Önkoşul programlarıyla ilgili olarak, Java 11 ve SSH'nin zaten kurulu olduğundan emin olun. Bunlara sahip değilseniz, yüklemek için aşağıdaki komutları birer birer çalıştırın:
sudo apt update && sudo apt upgrade -y
sudo apt install openssh-server openssh-client -y
sudo apt install openjdk-11-jdk -y
Lisansa gelince, Hadoop ücretsiz ve açık kaynak olduğundan herhangi bir lisansa ihtiyacınız olmayacak. İhtiyacınız olan tek şey bu. Birinci adıma geçelim.
Adım 1: Hadoop için Root Dışı Kullanıcı Oluşturun
Aşağıdaki komutu kullanarak Hadoop'unuz için root olmayan bir kullanıcı oluşturun. Bu, Hadoop'u gerçekten indirip kurmadan önce yapmamız gereken ön yapılandırmaların bir parçasıdır:
sudo adduser hdoop
su - hdoop
Adım 2: SSH Anahtarlarını Ayarlayın
Şimdi Hadoop'u Ubuntu'ya kurmak için yeni oluşturduğunuz Hadoop kullanıcısını kullanacağız ve onunla SSH bağlantısı kurmak için kullanacağız. Bir SSH anahtar çifti oluşturmak ve kaydetmek için bu komutu kullanın:
ssh-keygen -t rsa -P '' -f ~/.ssh/id_rsa
Anahtarlar oluşturulduktan sonra aşağıdaki satır onları şu şekilde işaretlemenizi sağlayacaktır: yetkili_anahtarlar ve bunları SSH dizininize kaydedin:
cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys
Şimdi SSH bağlantınızın gerekli tüm izinlere sahip olduğundan emin olmak için bu komutu kullanın:
chmod 600 ~/.ssh/authorized_keys
chmod 700 ~/.ssh
Değişiklikleri onayladığınızda, yaptığınız kullanıcıyla localhost'unuza her zaman kolayca bağlanabileceksiniz:
ssh localhost
Adım 3: Hadoop'u Ubuntu'ya indirin ve yükleyin
Ziyaret edebilirsiniz Apache Hadoop web sitesi Son değişiklik günlükleriyle birlikte sürümlerin listesini görmek için. Beğendiğiniz sürümü seçin ve Hadoop'u Ubuntu'ya indirip yüklemek için aşağıdaki komutla kullanılabilecek bir bağlantı sunulacak. Burada 3.3.6 versiyonunu seçiyorum. Gerekirse '3.3.6'yı en son kararlı sürümle değiştirin:
wget https://downloads.apache.org/hadoop/common/hadoop-3.3.6/hadoop-3.3.6.tar.gz
İndirme işlemi bittiğinde çıkarma ve yükleme işlemini tamamlamak için bu satırı kullanın:
tar xzf hadoop-3.3.6.tar.gz
sudo mv hadoop-3.3.6 /usr/local/hadoop
sudo chown -R hdoop:hdoop /usr/local/hadoop
4. Adım: Hadoop Ortamını Yapılandırın
Ayarlamak JAVA_HOME in /usr/local/hadoop/etc/hadoop/hadoop-env.sh:
echo 'export JAVA_HOME=$(readlink -f /usr/bin/java | sed "s:bin/java::")' | sudo tee -a /usr/local/hadoop/etc/hadoop/hadoop-env.sh
Adım 5: Yapılandırma Dosyalarını Düzenleyin
Hadoop'un XML yapılandırma dosyalarını küme ayarlarınızla güncelleyin.
nano /usr/local/hadoop/etc/hadoop/core-site.xml
Adım 6: HDFS'yi biçimlendirin
Hadoop dosya sistemi ad alanını başlatın.
/usr/local/hadoop/bin/hdfs namenode -format
Adım 7: Hadoop Hizmetlerini başlatın
HDFS ve YARN hizmetlerini başlatın.
/usr/local/hadoop/sbin/start-dfs.sh
/usr/local/hadoop/sbin/start-yarn.sh
Adım 8: Kurulumu Doğrulayın
Hadoop'un çalıştığını doğrulamak için çalışan Java işlemlerini kontrol edin.
jps
Adım 9: Web Arayüzlerine Erişim
Web tarayıcılarını Hadoop'un NameNode ve ResourceManager arayüzlerine açın.
AdNode: http://localhost:9870
Kaynak Yöneticisi: http://localhost:8088
Adım 10: Bir MapReduce Örneği Çalıştırın
Kurulumu doğrulamak için örnek bir MapReduce işi yürütün.
/usr/local/hadoop/bin/hdfs dfs -mkdir /input
/usr/local/hadoop/bin/hdfs dfs -put localfile.txt /input
/usr/local/hadoop/bin/hadoop jar
/usr/local/hadoop/share/hadoop/mapreduce/hadoop-mapreduce-examples-3.3.6.jar grep /input /output 'dfs[a-z.]+'
/usr/local/hadoop/bin/hdfs dfs -cat /output/*
Adım 11: Ortam Değişkenlerini Ayarlayın
Hadoop'u ekleyin çöp kutusu Ve sbin PATH sistemine dizinler.
echo 'export PATH=$PATH:/usr/local/hadoop/bin:/usr/local/hadoop/sbin' >> ~/.bashrc
source ~/.bashrc
İşte bu kadar! Apache Hadoop'u Ubuntu 20.04'te başarıyla yapılandırıp kurmayı başardınız!
Çözüm
Özetle, Hadoop'un Ubuntu 20.04'e kurulumu, titiz bir dikkat ve kurulumun nüanslarını keşfetmeye hazır olmayı gerektiren kapsamlı bir süreçtir. Ubuntu kullanıcıları, bu kılavuzda sağlanan adımlara bağlı kalarak, Hadoop'un önemli yeteneklerinden yararlanarak veri analitiği arayışlarının potansiyelini tam olarak hayata geçirerek dönüştürücü bir yolculuğa çıkabilir.
Benim tavsiyem, Hadoop'u yalnızca öğrenmeyi ve onunla oynamayı düşünüyorsanız, sınırlı dağıtım kullanarak tek düğümlü bir dağıtım olarak dağıtmanızdır. Bu amaçla bir VPS sizin için mükemmel bir şekilde çalışacaktır. Cloudzy size bir dizi farklı seçenek sunuyor Linux VPS hizmetleri Ironclad dahil, güvenilir Ubuntu VPS'si Sizin için mükemmel bir Hadoop öğrenme oyun alanı haline gelmek üzere kısa sürede yapılandırılabilir. Aylık 4,95 dolardan başlayan fiyatlarla, 12'den fazla konum ve 7/24 bakım desteğiyle kendi Ubuntu VPS'nizi alabilirsiniz!
Açık Seçim
Linux tarafından çalıştırılan sunucuların çoğunluğu Ubuntu kullanıyor; neden sen değilsin? Herkesin Ubuntu'yu neden sevdiğini keşfedin — optimize edilmiş bir Ubuntu VPS edinin
Ubuntu VPS'nizi alınSSS
HDFS ile MapReduce arasındaki farklar nelerdir?
Her iki modül de Hadoop ekosisteminde yer alsa da farklı amaçlara hizmet eder. HDFS, dağıtılmış bir dosya sistemi olarak işlev görerek veri erişilebilirliğini kolaylaştırır. Öte yandan MapReduce, büyük veri parçalarını parçalama ve verimli bir şekilde analiz etme konusunda üstündür.
Hadoop bir veritabanı olarak mı değerlendiriliyor?
Bu yanılgı yaygın olmasına rağmen Hadoop bir veritabanı değildir. Daha ziyade, birbirine bağlı bilgisayarlardan oluşan bir ağ kullanarak büyük miktarda verinin depolanmasını ve işlenmesini sağlayan dağıtılmış bir dosya sistemi olarak çalışır. Geleneksel bir veritabanı sisteminin doğrudan yerine kullanılmamalıdır.
Hadoop'un dört temel bileşeni nedir?
Hadoop dört temel bileşenden oluşur: HDFS (Hadoop Dağıtılmış Dosya Sistemi), YARN (Yet Another Resource Negotiator), MapReduce ve Hadoop Common. Ek olarak, bazı kaynaklar ZooKeeper'ı bir bileşen olarak kabul etmektedir, ancak resmi olarak bu şekilde tanınmamaktadır.
Hadoop genellikle nerede kullanılır?
Hadoop, büyük ölçekli verileri yönetmenin, depolamanın, işlemenin ve analiz etmenin önemli olduğu çeşitli alanlarda uygulamalar bulur. Veri odaklı çözümler sunarak orta ölçekli işletmelerden hastanelere ve gelişen startuplara kadar çeşitli operasyonlara hitap etmektedir.