У наш час, як тільки бізнес або будь-яка операція, пов’язана з комп’ютерами, розростається до такої міри, що вимагає роботи з більш ніж одним комп’ютером, ми негайно починаємо використовувати кілька комп’ютерів як частину однієї мережі, щоб ефективніше справлятися з робочим навантаженням. Це стало звичним явищем настільки, що сьогодні майже всі операції в таких галузях, як наука про дані, виконуються цими мережевими комп’ютерами. Хоча, безсумнівно, виконання складних комп’ютерних завдань є більш ефективним у такий спосіб, це також неймовірно складно, оскільки вам потрібно окремо налаштувати кожен комп’ютер, а потім керувати всією мережею під час виконання ваших завдань. Ось де такі програми, як Hadoop, приходять, щоб врятувати ситуацію.
- Що таке Apache Hadoop?
- Випадки використання Hadoop
- Огляд архітектури Hadoop
- Встановіть Hadoop на Ubuntu 20.04 – Покроковий посібник
- передумови
- Крок 1: Створіть користувача без права root для Hadoop
- Крок 2: Налаштуйте ключі SSH
- Крок 3. Завантажте та встановіть Hadoop на Ubuntu
- Крок 4: Налаштуйте середовище Hadoop
- Крок 5: Відредагуйте файли конфігурації
- Крок 6: Відформатуйте HDFS
- Крок 7. Запустіть служби Hadoop
- Крок 8. Перевірте встановлення
- Крок 9: Доступ до веб-інтерфейсів
- Крок 10: Запустіть приклад MapReduce
- Крок 11: Встановіть змінні середовища
- Висновок
- FAQ
Hadoop — це набір інструментів і програм, випущений компанією Apache, який дозволяє виконувати весь процес об’єднання кількох комп’ютерів у мережу з набагато більшою ефективністю та легкістю. Тож у цій статті я розповім про Hadoop, проаналізую випадки його використання, розгляну його плюси та мінуси та дам огляд його розширеної архітектури, перш ніж перейти до покрокового посібника щодо встановлення Hadoop на Ubuntu 20.04, щоб завершити цей підручник Hadoop 2024.
Що таке Apache Hadoop?
Hadoop, набір інструментів на базі Apache, уже понад 15 років змінює налаштування та використання мережі. Користувачі можуть скористатися ресурсоефективністю Hadoop, дозволяючи їм використовувати свою поточну обчислювальну потужність для складних завдань без необхідності дорогого оновлення. Набір складається з чотирьох модулів: HDFS, YARN, MapReduce і Hadoop Common, кожен з яких розроблений для конкретних випадків використання.
Яскравість Hadoop полягає в його притаманній винахідливості, яка дозволяє окремим особам і організаціям об’єднати наявні обчислювальні можливості в єдину силу, здатну подолати значні обчислювальні виклики. Без керівництва Hadoop ці організації виявилися б змушеними розпочати дорогу гонитву за придбанням дедалі потужніших обчислювальних машин.
Випадки використання Hadoop
Тепер ми знаємо, що таке Hadoop. Але як саме його випадки використання застосовуються в реальному світі? Розуміння програми на папері — це добре, але воно ніколи не замінить усвідомлення її потенціалу як частини серйозної операції. Тому тут я наведу кілька прикладів, перш ніж перейти до підручника з Hadoop.
Аналіз ризиків
Як уже згадувалося, Hadoop дозволяє використовувати потужність кількох комп’ютерних систем як частину єдиної мережі, щоб ефективно переглядати пакети великих даних і аналізувати їх швидше, ніж зазвичай. У будь-якому бізнесі є ризики, які потребують аналізу та розрахунку. Hadoop тут надзвичайно зручний. Настільки, що багато надійних лікарень використовують його, щоб аналізувати ризики різних видів лікування та припускати потенційний результат і статистику своїх операцій для своїх пацієнтів. Ви дізнаєтесь більше про революційну роль Hadoop у сфері охорони здоров’я тут.
Виявлення порушень безпеки
Оскільки загальна кількість мережевих і використовуваних пристроїв зростає в мережі чи бізнесі, з’являється все більше потенційних порушень безпеки, про які слід пам’ятати. Однією з важливих утиліт Hadoop є оцінка цілісності операції шляхом аналізу великих пакетів даних і виділення потенційних проблемних точок цієї системи.
Огляд картографування
Багато компаній покладаються на відгуки про свої продукти, які вони отримують, щоб покращити їх або розробити нові ринкові стратегії. У той час як людині знадобиться багато років, щоб охопити достатньо великий файл огляду, Hadoop працюватиме зі своєю мережевою комп’ютерною магією, щоб отримати набагато швидші результати.
Аналіз ринку
Говорячи про ринкові стратегії, вищезгадане відображення огляду тьмяне порівняно з кількістю ресурсів, необхідних для аналізу ринку з метою оцінки потенціалу появи на ньому абсолютно нового продукту. Це ще один приклад використання Hadoop, який дає змогу навіть невеликим перспективним підприємствам ефективно оцінювати ринок за допомогою кількох комп’ютерів у ефективні часові рамки та способом.
Оцінка файлів журналу
Іншим аспектом бізнесу, який з часом стає все складнішим і він стає все більш значним, є кількість програмного забезпечення, яке вони почнуть використовувати повсюдно. Використання все більшої кількості програмного забезпечення спричиняє більше потенційних помилок і проблемних точок і потребує спеціального працівника для керування файлами журналів і вирішення проблем. Це займе багато часу, але за допомогою кількох простих протоколів компанія може використовувати Hadoop для швидкого перегляду та оцінки файлів журналів, щоб знайти ці помилки та позбутися їх.
Існує маса інших варіантів використання та програм Hadoop, але, щоб зберегти увагу на меті статті, ми не будемо обговорювати її далі.
Огляд архітектури Hadoop
Припустімо, ви чули про Hadoop, його загальні випадки використання та те, що він робить. І навіть якщо ви цього не зробили, ця стаття, ймовірно, зробила це за вас. Але тепер вам потрібно отримати глибоке розуміння того, з чого насправді складається Hadoop і як кожна його частина працює з іншими функціями. Як згадувалося раніше, існує чотири загальні рівні Hadoop; У цій частині підручника з Hadoop ми збираємося дізнатися більше про HDFS (розподілену файлову систему Hadoop), YARN (ще один механізм узгодження ресурсів), MapReduce і Hadoop Common. Однак, оскільки Hadoop Common не має так багато функцій, які потребують пояснення, його основні відомі як Доглядач зоопарку. Тож у цьому розділі я спробую коротко описати передову архітектуру та екосистему Hadoop та її чотири розділи в основних термінах, перш ніж нарешті перейти до того, як встановити Hadoop на Ubuntu 20.04.
HDFS
HDFS в екосистемі Hadoop являє собою загальну систему зберігання, яку використовують усі підрозділи та додатки Hadoop для оцінки, передачі та збереження даних. Головне в архітектурі HDFS полягає в тому, що на відміну від самої Hadoop, програми з відкритим вихідним кодом, HDFS у Hadoop насправді є файловою системою, відповідальною за виконання всіх базових операцій одного кластера Hadoop. HDFS — це неймовірно стійка файлова система, яка розділяє пакети даних на щілини по 128 МБ і оптимізує їх для операцій на основі послідовності.
Основна роль HDFS у програмному забезпеченні Hadoop полягає в наданні всіх даних як частини загальної стійки даних, якою потім можна маніпулювати через різні вузли namenode та вторинні стійки в підрозділи для організації операції аналізу даних. Потім ви можете використовувати інші параметри, як-от стелажі журналів, QJM, HA, fsimage і редагувати файли журналу та загальний журнал легенд, щоб відстежувати та виконувати інші завдання.
ПРЯЖА
YARN — це ще одна виконавча гілка Hadoop, яка використовується для призначення бажаної кількості обчислювальних ресурсів конкретним програмам в екосистемі Hadoop. По суті, це дозволяє використовувати менеджер ресурсів для ваших клієнтів, щоб розподіляти ці ресурси через набір різних вузлів для різних завдань і програм. У YARN також є легенда, схожа на легенду в HDFS, яка дозволяє відстежувати всі ваші виділені активи та операції. Сама YARN поділена на три підрозділи: менеджер ресурсів, майстер додатків і менеджер вузлів.
Кожен із цих трьох підрозділів створює новий екземпляр себе для кластера, програми та вузла відповідно. За допомогою YARN ви можете не тільки розподіляти ресурси для різних завдань, але й планувати зміну цих ресурсів з часом, щоб створювати розширені алгоритмічні робочі процеси. YARN не обмежується своїм підрозділом. Буде багато випадків, коли ви використовуватимете YARN у поєднанні з іншими архітектурними рівнями, такими як HDFS і Zookeeper, для розподілу ресурсів і оцінки загальної роботи.
Hadoop Mapreduce
Hadoop MapReduce є ще одним важливим компонентом екосистеми Hadoop. Установивши Hadoop на Ubuntu, ви можете використовувати цю функцію, щоб ефективно отримати величезний пакет даних, аналізованих у розподіленому порядку кількома різними комп’ютерами. По суті, Hadoop MapReduce працює так: ви вводите велику карту даних у програму. Ця карта даних буде перетасована, розбита та розподілена між вашими мережевими комп’ютерами. Згодом за допомогою спеціальних протоколів, відомих як редуктори, дані зводяться до найважливіших компонентів і скорочуються. Кожна з цих операцій відома як завдання.
Припустімо, у вас є речення з трьох слів, яке діє як карта даних, яку ви хочете проаналізувати за допомогою MapReduce. Скажімо, це речення: Bear Hunt Rabbit. Hadoop MapReduce розіб’є та зменшить це речення на три різні групи, кожна з яких містить одне слово, а потім використає ці слова та створить нові комбінації з аналогічними даними, що вводяться в інших роботах, щоб створити остаточний уніфікований пакет даних із видаленням непотрібних даних, який можна легко проаналізувати.
Доглядач зоопарку
Zookeeper — ще один підрозділ екосистеми Hadoop, який спочатку став популярним і широко використовуваним із випуском Hadoop версії 2.0. Основним завданням Zookeeper є координація між різними операціями, які ви виконуєте як частину одного екземпляра Hadoop. Таким чином, Zookeeper майже завжди використовується в поєднанні з YARN Resource Manager і різними функціями HDFS у Hadoop. Основне використання Zookeeper у цих операціях — виявлення й усунення потенційних точок збою. Для цього він використовує два різні інструменти: ZKFiloverControer і Zookeeper Quorum.
У цих процедурах вузли даних, якими керують інші компоненти архітектури Hadoop, класифікуються як активні namenode, контрольовані користувачем. Згодом кожен із цих наменодів проходить ретельну перевірку в двох вищезгаданих підрозділах Zookeeper. Це робиться для визначення проблемних областей і виявлення потенційних збоїв.
Встановіть Hadoop на Ubuntu 20.04 – Покроковий посібник
І, нарешті, після того, як ви дізналися про архітектуру Hadoop, настав час перейти до суті питання, а саме до встановлення Hadoop на Ubuntu 20.04 як останньої частини цього підручника з Hadoop. Давайте розглянемо передумови перед тим, як перейти до покрокового посібника зі встановлення Hadoop на Ubuntu 20.04. Майте на увазі, що цей посібник також можна використовувати для Ubuntu 18.04.
передумови
Передумови, необхідні для встановлення Hadoop на Ubuntu, досить прості. Усе, що вам потрібно, це комп’ютер на базі Ubuntu із доступом root, доступним локально або віддалено через сервер VPS. Щодо необхідних програм, переконайтеся, що у вас уже встановлено Java 11 і SSH. Якщо у вас їх немає, виконайте наведені нижче команди одну за раз, щоб установити їх:
sudo apt update && sudo apt upgrade -y
sudo apt install openssh-server openssh-client -y
sudo apt install openjdk-11-jdk -y
Що стосується ліцензії, вам не знадобиться, оскільки Hadoop є безкоштовним і має відкритий код. Це все, що вам потрібно. Переходимо до першого кроку.
Крок 1: Створіть користувача без права root для Hadoop
Створіть користувача не root для свого Hadoop за допомогою наступної команди. Це частина попередніх налаштувань, які нам потрібно виконати перед фактичним завантаженням і встановленням Hadoop:
sudo adduser hdoop
su - hdoop
Крок 2: Налаштуйте ключі SSH
Тепер, щоб установити Hadoop на Ubuntu, ми використаємо користувача Hadoop, якого ви щойно створили, і використаємо його для встановлення з ним з’єднання SSH. Використовуйте цю команду, щоб створити пару ключів SSH і зберегти її:
ssh-keygen -t rsa -P '' -f ~/.ssh/id_rsa
Після того, як ключі згенеровано, цей наступний рядок дозволить вам позначити їх як авторизовані_ключі і збережіть їх у каталозі SSH:
cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys
Тепер скористайтеся цією командою, щоб переконатися, що ваше з’єднання SSH має всі необхідні дозволи:
chmod 600 ~/.ssh/authorized_keys
chmod 700 ~/.ssh
Підтвердьте зміни, і ви зможете легко підключатися до свого локального хосту в будь-який час за допомогою користувача, якого ви створили:
ssh localhost
Крок 3. Завантажте та встановіть Hadoop на Ubuntu
Ви можете відвідати Веб-сайт Apache Hadoop щоб переглянути список версій із журналом останніх змін. Виберіть версію, яка вам подобається, і вам буде запропоновано посилання, яке можна використати за допомогою наступної команди, щоб завантажити та встановити Hadoop на Ubuntu. Ось я вибираю версію 3.3.6. Якщо необхідно, замініть «3.3.6» на останню стабільну версію:
wget https://downloads.apache.org/hadoop/common/hadoop-3.3.6/hadoop-3.3.6.tar.gz
Після завершення завантаження використовуйте цей рядок, щоб завершити процес вилучення та встановлення:
tar xzf hadoop-3.3.6.tar.gz
sudo mv hadoop-3.3.6 /usr/local/hadoop
sudo chown -R hdoop:hdoop /usr/local/hadoop
Крок 4: Налаштуйте середовище Hadoop
встановити JAVA_HOME in /usr/local/hadoop/etc/hadoop/hadoop-env.sh:
echo 'export JAVA_HOME=$(readlink -f /usr/bin/java | sed "s:bin/java::")' | sudo tee -a /usr/local/hadoop/etc/hadoop/hadoop-env.sh
Крок 5: Відредагуйте файли конфігурації
Оновіть файли конфігурації XML Hadoop за допомогою параметрів кластера.
nano /usr/local/hadoop/etc/hadoop/core-site.xml
Крок 6: Відформатуйте HDFS
Ініціалізація простору імен файлової системи Hadoop.
/usr/local/hadoop/bin/hdfs namenode -format
Крок 7. Запустіть служби Hadoop
Запустіть служби HDFS і YARN.
/usr/local/hadoop/sbin/start-dfs.sh
/usr/local/hadoop/sbin/start-yarn.sh
Крок 8. Перевірте встановлення
Перевірте запущені процеси Java, щоб переконатися, що Hadoop працює.
jps
Крок 9: Доступ до веб-інтерфейсів
Відкрийте веб-браузери для інтерфейсів Hadoop NameNode і ResourceManager.
NameNode: http://localhost:9870
ResourceManager: http://localhost:8088
Крок 10: Запустіть приклад MapReduce
Виконайте зразок завдання MapReduce, щоб перевірити налаштування.
/usr/local/hadoop/bin/hdfs dfs -mkdir /input
/usr/local/hadoop/bin/hdfs dfs -put localfile.txt /input
/usr/local/hadoop/bin/hadoop jar
/usr/local/hadoop/share/hadoop/mapreduce/hadoop-mapreduce-examples-3.3.6.jar grep /input /output 'dfs[a-z.]+'
/usr/local/hadoop/bin/hdfs dfs -cat /output/*
Крок 11: Встановіть змінні середовища
Додайте Hadoop bin і sbin каталогів до системи PATH.
echo 'export PATH=$PATH:/usr/local/hadoop/bin:/usr/local/hadoop/sbin' >> ~/.bashrc
source ~/.bashrc
І все! Вам щойно вдалося успішно налаштувати та встановити Apache Hadoop на Ubuntu 20.04!
Висновок
Таким чином, встановлення Hadoop на Ubuntu 20.04 — це ретельний процес, який вимагає прискіпливої уваги та готовності вивчити нюанси налаштування. Дотримуючись кроків, наведених у цьому посібнику, користувачі Ubuntu можуть розпочати трансформаційну подорож, використовуючи значні можливості Hadoop, щоб повністю реалізувати потенціал своїх пошуків аналітики даних.
Я рекомендую розгортати Hadoop як одновузлове розгортання з використанням обмеженого розповсюдження, якщо ви маєте намір лише вчитися та грати з ним. Для цього вам ідеально підійде VPS. Cloudzy пропонує вам безліч різноманітних Служби Linux VPS в тому числі Ironclad, надійний Ubuntu VPS який можна миттєво налаштувати, щоб стати для вас ідеальним навчальним майданчиком Hadoop. Починаючи з 4,95 доларів на місяць, ви можете отримати власний Ubuntu VPS із більш ніж 12 розташуваннями та цілодобовою підтримкою!
Очевидний вибір
Більшість серверів під керуванням Linux використовують Ubuntu; чому не ти? Дізнайтеся, чому всі люблять Ubuntu — отримайте оптимізовану Ubuntu VPS
Отримайте свій Ubuntu VPSFAQ
Які відмінності між HDFS та MapReduce?
Хоча обидва модулі знаходяться в екосистемі Hadoop, вони служать різним цілям. HDFS функціонує як розподілена файлова система, полегшуючи доступ до даних. З іншого боку, MapReduce відмінно справляється з розбивкою та ефективним аналізом великих фрагментів даних.
Чи вважається Hadoop базою даних?
Hadoop не є базою даних, хоча це помилкове уявлення є поширеним. Він скоріше працює як розподілена файлова система, яка дозволяє зберігати й обробляти об’ємні дані за допомогою мережі взаємопов’язаних комп’ютерів. Його не слід використовувати як пряму заміну традиційної системи баз даних.
Які чотири основні компоненти Hadoop?
Hadoop складається з чотирьох основних компонентів: HDFS (розподілена файлова система Hadoop), YARN (ще один механізм узгодження ресурсів), MapReduce і Hadoop Common. Крім того, деякі ресурси розглядають ZooKeeper як компонент, хоча він офіційно не визнаний таким.
Де зазвичай використовується Hadoop?
Hadoop знаходить застосування в різних сферах, де важливо керувати, зберігати, обробляти та аналізувати великомасштабні дані. Він обслуговує різноманітні операції від середнього бізнесу та лікарень до нових стартапів, надаючи рішення на основі даних.