ลด 50% ทุกแพ็กเกจ เวลาจำกัด เริ่มต้นที่ $2.48/mo
อ่านอีก 13 นาที
ฐานข้อมูลและการวิเคราะห์

วิธีติดตั้ง Hadoop บน Ubuntu: คู่มือครบจบในที่เดียว

พิอุส โบเดนมันน์ By พิอุส โบเดนมันน์ อ่าน 13 นาที อัปเดตวันที่ 1 พฤษภาคม 2567
วิธีติดตั้ง Hadoop บน Ubuntu Linux

ทุกวันนี้ เมื่อองค์กรหรือการดำเนินงานที่เกี่ยวข้องกับคอมพิวเตอร์ขยายตัวจนต้องใช้มากกว่าหนึ่งเครื่อง เราก็เริ่มเชื่อมคอมพิวเตอร์หลายเครื่องเข้าเป็นเครือข่ายเดียวเพื่อรับมือกับปริมาณงานได้อย่างมีประสิทธิภาพมากขึ้น รูปแบบนี้กลายเป็นมาตรฐานในหลายสาขา โดยเฉพาะ data science ที่งานแทบทั้งหมดรันบนคอมพิวเตอร์ที่เชื่อมกันเป็นเครือข่าย แม้วิธีนี้จะทำงานหนักได้ดีกว่า แต่ก็ซับซ้อนไม่น้อย เพราะต้องตั้งค่าแต่ละเครื่องแยกกัน แล้วยังต้องดูแลเครือข่ายทั้งหมดระหว่างประมวลผล นี่คือจุดที่โปรแกรมอย่าง Hadoop เข้ามาแก้ปัญหา

สารบัญ

Hadoop คือชุดเครื่องมือและโปรแกรมที่พัฒนาโดย Apache ซึ่งช่วยให้การเชื่อมต่อคอมพิวเตอร์หลายเครื่องเข้าด้วยกันเป็นเรื่องง่ายและมีประสิทธิภาพมากขึ้น บทความนี้จะอธิบายว่า Hadoop คืออะไร ครอบคลุมกรณีการใช้งาน ข้อดีข้อเสีย และภาพรวมของสถาปัตยกรรมขั้นสูง ก่อนจะพาไปติดตั้ง Hadoop บน Ubuntu 20.04 ทีละขั้นตอนในฐานะส่วนหนึ่งของคู่มือ Hadoop ปี 2024 นี้

Apache Hadoop คืออะไร?

Hadoop คือชุดเครื่องมือที่ขับเคลื่อนโดย Apache และได้เปลี่ยนวิธีการตั้งค่าและใช้งานเครือข่ายมานานกว่า 15 ปี ผู้ใช้สามารถดึงประโยชน์จากประสิทธิภาพการใช้ทรัพยากรของ Hadoop เพื่อรองรับงานที่ต้องการพลังประมวลผลสูงโดยไม่ต้องอัปเกรดฮาร์ดแวร์ราคาแพง ชุดเครื่องมือนี้ประกอบด้วยสี่โมดูล ได้แก่ HDFS, YARN, MapReduce และ Hadoop Common ซึ่งแต่ละโมดูลออกแบบมาสำหรับกรณีการใช้งานที่แตกต่างกัน

จุดเด่นของ Hadoop อยู่ที่ความสามารถในการรวมพลังประมวลผลของเครื่องคอมพิวเตอร์ที่มีอยู่แล้วเข้าด้วยกัน ทั้งในระดับบุคคลและองค์กร เพื่อรับมือกับงานคำนวณขนาดใหญ่ได้อย่างมีประสิทธิภาพ หากไม่มี Hadoop องค์กรเหล่านี้คงต้องลงทุนซื้อเครื่องคอมพิวเตอร์ที่มีสมรรถนะสูงขึ้นเรื่อย ๆ ซึ่งมีค่าใช้จ่ายสูงมาก

กรณีการใช้งาน Hadoop

ตอนนี้เราเข้าใจแล้วว่า Hadoop คืออะไร แต่กรณีการใช้งานจริงในชีวิตประจำวันเป็นอย่างไร? การเรียนรู้เชิงทฤษฎีเป็นสิ่งที่ดี แต่ไม่อาจทดแทนการมองเห็นศักยภาพจริงในบริบทการใช้งานจริงได้ ส่วนนี้จะยกตัวอย่างก่อนที่จะไปถึงส่วนของคู่มือการติดตั้ง

การวิเคราะห์ความเสี่ยง

อย่างที่กล่าวไปแล้ว Hadoop ช่วยให้คุณรวมพลังประมวลผลจากคอมพิวเตอร์หลายเครื่องเป็นหน่วยเดียว เพื่อประมวลผลและวิเคราะห์ข้อมูลขนาดใหญ่ได้เร็วกว่าปกติ ในทางธุรกิจ การวิเคราะห์ความเสี่ยงเป็นสิ่งที่ขาดไม่ได้ และ Hadoop ทำหน้าที่นี้ได้ดีมาก ถึงขนาดที่โรงพยาบาลชั้นนำหลายแห่งนำมาใช้วิเคราะห์ความเสี่ยงของการรักษา และประเมินผลลัพธ์รวมถึงสถิติต่าง ๆ สำหรับผู้ป่วย คุณสามารถอ่านเพิ่มเติมเกี่ยวกับบทบาทของ Hadoop ในวงการสาธารณสุขได้ที่นี่

การตรวจจับการละเมิดความปลอดภัย

เมื่อเครือข่ายและอุปกรณ์ที่เชื่อมต่ออยู่ในระบบมีจำนวนมากขึ้น ช่องโหว่ด้านความปลอดภัยที่ต้องระวังก็เพิ่มขึ้นตามไปด้วย หนึ่งในประโยชน์หลักของ Hadoop คือการตรวจสอบระบบโดยรวมผ่านการวิเคราะห์ข้อมูลปริมาณมาก และชี้จุดอ่อนที่อาจเป็นความเสี่ยงของระบบ

รีวิวการแมป

ธุรกิจหลายแห่งพึ่งพารีวิวจากผู้ใช้เพื่อปรับปรุงสินค้าหรือพัฒนากลยุทธ์การตลาด การอ่านรีวิวด้วยมือนั้นใช้เวลานานมาก แต่ Hadoop สามารถประมวลผลข้อมูลรีวิวปริมาณมากผ่านเครือข่ายคอมพิวเตอร์ได้ในเวลาอันสั้น

การวิเคราะห์ตลาด

พูดถึงกลยุทธ์การตลาด การวิเคราะห์รีวิวยังเทียบไม่ได้กับทรัพยากรที่ต้องใช้ในการประเมินตลาดสำหรับสินค้าใหม่ นี่คืออีกหนึ่งกรณีที่ Hadoop แสดงให้เห็นคุณค่า เพราะแม้แต่ธุรกิจขนาดเล็กที่เพิ่งเริ่มต้นก็สามารถใช้คอมพิวเตอร์หลายเครื่องวิเคราะห์ตลาดได้อย่างมีประสิทธิภาพในเวลาที่เหมาะสม

การวิเคราะห์ไฟล์ Log

อีกด้านหนึ่งที่ซับซ้อนขึ้นตามการเติบโตของธุรกิจคือจำนวนซอฟต์แวร์ที่ใช้งานอยู่ในองค์กร ซอฟต์แวร์ที่มากขึ้นหมายถึงบั๊กและปัญหาที่อาจเกิดขึ้นมากขึ้น และต้องการผู้ดูแลที่คอยจัดการไฟล์ล็อกและแก้ปัญหาต่าง ๆ งานนี้ใช้เวลามาก แต่ด้วยขั้นตอนที่ไม่ซับซ้อน ธุรกิจสามารถใช้ Hadoop ตรวจสอบและวิเคราะห์ไฟล์ล็อกเพื่อค้นหาและกำจัดบั๊กได้อย่างรวดเร็ว

กรณีการใช้งานและแอปพลิเคชันของ Hadoop ยังมีอีกมาก แต่เพื่อไม่ให้เนื้อหาออกนอกขอบเขตของบทความนี้ เราจะไม่กล่าวถึงในที่นี้

ภาพรวมสถาปัตยกรรม Hadoop

สมมติว่าคุณเคยได้ยินเกี่ยวกับ Hadoop และรู้จักการใช้งานในภาพรวมแล้ว หรือถ้ายังไม่รู้ บทความนี้น่าจะอธิบายไปแล้วในส่วนที่ผ่านมา ขั้นตอนต่อไปคือการทำความเข้าใจเชิงลึกว่า Hadoop ประกอบด้วยอะไรบ้าง และแต่ละส่วนทำงานร่วมกันอย่างไร อย่างที่กล่าวไว้ก่อนหน้า Hadoop มีสี่เลเยอร์หลัก ในส่วนนี้ของคู่มือเราจะเจาะลึก HDFS (Hadoop Distributed File System), YARN (Yet Another Resource Negotiator), MapReduce และ Hadoop Common อย่างไรก็ตาม เนื่องจาก Hadoop Common ไม่มีฟีเจอร์ที่ต้องอธิบายมากนัก สิ่งสำคัญของมันจึงเป็นที่รู้จักในชื่อ Zookeeperดังนั้นในส่วนนี้ ผมจะอธิบายสถาปัตยกรรมและระบบนิเวศของ Hadoop รวมถึงทั้งสี่ส่วนในภาษาที่เข้าใจง่าย ก่อนจะไปถึงวิธีการติดตั้ง Hadoop บน Ubuntu 20.04

HDFS

HDFS ในระบบนิเวศ Hadoop ทำหน้าที่เป็นระบบจัดเก็บข้อมูลหลักที่ทุกส่วนประกอบและแอปพลิเคชันของ Hadoop ใช้ในการเข้าถึง ถ่ายโอน และบันทึกข้อมูล จุดสำคัญของสถาปัตยกรรม HDFS คือต่างจาก Hadoop ที่เป็นโปรแกรมโอเพนซอร์ส HDFS คือระบบไฟล์ที่รับผิดชอบการทำงานพื้นฐานทั้งหมดของ Hadoop cluster HDFS เป็นระบบไฟล์ที่มีความทนทานสูง ทำงานโดยแบ่งข้อมูลออกเป็นชิ้นขนาด 128 MB และปรับแต่งให้เหมาะกับการทำงานแบบ sequence-based

หน้าที่หลักของ HDFS ใน Hadoop คือการจัดเตรียมข้อมูลทั้งหมดในรูปแบบ data rack ซึ่งสามารถจัดการผ่าน namenode และ rack รอง เพื่อแบ่งข้อมูลออกเป็นส่วนย่อยสำหรับการจัดระเบียบการวิเคราะห์ข้อมูล นอกจากนี้คุณยังสามารถใช้ตัวเลือกอื่น ๆ เช่น Journal rack, QJM, HA, fsimage และ edit log รวมถึง legend log เพื่อติดตามและดำเนินการงานต่าง ๆ ได้

YARN

YARN เป็นอีกหนึ่งส่วนประกอบหลักของ Hadoop ที่ใช้จัดสรรทรัพยากรการประมวลผลตามที่กำหนดให้กับแอปพลิเคชันต่าง ๆ ภายในระบบนิเวศ Hadoop โดยพื้นฐานแล้ว YARN ช่วยให้คุณใช้ resource manager จัดสรรทรัพยากรให้กับงานและแอปพลิเคชันต่าง ๆ ผ่าน node หลายตัว นอกจากนี้ยังมี legend ใน YARN ที่คล้ายกับใน HDFS ช่วยให้ติดตามทรัพยากรและการทำงานที่จัดสรรไว้ได้ YARN แบ่งออกเป็นสามส่วนย่อย ได้แก่ Resource Manager, Application Master และ Node Manager

แต่ละส่วนย่อยทั้งสามจะสร้าง instance ใหม่ของตัวเองต่อ cluster, application และ node ตามลำดับ YARN ไม่เพียงแต่จัดสรรทรัพยากรให้กับงานต่าง ๆ แต่ยังกำหนดตารางการเปลี่ยนแปลงทรัพยากรตามช่วงเวลาเพื่อสร้างกระบวนการทำงานเชิงอัลกอริทึมขั้นสูงได้ด้วย YARN ไม่ได้จำกัดอยู่แค่ส่วนย่อยของตัวเอง ในหลายกรณีคุณจะใช้ YARN ร่วมกับเลเยอร์สถาปัตยกรรมอื่น ๆ เช่น HDFS และ Zookeeper เพื่อจัดสรรทรัพยากรและประเมินผลการทำงานโดยรวม

Hadoop MapReduce

Hadoop MapReduce เป็นอีกหนึ่งส่วนประกอบสำคัญในระบบนิเวศ Hadoop เมื่อติดตั้ง Hadoop บน Ubuntu แล้ว คุณสามารถใช้ฟีเจอร์นี้วิเคราะห์ข้อมูลปริมาณมากแบบกระจายผ่านคอมพิวเตอร์หลายเครื่องพร้อมกัน หลักการทำงานของ Hadoop MapReduce คือ คุณป้อน data map ขนาดใหญ่เข้าสู่โปรแกรม จากนั้น data map นี้จะถูกสับเปลี่ยน แบ่งย่อย และกระจายไปยังคอมพิวเตอร์ในเครือข่าย จากนั้นโดยใช้โปรโตคอลที่เรียกว่า reducer ข้อมูลจะถูกกลั่นกรองให้เหลือเฉพาะส่วนที่จำเป็น แต่ละกระบวนการนี้เรียกว่า Job

สมมติว่าคุณมีประโยคสามคำที่ต้องการวิเคราะห์ด้วย MapReduce เช่น Bear Hunt Rabbit Hadoop MapReduce จะแบ่งประโยคนี้ออกเป็นสามชุดข้อมูล ชุดละหนึ่งคำ จากนั้นนำคำเหล่านี้มาสร้างชุดข้อมูลใหม่ร่วมกับข้อมูลที่คล้ายกันจาก Job อื่น ๆ เพื่อสร้างชุดข้อมูลสุดท้ายที่เป็นเนื้อเดียวกัน กำจัดข้อมูลที่ไม่จำเป็นออก และพร้อมสำหรับการวิเคราะห์

Zookeeper

Zookeeper เป็นอีกหนึ่งส่วนย่อยของระบบนิเวศ Hadoop ที่ได้รับความนิยมและถูกนำมาใช้งานอย่างแพร่หลายตั้งแต่การเปิดตัว Hadoop เวอร์ชัน 2.0 หน้าที่หลักของ Zookeeper คือการประสานงานระหว่างการทำงานต่าง ๆ ที่ดำเนินอยู่ภายใน Hadoop instance เดียวกัน ดังนั้น Zookeeper จึงมักถูกใช้ร่วมกับ YARN Resource Manager และฟีเจอร์ต่าง ๆ ของ HDFS ใน Hadoop เสมอ บทบาทหลักของ Zookeeper ในกระบวนการเหล่านี้คือการตรวจจับและแก้ไขจุดที่อาจเกิดความล้มเหลว โดยใช้เครื่องมือสองอย่างคือ ZKFailoverController และ Zookeeper Quorum

ในกระบวนการเหล่านี้ data node ที่ถูกจัดการโดยส่วนประกอบอื่น ๆ ของสถาปัตยกรรม Hadoop จะถูกจัดประเภทเป็น active namenode ซึ่งอยู่ภายใต้การดูแลของผู้ใช้ จากนั้น namenode แต่ละตัวจะถูกตรวจสอบผ่านสองส่วนย่อยของ Zookeeper ที่กล่าวถึงข้างต้น เพื่อระบุจุดที่มีปัญหาและตรวจหาความล้มเหลวที่อาจเกิดขึ้น

คู่มือการติดตั้ง Hadoop บน Ubuntu 20.04 ทีละขั้นตอน

หลังจากทำความเข้าใจสถาปัตยกรรมของ Hadoop แล้ว ถึงเวลาเข้าสู่ส่วนสำคัญที่สุด นั่นคือวิธีการติดตั้ง Hadoop บน Ubuntu 20.04 ในฐานะขั้นตอนสุดท้ายของคู่มือนี้ เราจะเริ่มจากข้อกำหนดเบื้องต้นก่อนจะไปถึงคู่มือการติดตั้งทีละขั้นตอน และโปรดทราบว่าคู่มือนี้ใช้ได้กับ Ubuntu 18.04 ด้วยเช่นกัน

ข้อกำหนดเบื้องต้น

ข้อกำหนดเบื้องต้นสำหรับการติดตั้ง Hadoop บน Ubuntu นั้นไม่ซับซ้อน สิ่งที่คุณต้องมีคือเครื่องคอมพิวเตอร์ที่ใช้ Ubuntu พร้อม root access ไม่ว่าจะเข้าใช้งานในเครื่องโดยตรงหรือผ่าน VPS server จากระยะไกล สำหรับโปรแกรมที่ต้องการ ตรวจสอบให้แน่ใจว่าคุณติดตั้ง Java 11 และ SSH ไว้แล้ว หากยังไม่มี ให้รันคำสั่งต่อไปนี้ทีละคำสั่ง

sudo apt update && sudo apt upgrade -y
sudo apt install openssh-server openssh-client -y
sudo apt install openjdk-11-jdk -y

สำหรับลิขสิทธิ์นั้นไม่ต้องกังวล เพราะ Hadoop เป็นซอฟต์แวร์ฟรีและโอเพนซอร์ส เท่านี้ก็พร้อมแล้ว ไปต่อที่ขั้นตอนแรกกันได้เลย

ขั้นตอนที่ 1: สร้างผู้ใช้ที่ไม่ใช่ Root สำหรับ Hadoop

สร้าง non-root user สำหรับ Hadoop ด้วยคำสั่งต่อไปนี้ ขั้นตอนนี้เป็นส่วนหนึ่งของการตั้งค่าเบื้องต้นที่ต้องทำก่อนดาวน์โหลดและติดตั้ง Hadoop จริง ๆ:

sudo adduser hdoop
su - hdoop

ขั้นตอนที่ 2: ตั้งค่า SSH Keys

ในการติดตั้ง Hadoop บน Ubuntu เราจะใช้ Hadoop user ที่เพิ่งสร้างขึ้น เพื่อเชื่อมต่อผ่าน SSH ใช้คำสั่งนี้เพื่อสร้าง SSH key pair และบันทึกไว้:

ssh-keygen -t rsa -P '' -f ~/.ssh/id_rsa

เมื่อสร้าง key เสร็จแล้ว คำสั่งต่อไปนี้จะช่วยให้คุณทำเครื่องหมาย key เหล่านั้นว่าเป็น authorized_keys และบันทึกไว้ในไดเรกทอรี SSH ของคุณ:

cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys

ใช้คำสั่งนี้เพื่อตรวจสอบว่าการเชื่อมต่อ SSH มีสิทธิ์ที่จำเป็นครบถ้วน:

chmod 600 ~/.ssh/authorized_keys
chmod 700 ~/.ssh

ยืนยันการเปลี่ยนแปลง จากนั้นคุณจะสามารถเชื่อมต่อกับ localhost ได้ตลอดเวลาด้วย user ที่สร้างไว้:

ssh localhost

ขั้นตอนที่ 3: ดาวน์โหลดและติดตั้ง Hadoop บน Ubuntu

คุณสามารถเข้าไปที่ เว็บไซต์ Apache Hadoop เพื่อดูรายการเวอร์ชันพร้อม change log ล่าสุด เลือกเวอร์ชันที่ต้องการ แล้วนำลิงก์ที่ได้มาใช้กับคำสั่งต่อไปนี้เพื่อดาวน์โหลดและติดตั้ง Hadoop บน Ubuntu ในที่นี้เลือกเวอร์ชัน 3.3.6 หากต้องการ ให้แทนที่ '3.3.6' ด้วยเวอร์ชันที่เสถียรล่าสุด:

wget https://downloads.apache.org/hadoop/common/hadoop-3.3.6/hadoop-3.3.6.tar.gz

เมื่อดาวน์โหลดเสร็จแล้ว ใช้คำสั่งนี้เพื่อแตกไฟล์และติดตั้งให้เสร็จสมบูรณ์:

tar xzf hadoop-3.3.6.tar.gz
sudo mv hadoop-3.3.6 /usr/local/hadoop
sudo chown -R hdoop:hdoop /usr/local/hadoop

ขั้นตอนที่ 4: ตั้งค่า Environment ของ Hadoop

ตั้งค่า JAVA_HOME in /usr/local/hadoop/etc/hadoop/hadoop-env.sh:

echo 'export JAVA_HOME=$(readlink -f /usr/bin/java | sed "s:bin/java::")' | sudo tee -a /usr/local/hadoop/etc/hadoop/hadoop-env.sh

ขั้นตอนที่ 5: แก้ไขไฟล์ Configuration

อัปเดตไฟล์ XML configuration ของ Hadoop ด้วยการตั้งค่า cluster ของคุณ

nano /usr/local/hadoop/etc/hadoop/core-site.xml

ขั้นตอนที่ 6: Format HDFS

กำหนดค่าเริ่มต้น Hadoop filesystem namespace

/usr/local/hadoop/bin/hdfs namenode -format

ขั้นตอนที่ 7: เริ่มต้น Services ของ Hadoop

เริ่มบริการ HDFS และ YARN

/usr/local/hadoop/sbin/start-dfs.sh
/usr/local/hadoop/sbin/start-yarn.sh

ขั้นตอนที่ 8: ตรวจสอบการติดตั้ง

ตรวจสอบ Java process ที่กำลังทำงานเพื่อยืนยันว่า Hadoop ทำงานอยู่

jps

ขั้นตอนที่ 9: เข้าถึง Web Interfaces

เปิดเบราว์เซอร์ไปที่หน้า NameNode และ ResourceManager ของ Hadoop

NameNode: http://localhost:9870
ResourceManager: http://localhost:8088

ขั้นตอนที่ 10: รันตัวอย่าง MapReduce

รัน MapReduce job ตัวอย่างเพื่อตรวจสอบว่าการตั้งค่าถูกต้อง

/usr/local/hadoop/bin/hdfs dfs -mkdir /input
/usr/local/hadoop/bin/hdfs dfs -put localfile.txt /input
/usr/local/hadoop/bin/hadoop jar
/usr/local/hadoop/share/hadoop/mapreduce/hadoop-mapreduce-examples-3.3.6.jar grep /input /output 'dfs[a-z.]+'
/usr/local/hadoop/bin/hdfs dfs -cat /output/*

ขั้นตอนที่ 11: ตั้งค่า Environment Variables

เพิ่ม Hadoop's bin และ sbin ไดเรกทอรีไปยัง system PATH

echo 'export PATH=$PATH:/usr/local/hadoop/bin:/usr/local/hadoop/sbin' >> ~/.bashrc
source ~/.bashrc

เพียงเท่านี้คุณก็ติดตั้งและตั้งค่า Apache Hadoop บน Ubuntu 20.04 เสร็จเรียบร้อยแล้ว!

สรุป

โดยสรุป การติดตั้ง Hadoop บน Ubuntu 20.04 เป็นกระบวนการที่ต้องใส่ใจในรายละเอียดและพร้อมทำความเข้าใจกับความซับซ้อนของการตั้งค่า หากทำตามขั้นตอนในคู่มือนี้ครบถ้วน ผู้ใช้ Ubuntu จะสามารถใช้ประโยชน์จากความสามารถของ Hadoop ได้อย่างเต็มที่ในงาน data analytics ของตน

หากต้องการเรียนรู้หรือทดลองใช้ Hadoop แนะนำให้ติดตั้งในรูปแบบ single-node deployment แบบ limited distribution สำหรับจุดประสงค์นี้ VPS เหมาะมาก Cloudzy มีตัวเลือก บริการ Linux VPS ที่มั่นคงและน่าเชื่อถือ Ubuntu VPS ที่ตั้งค่าได้รวดเร็ว เหมาะสำหรับฝึกฝน Hadoop โดยเฉพาะ เริ่มต้นเพียง $4.95 ต่อเดือน คุณจะได้ Ubuntu VPS ให้เลือกมากกว่า 12 ภูมิภาค พร้อมทีม support ตลอด 24/7!

ubuntu-vps ตัวเลือกที่ชัดเจน

เซิร์ฟเวอร์ส่วนใหญ่ที่รัน Linux ใช้ Ubuntu อยู่แล้ว แล้วคุณล่ะ? ค้นพบว่าทำไมทุกคนถึงชอบ Ubuntu และรับ Ubuntu VPS ที่ปรับแต่งมาอย่างดี

รับ Ubuntu VPS ของคุณ

คำถามที่พบบ่อย

HDFS กับ MapReduce ต่างกันอย่างไร?

แม้ทั้งสองโมดูลจะอยู่ในระบบนิเวศ Hadoop เหมือนกัน แต่ทำหน้าที่ต่างกันชัดเจน HDFS ทำงานเป็นระบบไฟล์แบบกระจาย ช่วยให้เข้าถึงข้อมูลได้สะดวก ส่วน MapReduce เชี่ยวชาญในการแบ่งและวิเคราะห์ข้อมูลขนาดใหญ่ได้อย่างมีประสิทธิภาพ

Hadoop ถือเป็นฐานข้อมูลหรือไม่?

Hadoop ไม่ใช่ฐานข้อมูล แม้จะมีความเข้าใจผิดในเรื่องนี้บ่อยครั้ง แท้จริงแล้วมันทำงานเป็นระบบไฟล์แบบกระจาย ที่ช่วยให้จัดเก็บและประมวลผลข้อมูลปริมาณมหาศาลผ่านเครือข่ายคอมพิวเตอร์ที่เชื่อมต่อกัน และไม่ควรนำมาใช้แทนระบบฐานข้อมูลแบบดั้งเดิม

องค์ประกอบหลักทั้งสี่ของ Hadoop มีอะไรบ้าง?

Hadoop ประกอบด้วยส่วนประกอบหลักสี่ส่วน ได้แก่ HDFS (Hadoop Distributed File System), YARN (Yet Another Resource Negotiator), MapReduce และ Hadoop Common นอกจากนี้ บางแหล่งข้อมูลยังนับ ZooKeeper เป็นส่วนประกอบด้วย แม้จะไม่ได้รับการยอมรับอย่างเป็นทางการในฐานะนั้น

Hadoop มักถูกนำไปใช้งานในสถานการณ์ใด?

Hadoop ถูกนำไปใช้ในหลากหลายด้านที่ต้องจัดการ จัดเก็บ ประมวลผล และวิเคราะห์ข้อมูลขนาดใหญ่ ครอบคลุมตั้งแต่ธุรกิจขนาดกลาง โรงพยาบาล ไปจนถึงสตาร์ทอัพที่กำลังเติบโต ด้วยโซลูชันที่ขับเคลื่อนด้วยข้อมูล

แชร์

บทความอื่นจากบล็อก

อ่านต่อ

สัญลักษณ์ดั้งเดิมของ MongoDB บนเซิร์ฟเวอร์แบบ futuristic สำหรับการติดตั้ง MongoDB บน Ubuntu พร้อม tagline บอกสิ่งที่จะได้รับจากบทความ ชื่อบทความ และโลโก้แบรนด์ Cloudzy
ฐานข้อมูลและการวิเคราะห์

วิธีติดตั้ง MongoDB บน Ubuntu สามเวอร์ชันล่าสุด (ทีละขั้นตอน)

คุณตัดสินใจใช้ MongoDB แล้ว ซึ่งเป็นทางเลือกที่ดีแทน MariaDB สำหรับสร้าง MERN stack app แพลตฟอร์ม analytics หรือระบบที่ใช้ document เป็นหลัก แต่ยังหาแหล่งข้อมูลที่ดีไม่ได้ o

จิม ชวาร์ตซ์จิม ชวาร์ตซ์ อ่าน 12 นาที
การจัดการข้อมูลอย่างชาญฉลาดสำหรับธุรกิจของคุณ: กลยุทธ์การจัดเก็บและสำรองข้อมูลแบบ Cloud สำหรับ VPS
ฐานข้อมูลและการวิเคราะห์

การจัดการข้อมูลอย่างชาญฉลาดสำหรับธุรกิจของคุณ: กลยุทธ์การจัดเก็บและสำรองข้อมูลแบบ Cloud สำหรับ VPS

การใช้ VPS เพื่อจัดการข้อมูลธุรกิจอย่างปลอดภัยคือกลยุทธ์ที่ผมแนะนำเสมอ เมื่อบริษัทตัดสินใจว่าถึงเวลาหยุดวุ่นวายกับไฟล์ที่กระจายอยู่ตามแล็ปท็อป อีเมล และที่เก็บที่ลืมไปครึ่งหนึ่งแล้ว

เรกซา ไซรัสเรกซา ไซรัส อ่าน 7 นาที
Materialized View กับ View
ฐานข้อมูลและการวิเคราะห์

Materialized View กับ View: ทำความเข้าใจบทบาทในฐานข้อมูล

ในระบบฐานข้อมูล materialized view คือ database object ที่เก็บผลลัพธ์ที่คำนวณไว้ล่วงหน้าของ query ในรูปแบบตารางจริง เนื่องจากข้อมูลถูกเก็บไว้บนดิสก์จริง การดำเนินการที่ซับซ้อน

ไอวี่ จอห์นสันไอวี่ จอห์นสัน อ่าน 7 นาที

พร้อม Deploy แล้วหรือยัง? เริ่มต้นที่ $2.48/เดือน

Cloud อิสระ ให้บริการมาตั้งแต่ปี 2008. AMD EPYC, NVMe, 40 Gbps. คืนเงินภายใน 14 วัน