ทุกวันนี้ เมื่อธุรกิจหรือการดำเนินการใดๆ ที่เกี่ยวข้องกับคอมพิวเตอร์เติบโตขึ้นจนต้องใช้คอมพิวเตอร์มากกว่าหนึ่งเครื่องในการจัดการ เราจะเริ่มใช้คอมพิวเตอร์หลายเครื่องทันทีโดยเป็นส่วนหนึ่งของเครือข่ายเดียวเพื่อจัดการปริมาณงานได้อย่างมีประสิทธิภาพมากขึ้น สิ่งนี้กลายเป็นเรื่องธรรมดาไปแล้วในขอบเขตที่ทุกวันนี้การดำเนินงานเกือบทั้งหมดในสาขาเช่นวิทยาศาสตร์ข้อมูลดำเนินการโดยคอมพิวเตอร์เครือข่ายเหล่านี้ แม้ว่าการทำงานคอมพิวเตอร์ที่มีความต้องการสูงอย่างไม่ต้องสงสัยจะมีประสิทธิภาพมากกว่าด้วยวิธีนี้ แต่ก็มีความซับซ้อนอย่างไม่น่าเชื่อเช่นกัน เนื่องจากคุณต้องกำหนดค่าคอมพิวเตอร์แต่ละเครื่องแยกกัน จากนั้นจึงจัดการเครือข่ายทั้งหมดในขณะที่ทำงานของคุณ นี่คือจุดที่โปรแกรมอย่าง Hadoop เข้ามาช่วยกอบกู้โลก
- Apache Hadoop คืออะไร?
- กรณีการใช้งาน Hadoop
- ภาพรวมสถาปัตยกรรม Hadoop
- ติดตั้ง Hadoop บน Ubuntu 20.04 - คำแนะนำทีละขั้นตอน
- ข้อกำหนดเบื้องต้น
- ขั้นตอนที่ 1: สร้างผู้ใช้ที่ไม่ใช่รูทสำหรับ Hadoop
- ขั้นตอนที่ 2: ตั้งค่าคีย์ SSH
- ขั้นตอนที่ 3: ดาวน์โหลดและติดตั้ง Hadoop บน Ubuntu
- ขั้นตอนที่ 4: กำหนดค่าสภาพแวดล้อม Hadoop
- ขั้นตอนที่ 5: แก้ไขไฟล์การกำหนดค่า
- ขั้นตอนที่ 6: ฟอร์แมต HDFS
- ขั้นตอนที่ 7: เริ่มบริการ Hadoop
- ขั้นตอนที่ 8: ตรวจสอบการติดตั้ง
- ขั้นตอนที่ 9: เข้าถึงเว็บอินเตอร์เฟส
- ขั้นตอนที่ 10: เรียกใช้ตัวอย่าง MapReduce
- ขั้นตอนที่ 11: ตั้งค่าตัวแปรสภาพแวดล้อม
- บทสรุป
- คำถามที่พบบ่อย
Hadoop คือชุดเครื่องมือและโปรแกรมที่ออกโดย Apache ซึ่งช่วยให้กระบวนการทั้งหมดในการสร้างเครือข่ายคอมพิวเตอร์หลายเครื่องเข้าด้วยกันมีประสิทธิภาพและง่ายดายยิ่งขึ้น ดังนั้นในบทความนี้ ฉันจะรีวิว Hadoop ตรวจสอบกรณีการใช้งาน อธิบายข้อดีข้อเสีย และให้ภาพรวมของสถาปัตยกรรมขั้นสูง ก่อนที่จะไปยังคำแนะนำทีละขั้นตอนเกี่ยวกับวิธีการติดตั้ง Hadoop บน Ubuntu 20.04 เพื่อจบบทช่วยสอน Hadoop ปี 2024 นี้
Apache Hadoop คืออะไร?
Hadoop ชุดเครื่องมือที่ขับเคลื่อนโดย Apache ได้เปลี่ยนแปลงการตั้งค่าและการใช้งานเครือข่ายมานานกว่า 15 ปี ผู้ใช้สามารถใช้ประโยชน์จากประสิทธิภาพทรัพยากรของ Hadoop ได้อย่างเต็มที่ ทำให้พวกเขาสามารถควบคุมพลังการประมวลผลในปัจจุบันสำหรับงานที่มีความต้องการสูงโดยไม่จำเป็นต้องอัปเกรดราคาแพง ชุดประกอบด้วยสี่โมดูล: HDFS, YARN, MapReduce และ Hadoop Common ซึ่งแต่ละโมดูลได้รับการออกแบบมาสำหรับกรณีการใช้งานเฉพาะ
ความฉลาดของ Hadoop อยู่ที่ความรอบรู้โดยธรรมชาติ โดยเพิ่มขีดความสามารถอย่างชาญฉลาดให้กับทั้งบุคคลและองค์กรเพื่อรวมความสามารถในการคำนวณที่มีอยู่ให้เป็นพลังที่เหนียวแน่นซึ่งสามารถเอาชนะความท้าทายด้านการคำนวณที่สำคัญได้ หากไม่ได้รับคำแนะนำจาก Hadoop หน่วยงานเหล่านี้จะพบว่าตนเองถูกบังคับให้ดำเนินการตามล่าเพื่อให้ได้มาซึ่งเครื่องคอมพิวเตอร์ที่ทรงพลังมากขึ้นซึ่งมีค่าใช้จ่ายสูง
กรณีการใช้งาน Hadoop
ตอนนี้เรารู้แล้วว่า Hadoop คืออะไร แต่กรณีการใช้งานจะมีผลอย่างไรในโลกแห่งความเป็นจริง? การทำความเข้าใจโปรแกรมบนกระดาษเป็นสิ่งที่ดีและดี แต่จะไม่มีทางทดแทนการตระหนักถึงศักยภาพของโปรแกรมซึ่งเป็นส่วนหนึ่งของการปฏิบัติงานที่จริงจังได้ ดังนั้นฉันจะยกตัวอย่างบางส่วนก่อนที่จะไปยังบทช่วยสอน Hadoop
การวิเคราะห์ความเสี่ยง
ดังที่ได้กล่าวไปแล้ว Hadoop ช่วยให้คุณสามารถควบคุมพลังของระบบคอมพิวเตอร์หลายระบบโดยเป็นส่วนหนึ่งของหน่วยเครือข่ายเดียวเพื่อผ่านชุดข้อมูลจำนวนมากอย่างมีประสิทธิภาพและวิเคราะห์ได้เร็วกว่าปกติ ในทุกธุรกิจมีความเสี่ยงที่ต้องวิเคราะห์และคำนวณ Hadoop มีประโยชน์อย่างยิ่งที่นี่ ที่จริงแล้วโรงพยาบาลที่น่าเชื่อถือหลายแห่งใช้มันเพื่อวิเคราะห์ความเสี่ยงของการรักษาที่แตกต่างกัน และคาดการณ์ผลลัพธ์ที่อาจเกิดขึ้นและสถิติของการผ่าตัดสำหรับผู้ป่วยของพวกเขา คุณเรียนรู้เพิ่มเติมเกี่ยวกับบทบาทการปฏิวัติของ Hadoop ในด้านการดูแลสุขภาพได้ที่นี่
การตรวจจับการละเมิดความปลอดภัย
เนื่องจากจำนวนโดยรวมของเครือข่ายและอุปกรณ์ที่ใช้งานเพิ่มขึ้นภายในเครือข่ายหรือธุรกิจ จึงมีการละเมิดความปลอดภัยที่อาจเกิดขึ้นเพิ่มมากขึ้นเรื่อยๆ ที่ต้องคำนึงถึง ยูทิลิตี้ที่สำคัญประการหนึ่งของ Hadoop คือการประเมินการดำเนินการทั้งหมดโดยการวิเคราะห์ข้อมูลจำนวนมากและเน้นจุดด้อยที่อาจเกิดขึ้นของระบบนั้น
ตรวจสอบการทำแผนที่
ธุรกิจจำนวนมากอาศัยผลตอบรับจากการรีวิวที่ได้รับเกี่ยวกับผลิตภัณฑ์ของตนเพื่อปรับปรุงหรือพัฒนากลยุทธ์การตลาดใหม่ แม้ว่ามนุษย์จะใช้เวลานานกว่าจะครอบคลุมไฟล์บทวิจารณ์ที่มีขนาดใหญ่เพียงพอ แต่ Hadoop จะใช้เวทย์มนตร์คอมพิวเตอร์แบบเครือข่ายเพื่อให้ได้ผลลัพธ์ที่เร็วกว่ามาก
การวิเคราะห์ตลาด
เมื่อพูดถึงกลยุทธ์ทางการตลาด การทำแผนที่รีวิวดังกล่าวจะดูซีดเซียวเมื่อเปรียบเทียบกับจำนวนทรัพยากรที่จำเป็นในการวิเคราะห์ตลาดเพื่อประเมินศักยภาพของผลิตภัณฑ์ใหม่ที่จะเข้าสู่ตลาด นี่เป็นอีกกรณีการใช้งานที่ Hadoop โดดเด่น เนื่องจากช่วยให้แม้แต่ธุรกิจขนาดเล็กที่กำลังเติบโตสามารถประเมินตลาดได้อย่างมีประสิทธิภาพด้วยคอมพิวเตอร์หลายเครื่องในกรอบเวลาและลักษณะที่มีประสิทธิภาพ
การประเมินไฟล์บันทึก
อีกแง่มุมหนึ่งของธุรกิจที่มีความซับซ้อนมากขึ้นเมื่อเวลาผ่านไปและมีความสำคัญมากขึ้นก็คือจำนวนซอฟต์แวร์ที่พวกเขาจะเริ่มใช้ทั่วทั้งกระดาน การใช้ซอฟต์แวร์มากขึ้นเรื่อยๆ ทำให้เกิดจุดบกพร่องและปัญหาที่อาจเกิดขึ้นได้มากขึ้น และจำเป็นต้องมีพนักงานที่ทุ่มเทในการจัดการไฟล์บันทึกและจัดการกับปัญหาต่างๆ การดำเนินการนี้อาจใช้เวลานาน แต่การใช้โปรโตคอลง่ายๆ เพียงไม่กี่ขั้นตอน ธุรกิจจะสามารถใช้ Hadoop เพื่อตรวจสอบและประเมินไฟล์บันทึกได้อย่างรวดเร็วเพื่อค้นหาจุดบกพร่องเหล่านี้และกำจัดทิ้ง
มีกรณีการใช้งานและแอปพลิเคชัน Hadoop อื่นๆ มากมาย แต่เพื่อรักษาการมุ่งเน้นที่วัตถุประสงค์ของบทความนี้ เราจะไม่พูดคุยกันอีกต่อไป
ภาพรวมสถาปัตยกรรม Hadoop
สมมติว่าคุณเคยได้ยินเกี่ยวกับ Hadoop และกรณีการใช้งานโดยรวมของ Hadoop และทำหน้าที่อะไรบ้าง และแม้ว่าคุณจะยังไม่ได้ทำก็ตาม บทความนี้น่าจะทำเพื่อคุณแล้ว แต่ตอนนี้คุณต้องทำความเข้าใจอย่างลึกซึ้งว่าจริงๆ แล้ว Hadoop สร้างขึ้นมาจากอะไร และแต่ละส่วนทำงานร่วมกับคุณสมบัติอื่นๆ ของมันอย่างไร ตามที่กล่าวไว้ก่อนหน้านี้ Hadoop โดยทั่วไปมีสี่ชั้น ในส่วนนี้ของบทช่วยสอน Hadoop เราจะเรียนรู้เพิ่มเติมเกี่ยวกับ HDFS (Hadoop Distributed File System), YARN (Yet Another Resource Negotiator), MapReduce และ Hadoop Common อย่างไรก็ตาม เนื่องจาก Hadoop Common ไม่มีคุณสมบัติมากมายที่จำเป็นต้องอธิบาย เราจึงเรียกฟีเจอร์สำคัญๆ ของฟีเจอร์นี้ว่า ผู้ดูแลสวนสัตว์. ดังนั้นในส่วนนี้ ฉันจะพยายามสรุปสถาปัตยกรรมและระบบนิเวศ Hadoop ขั้นสูง รวมถึงสี่ส่วนในแง่พื้นฐาน ก่อนที่จะพูดถึงวิธีการติดตั้ง Hadoop บน Ubuntu 20.04 ในที่สุด
HDFS
HDFS ในระบบนิเวศ Hadoop ประกอบด้วยระบบจัดเก็บข้อมูลโดยรวมที่ส่วนย่อยและแอปพลิเคชัน Hadoop ทั้งหมดใช้เพื่อประเมิน ถ่ายโอน และบันทึกข้อมูล ประเด็นหลักในสถาปัตยกรรม HDFS ก็คือ HDFS ใน Hadoop ต่างจาก Hadoop ตรงที่เป็นโปรแกรมโอเพ่นซอร์ส จริงๆ แล้วเป็นระบบไฟล์ที่รับผิดชอบในการรันการดำเนินการพื้นฐานทั้งหมดของคลัสเตอร์ Hadoop เดียว HDFS เป็นระบบไฟล์ที่มีความยืดหยุ่นอย่างไม่น่าเชื่อ โดยแบ่งแบตช์ข้อมูลออกเป็นขนาด 128 MB และปรับให้เหมาะสมสำหรับการดำเนินการตามลำดับ
บทบาทหลักของ HDFS ในซอฟต์แวร์ Hadoop คือการจัดเตรียมข้อมูลทั้งหมดโดยเป็นส่วนหนึ่งของชั้นข้อมูลโดยรวม ซึ่งสามารถจัดการผ่านเนมโนดและชั้นวางรองที่แตกต่างกันไปในส่วนย่อยเพื่อจัดระเบียบการดำเนินการวิเคราะห์ข้อมูลของคุณ จากนั้นคุณสามารถใช้ตัวเลือกอื่นๆ เช่น Journal Racks, QJM, HA, fsimage และแก้ไขไฟล์บันทึก และบันทึกคำอธิบายโดยรวมเพื่อติดตามและดำเนินการงานอื่นๆ
เส้นด้าย
YARN เป็นอีกหนึ่งสาขาผู้บริหารของ Hadoop ที่ใช้ในการกำหนดปริมาณสินทรัพย์การประมวลผลที่ต้องการให้กับแอปพลิเคชันเฉพาะภายในระบบนิเวศ Hadoop โดยพื้นฐานแล้ว ช่วยให้คุณสามารถใช้ตัวจัดการทรัพยากรสำหรับลูกค้าของคุณเพื่อจัดสรรทรัพยากรเหล่านี้ผ่านชุดโหนดที่แตกต่างกันให้กับงานและแอปพลิเคชันต่างๆ นอกจากนี้ยังมีคำอธิบายใน YARN ซึ่งคล้ายกับคำอธิบายใน HDFS ช่วยให้คุณสามารถติดตามสินทรัพย์และการดำเนินงานที่จัดสรรทั้งหมดของคุณ YARN นั้นแบ่งออกเป็นสามส่วนย่อย: Resource Manager, Application Master และ Node Manager
ส่วนย่อยทั้งสามส่วนแต่ละส่วนจะสร้างอินสแตนซ์ใหม่ของตนเองต่อคลัสเตอร์ แอปพลิเคชัน และโหนด ตามลำดับ ไม่เพียงแต่คุณสามารถจัดสรรทรัพยากรให้กับงานต่างๆ โดยใช้ YARN เท่านั้น แต่คุณยังสามารถกำหนดเวลาให้ทรัพยากรเหล่านี้เปลี่ยนแปลงเมื่อเวลาผ่านไปเพื่อให้ได้เวิร์กโฟลว์อัลกอริทึมขั้นสูง YARN ไม่ได้จำกัดอยู่เพียงส่วนย่อย จะมีหลายกรณีที่คุณจะใช้ YARN ร่วมกับเลเยอร์สถาปัตยกรรมอื่นๆ เช่น HDFS และ Zookeeper เพื่อจัดสรรทรัพยากรและประเมินการดำเนินงานโดยรวมของคุณ
Hadoop Mapreduce
Hadoop MapReduce เป็นอีกหนึ่งองค์ประกอบหลักในระบบนิเวศของ Hadoop เมื่อคุณติดตั้ง Hadoop บน Ubuntu คุณสามารถใช้คุณสมบัตินี้เพื่อรับข้อมูลจำนวนมากที่วิเคราะห์ในลักษณะกระจายโดยคอมพิวเตอร์หลายเครื่องได้อย่างมีประสิทธิภาพ โดยพื้นฐานแล้ว Hadoop MapReduce ทำงานดังนี้: คุณป้อนแผนที่ข้อมูลขนาดใหญ่ลงในโปรแกรม แผนผังข้อมูลนี้จะถูกสับ แบ่งย่อย และกระจายไปยังคอมพิวเตอร์ในเครือข่ายของคุณ ต่อจากนั้น โดยใช้โปรโตคอลเฉพาะที่เรียกว่าตัวลด ข้อมูลจะถูกต้มลงไปที่องค์ประกอบที่สำคัญที่สุดและลดขนาดลง การดำเนินการแต่ละรายการเหล่านี้เรียกว่างาน
สมมติว่าคุณมีประโยคสามคำที่ทำหน้าที่เป็นแผนผังข้อมูลที่คุณต้องการวิเคราะห์ด้วย MapReduce สมมติว่าประโยคนี้คือ Bear Hunt Rabbit Hadoop MapReduce จะแยกย่อยและลดประโยคนี้ออกเป็นสามกลุ่มโดยแต่ละกลุ่มมีคำเดียว จากนั้นใช้คำเหล่านี้และสร้างการผสมผสานใหม่ด้วยการป้อนข้อมูลที่คล้ายกันในงานอื่นๆ ของคุณ เพื่อสร้างชุดข้อมูลที่เป็นเนื้อเดียวกันขั้นสุดท้ายพร้อมลบข้อมูลที่ไม่จำเป็นออกและสามารถวิเคราะห์ได้อย่างง่ายดาย
ผู้ดูแลสวนสัตว์
Zookeeper เป็นอีกหนึ่งส่วนย่อยของระบบนิเวศ Hadoop ที่เริ่มมีความโดดเด่นและใช้งานทั่วไปตั้งแต่แรกด้วยการเปิดตัว Hadoop เวอร์ชัน 2.0 จุดบริการหลักของ Zookeeper คือการประสานงานระหว่างการดำเนินการต่างๆ ที่คุณใช้งานอยู่โดยเป็นส่วนหนึ่งของอินสแตนซ์ Hadoop เดียว ด้วยเหตุนี้ Zookeeper จึงมักจะใช้ร่วมกับ Resource Manager ของ YARN และฟีเจอร์ต่างๆ ของ HDFS ใน Hadoop การใช้งานหลักของ Zookeeper ในการดำเนินการเหล่านี้คือการตรวจจับและแก้ไขจุดที่อาจเกิดความล้มเหลว โดยใช้เครื่องมือสองชนิดที่แตกต่างกัน: ZKFiloverControer และ Zookeeper Quorum
ในขั้นตอนเหล่านี้ โหนดข้อมูลที่จัดการโดยส่วนประกอบอื่นๆ ของสถาปัตยกรรม Hadoop จะถูกจัดประเภทเป็นเนมโหนดที่ใช้งานอยู่ ซึ่งดูแลโดยผู้ใช้ ต่อจากนั้น แต่ละเนมโหนดเหล่านี้จะถูกตรวจสอบภายในสองส่วนย่อยที่กล่าวมาข้างต้นของ Zookeeper ซึ่งทำเพื่อระบุพื้นที่ที่มีความยากและระบุความล้มเหลวที่อาจเกิดขึ้น
ติดตั้ง Hadoop บน Ubuntu 20.04 – คำแนะนำทีละขั้นตอน
และท้ายที่สุด หลังจากเรียนรู้เกี่ยวกับสถาปัตยกรรม Hadoop แล้ว ก็ถึงเวลาที่จะเข้าสู่เนื้อหาหลัก ซึ่งก็คือวิธีการติดตั้ง Hadoop บน Ubuntu 20.04 โดยเป็นส่วนสุดท้ายของบทช่วยสอน Hadoop นี้ มาดูข้อกำหนดเบื้องต้นก่อนที่จะไปยังคำแนะนำทีละขั้นตอนในการติดตั้ง Hadoop บน Ubuntu 20.04 โปรดทราบว่าคู่มือนี้สามารถใช้กับ Ubuntu 18.04 ได้เช่นกัน
ข้อกำหนดเบื้องต้น
ข้อกำหนดเบื้องต้นที่จำเป็นในการติดตั้ง Hadoop บน Ubuntu นั้นค่อนข้างง่าย สิ่งที่คุณต้องมีคือคอมพิวเตอร์ที่ใช้ Ubuntu พร้อมการเข้าถึงรูท มีทั้งแบบท้องถิ่นหรือเข้าถึงได้จากระยะไกลผ่านเซิร์ฟเวอร์ VPS เกี่ยวกับโปรแกรมที่จำเป็นต้องมี ตรวจสอบให้แน่ใจว่าคุณได้ติดตั้ง Java 11 และ SSH ไว้แล้ว หากคุณไม่มี ให้รันคำสั่งต่อไปนี้ทีละรายการเพื่อติดตั้ง:
sudo apt update && sudo apt upgrade -y
sudo apt install openssh-server openssh-client -y
sudo apt install openjdk-11-jdk -y
สำหรับใบอนุญาต คุณไม่จำเป็นต้องมีใบอนุญาตใดๆ เนื่องจาก Hadoop เป็นบริการฟรีและเป็นโอเพ่นซอร์ส นั่นคือทั้งหมดที่คุณต้องการ เรามาต่อกันที่ขั้นตอนที่หนึ่งกันดีกว่า
ขั้นตอนที่ 1: สร้างผู้ใช้ที่ไม่ใช่รูทสำหรับ Hadoop
สร้างผู้ใช้ที่ไม่ใช่รูทสำหรับ Hadoop ของคุณโดยใช้คำสั่งต่อไปนี้ นี่เป็นส่วนหนึ่งของการกำหนดค่าล่วงหน้าที่เราต้องทำก่อนดาวน์โหลดและติดตั้ง Hadoop จริง:
sudo adduser hdoop
su - hdoop
ขั้นตอนที่ 2: ตั้งค่าคีย์ SSH
เพื่อที่จะติดตั้ง Hadoop บน Ubuntu เราจะใช้ผู้ใช้ Hadoop ที่คุณเพิ่งสร้างขึ้น และใช้มันเพื่อทำการเชื่อมต่อ SSH ด้วย ใช้คำสั่งนี้เพื่อสร้างคู่คีย์ SSH และบันทึก:
ssh-keygen -t rsa -P '' -f ~/.ssh/id_rsa
เมื่อสร้างคีย์แล้ว บรรทัดต่อไปนี้จะช่วยให้คุณสามารถทำเครื่องหมายเป็นได้ ได้รับอนุญาต_คีย์ และบันทึกไว้ในไดเร็กทอรี SSH ของคุณ:
cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys
ตอนนี้ใช้คำสั่งนี้เพื่อให้แน่ใจว่าการเชื่อมต่อ SSH ของคุณมีสิทธิ์ที่จำเป็นทั้งหมด:
chmod 600 ~/.ssh/authorized_keys
chmod 700 ~/.ssh
ยืนยันการเปลี่ยนแปลงและคุณจะสามารถเชื่อมต่อกับโลคัลโฮสต์ของคุณได้อย่างง่ายดายตลอดเวลากับผู้ใช้ที่คุณสร้าง:
ssh localhost
ขั้นตอนที่ 3: ดาวน์โหลดและติดตั้ง Hadoop บน Ubuntu
ท่านสามารถเยี่ยมชมได้ที่ เว็บไซต์อาปาเช่ Hadoop เพื่อดูรายการเวอร์ชันพร้อมบันทึกการเปลี่ยนแปลงล่าสุด เลือกเวอร์ชันที่คุณชื่นชอบแล้วคุณจะเห็นลิงก์ที่สามารถใช้กับคำสั่งต่อไปนี้เพื่อดาวน์โหลดและติดตั้ง Hadoop บน Ubuntu ที่นี่ฉันกำลังเลือกเวอร์ชัน 3.3.6 แทนที่ '3.3.6' ด้วยเวอร์ชันเสถียรล่าสุดหากจำเป็น:
wget https://downloads.apache.org/hadoop/common/hadoop-3.3.6/hadoop-3.3.6.tar.gz
เมื่อการดาวน์โหลดเสร็จสิ้น ให้ใช้บรรทัดนี้เพื่อสิ้นสุดกระบวนการแตกไฟล์และติดตั้ง:
tar xzf hadoop-3.3.6.tar.gz
sudo mv hadoop-3.3.6 /usr/local/hadoop
sudo chown -R hdoop:hdoop /usr/local/hadoop
ขั้นตอนที่ 4: กำหนดค่าสภาพแวดล้อม Hadoop
ชุด JAVA_HOME in /usr/local/hadoop/etc/hadoop/hadoop-env.sh:
echo 'export JAVA_HOME=$(readlink -f /usr/bin/java | sed "s:bin/java::")' | sudo tee -a /usr/local/hadoop/etc/hadoop/hadoop-env.sh
ขั้นตอนที่ 5: แก้ไขไฟล์การกำหนดค่า
อัปเดตไฟล์การกำหนดค่า XML ของ Hadoop ด้วยการตั้งค่าคลัสเตอร์ของคุณ
nano /usr/local/hadoop/etc/hadoop/core-site.xml
ขั้นตอนที่ 6: ฟอร์แมต HDFS
เริ่มต้นเนมสเปซระบบไฟล์ Hadoop
/usr/local/hadoop/bin/hdfs namenode -format
ขั้นตอนที่ 7: เริ่มบริการ Hadoop
เปิดตัวบริการ HDFS และ YARN
/usr/local/hadoop/sbin/start-dfs.sh
/usr/local/hadoop/sbin/start-yarn.sh
ขั้นตอนที่ 8: ตรวจสอบการติดตั้ง
ตรวจสอบกระบวนการ Java ที่ทำงานอยู่เพื่อยืนยันว่า Hadoop กำลังทำงานอยู่
jps
ขั้นตอนที่ 9: เข้าถึงเว็บอินเตอร์เฟส
เปิดเว็บเบราว์เซอร์ไปยังอินเทอร์เฟซ NameNode และ ResourceManager ของ Hadoop
ชื่อโหนด: http://localhost:9870
ตัวจัดการทรัพยากร: http://localhost:8088
ขั้นตอนที่ 10: เรียกใช้ตัวอย่าง MapReduce
ดำเนินการงาน MapReduce ตัวอย่างเพื่อตรวจสอบการตั้งค่า
/usr/local/hadoop/bin/hdfs dfs -mkdir /input
/usr/local/hadoop/bin/hdfs dfs -put localfile.txt /input
/usr/local/hadoop/bin/hadoop jar
/usr/local/hadoop/share/hadoop/mapreduce/hadoop-mapreduce-examples-3.3.6.jar grep /input /output 'dfs[a-z.]+'
/usr/local/hadoop/bin/hdfs dfs -cat /output/*
ขั้นตอนที่ 11: ตั้งค่าตัวแปรสภาพแวดล้อม
เพิ่ม Hadoop's ถังขยะ และ สบิน ไดเร็กทอรีไปยัง PATH ของระบบ
echo 'export PATH=$PATH:/usr/local/hadoop/bin:/usr/local/hadoop/sbin' >> ~/.bashrc
source ~/.bashrc
และนั่นมัน! คุณเพิ่งจัดการกำหนดค่าและติดตั้ง Apache Hadoop บน Ubuntu 20.04 ได้สำเร็จ!
บทสรุป
โดยสรุป การติดตั้ง Hadoop บน Ubuntu 20.04 เป็นกระบวนการที่ละเอียดถี่ถ้วนซึ่งต้องการความเอาใจใส่อย่างพิถีพิถันและความพร้อมในการสำรวจความแตกต่างของการตั้งค่า ด้วยการปฏิบัติตามขั้นตอนที่ให้ไว้ในคู่มือนี้ ผู้ใช้ Ubuntu สามารถเริ่มต้นการเดินทางแห่งการเปลี่ยนแปลง โดยใช้ประโยชน์จากความสามารถที่สำคัญของ Hadoop เพื่อตระหนักถึงศักยภาพของการแสวงหาการวิเคราะห์ข้อมูลอย่างเต็มที่
คำแนะนำของฉันคือการปรับใช้ Hadoop เป็นการปรับใช้โหนดเดียวโดยใช้การกระจายแบบจำกัด หากคุณต้องการเรียนรู้และเล่นกับมันเท่านั้น เพื่อจุดประสงค์นี้ VPS จะทำงานได้อย่างสมบูรณ์แบบสำหรับคุณ Cloudzy เสนอโฮสต์ที่แตกต่างกันให้กับคุณ บริการลินุกซ์ VPS รวมถึงเกราะเหล็กที่เชื่อถือได้ อูบุนตู VPS ที่สามารถกำหนดค่าได้ในเวลาไม่นานเพื่อให้กลายเป็นสนามเด็กเล่นการเรียนรู้ Hadoop ที่สมบูรณ์แบบสำหรับคุณ เริ่มต้นที่ $4.95 ต่อเดือน คุณสามารถรับ Ubuntu VPS ของคุณเองได้มากกว่า 12 แห่งและการสนับสนุนที่เอาใจใส่ตลอด 24 ชั่วโมงทุกวัน!
ทางเลือกที่ชัดเจน
เซิร์ฟเวอร์ที่ใช้ Linux ส่วนใหญ่ใช้ Ubuntu; ทำไมไม่คุณ? ค้นพบว่าทำไมทุกคนถึงรัก Ubuntu — รับ Ubuntu VPS ที่ได้รับการปรับปรุง
รับ Ubuntu VPS ของคุณคำถามที่พบบ่อย
HDFS กับ MapReduce แตกต่างกันอย่างไร
แม้ว่าทั้งสองโมดูลจะอยู่ในระบบนิเวศของ Hadoop แต่ก็มีจุดประสงค์ที่แตกต่างกันออกไป HDFS ทำหน้าที่เป็นระบบไฟล์แบบกระจาย อำนวยความสะดวกในการเข้าถึงข้อมูล ในทางกลับกัน MapReduce มีความสามารถในการแยกย่อยและวิเคราะห์ข้อมูลขนาดใหญ่ได้อย่างมีประสิทธิภาพ
Hadoop ถือเป็นฐานข้อมูลหรือไม่
Hadoop ไม่ใช่ฐานข้อมูล แม้ว่าความเข้าใจผิดนี้จะเป็นเรื่องปกติก็ตาม แต่ทำงานเป็นระบบไฟล์แบบกระจายที่ช่วยให้สามารถจัดเก็บและประมวลผลข้อมูลจำนวนมากโดยใช้เครือข่ายของคอมพิวเตอร์ที่เชื่อมต่อถึงกัน ไม่ควรใช้แทนระบบฐานข้อมูลแบบเดิมโดยตรง
องค์ประกอบหลักสี่ประการของ Hadoop คืออะไร
Hadoop ประกอบด้วยองค์ประกอบหลักสี่องค์ประกอบ: HDFS (Hadoop Distributed File System), YARN (Yet Another Resource Negotiator), MapReduce และ Hadoop Common นอกจากนี้ แหล่งข้อมูลบางแห่งยังถือว่า ZooKeeper เป็นส่วนประกอบ แม้ว่าจะไม่ได้รับการยอมรับอย่างเป็นทางการก็ตาม
โดยทั่วไปแล้ว Hadoop จะใช้ที่ไหน?
Hadoop ค้นหาแอปพลิเคชันในโดเมนต่างๆ ซึ่งการจัดการ จัดเก็บ ประมวลผล และวิเคราะห์ข้อมูลขนาดใหญ่ถือเป็นสิ่งสำคัญ โดยรองรับการดำเนินงานตั้งแต่ธุรกิจขนาดกลางและโรงพยาบาลไปจนถึงสตาร์ทอัพที่กำลังเติบโต โดยให้บริการโซลูชั่นที่ขับเคลื่อนด้วยข้อมูล