คลัสเตอร์มินิพีซีล้านล้านพารามิเตอร์ของ AMD: สิ่งที่สเปคชีตข้ามไป

เมื่อปีก่อน การรันโมเดลภาษาขนาดล้านล้านพารามิเตอร์หมายถึงต้องมีห้องเซิร์ฟเวอร์ ตู้แร็ค ระบบทำความเย็น และค่าไฟที่ใหญ่จนต้องประชุมกันเอง จากนั้น AMD ก็เผยแพร่บทความสำหรับนักพัฒนาที่แสดงให้เห็นมินิพีซีสี่เครื่องวางอยู่บนโต๊ะ (ชนิดที่คุณยกได้ทีละสองเครื่อง) ทำงานเดียวกันได้ กล่องเล็กๆ สี่เครื่องที่เหมือนกัน ต่อสายเชื่อมกัน รันโมเดลที่มีพารามิเตอร์มากกว่าจำนวนดาวที่คุณมองเห็นได้จากถนนในเมือง

พาดหัวข่าวเขียนตัวเองได้เลย: "ไม่ต้องมีคลาวด์ ไม่ต้องมีดาต้าเซ็นเตอร์" และมันก็จริง AMD รันโมเดลขนาด 1.04 ล้านล้านพารามิเตอร์บน ระบบ Framework Desktop สี่เครื่องที่มีชิปสำหรับผู้บริโภคอยู่ข้างในจริงๆ

แต่มีส่วนหนึ่งที่พาดหัวข่าวข้ามไป และมันคือส่วนที่ตัดสินว่านี่คือก้าวสำคัญหรือเป็นแค่กลลวง มีรายละเอียดทางสถาปัตยกรรมที่ทำให้คำว่า "ล้านล้านพารามิเตอร์" ซื่อสัตย์ในเชิงเทคนิค มีข้อจำกัดที่ตัดสินว่าคุณจะใช้งานสิ่งนี้ได้จริงหรือไม่ และมีเหตุผลที่มันสำคัญมากกว่าที่ทั้งกระแสฮือฮาหรือเสียงวิจารณ์ให้เครดิตไว้

เวอร์ชันสั้น

โมเดลคือ Kimi K2.5 และมันเป็นดีไซน์แบบ Mixture-of-Experts: รวม 1.04 ล้านล้านพารามิเตอร์ แต่มีเพียงประมาณ 32 พันล้านตัวเท่านั้นที่ทำงานในแต่ละโทเคน คำว่า "โมเดลล้านล้านพารามิเตอร์" นั้นถูกต้อง แต่การประมวลผลต่อโทเคนนั้นใกล้เคียงกับงานระดับ 32B มากกว่า
คลัสเตอร์สร้างได้ราว 8 ถึง 9.5 โทเคนต่อวินาที โดยมีเวลาในการสร้างโทเคนแรกตั้งแต่ 39.7 ถึง 239.1 วินาที ขึ้นอยู่กับว่าพรอมต์ของคุณยาวแค่ไหน เหมาะกับงานแบบ batch แต่โหดร้ายสำหรับลูปการเขียนโค้ดแบบโต้ตอบ
สิ่งที่เปลี่ยนไปไม่ใช่ความเร็ว แต่เป็นเรื่องที่หน่วยความจำแบบรวม (unified memory) นำการอนุมานระดับแนวหน้ามาไว้บนฮาร์ดแวร์ที่คุณซื้อได้และวางบนชั้นได้ ซึ่งเป็นหมวดหมู่ที่เคยเริ่มต้นที่ "ต้องเป็นเจ้าของดาต้าเซ็นเตอร์"

สิ่งที่ AMD ทำจริงๆ

การติดตั้งแทบจะน่าผิดหวังเมื่อคุณเห็นมันวางเรียงกัน เครื่อง Framework Desktop สี่เครื่อง แต่ละเครื่องมี Ryzen AI Max+ 395 และหน่วยความจำแบบรวม LPDDR5X ขนาด 128 GB ใน BIOS แต่ละโหนดสามารถกำหนดให้ใช้เป็น VRAM โดยเฉพาะได้สูงสุด 96 GB หรือ 384 GB รวมทั้งสี่โหนด จากนั้นคู่มือ Linux ของ AMD ใช้การตั้งค่า TTM/kernel เพื่อเพิ่มเป็น 120 GB ต่อโหนด หรือรวม 480 GB เรื่องนี้สำคัญเพราะ Kimi K2.5 UD_Q2_K_XL GGUF เวอร์ชันที่ AMD ใช้นั้นระบุไว้ที่ 375 GB ไม่ใช่ 240 GB

ตัวเชื่อมคือ llama.cpp ที่รันใน โหมด RPC: โหนดควบคุมหนึ่งเครื่องและเซิร์ฟเวอร์ RPC สามเครื่อง โดยกระจายโมเดลไปทั่วทั้งสี่เครื่อง AMD ระบุการเชื่อมต่อระหว่างกันเป็น 5 Gbps Ethernet ซึ่งเข้ากับพอร์ต 5Gbit Ethernet ในตัวของ Framework Desktop นั่นคือชุดทั้งหมด ไม่มีการเชื่อมต่อแปลกประหลาด ไม่มีบอร์ดที่ทำขึ้นเอง ไม่มีอะไรที่คุณสั่งซื้อบ่ายนี้ไม่ได้

คำที่น่าสนใจในทั้งหมดนั้นคือ รวม (unified). บนพีซีทั่วไป RAM ของ CPU และ VRAM ของ GPU เป็นพูลที่แยกจากกัน และโมเดลที่ใหญ่เกินกว่า VRAM จะรับได้นั้นไม่ก็ไหลล้นไปยังหน่วยความจำระบบที่ช้า หรือไม่ก็รันไม่ได้ หน่วยความจำแบบรวมทลายกำแพงนั้นลง: GPU สามารถเข้าถึงหน่วยความจำทั้งก้อนได้ ซึ่งเป็นเหตุผลทั้งหมดที่ทำให้เดสก์ท็อปขนาด 4.5 ลิตรสามารถบรรจุส่วนหนึ่งของโมเดลขนาดนี้ได้ตั้งแต่แรก

บทความ เชิงเทคนิค ของ AMD เองครอบคลุมรายละเอียดการตั้งค่า สิ่งที่มันไม่ได้ครอบคลุมจริงๆ คือเหตุผลที่ว่าทำไม "ล้านล้านพารามิเตอร์" ถึงทำงานเชิงวาทศิลป์มากกว่าที่ดูเหมือน

Diagram of AMD's 4-node mini PC cluster: four Framework Desktop nodes with Ryzen AI Max+ 395 and 128 GB unified memory each, linked over 5 Gbps Ethernet as one controller and three RPC servers, running the 375 GB Kimi K2.5 GGUF build with 96 GB BIOS VRAM and 120 GB Linux allocation per node (480 GB total)

กลลวง: ทำไม "ล้านล้านพารามิเตอร์" ถึงจริง แต่ไม่ใช่ความจริงทั้งหมด

นี่คือสิ่งที่สเปคชีตพึ่งพาโดยไม่อธิบาย: Kimi K2.5 เป็นโมเดลแบบ Mixture-of-Experts และนั่นเปลี่ยนความหมายของ "ล้านล้านพารามิเตอร์" ในทางปฏิบัติ

โมเดลแบบ dense ซึ่งเป็นแบบที่คนส่วนใหญ่นึกถึง จะรันทุกพารามิเตอร์สำหรับทุกโทเคน โมเดล dense ขนาด 70 พันล้านพารามิเตอร์จะคำนวณคณิตศาสตร์เท่ากับ 70 พันล้านพารามิเตอร์ในทุกคำที่มันสร้างขึ้น โมเดลแบบ Mixture-of-Experts ถูกสร้างขึ้นต่างออกไป Kimi K2.5 มี "ผู้เชี่ยวชาญ" แยกกัน 384 ตัว โดย 8 ตัวจะทำงานต่อโทเคน บวกกับผู้เชี่ยวชาญที่ใช้ร่วมกันหนึ่งตัว ใน 61 เลเยอร์. ดังนั้นแม้โมเดลจะมีพารามิเตอร์รวม 1.04 ล้านล้านตัว แต่มีเพียงประมาณ 32 พันล้านตัวเท่านั้นที่ทำงานในแต่ละ forward pass มี router เลือกว่าจะปลุกผู้เชี่ยวชาญตัวไหน ที่เหลือก็นั่งอยู่เฉยๆ ไม่ทำอะไรสำหรับโทเคนนั้น

แล้วคำว่า "รันโมเดลล้านล้านพารามิเตอร์บนมินิพีซีสี่เครื่อง" ซื่อสัตย์ไหม? ใช่ คุณจำเป็นต้องมีหน่วยความจำเพื่อเก็บพารามิเตอร์ทั้ง 1.04 ล้านล้านตัวจริงๆ และหน่วยความจำคือส่วนที่ยาก แต่การประมวลผลที่ฮาร์ดแวร์ของคุณต้องทำต่อโทเคนนั้นเป็นงานระดับ 32B ไม่ใช่ระดับ 1T

ซึ่งตัดได้ทั้งสองทาง และนี่คือจุดที่เริ่มน่าสนใจ มันทำให้การสาธิตนี้ น่าประทับใจ มากกว่าที่ฟังดู เพราะการเก็บโมเดลขนาดล้านล้านพารามิเตอร์เต็มรูปแบบไว้ในหน่วยความจำบนกล่องสำหรับผู้บริโภคคือสิ่งที่ยากจริงๆ ที่พวกเขาทำสำเร็จ และมันก็ทำให้มัน น่าประทับใจ น้อยกว่าที่พาดหัวข่าวสื่อ เพราะภาระงานต่อโทเคนจริงๆ เป็นสิ่งที่กล่องเดี่ยวๆ ก็เคี้ยวผ่านได้เร็วกว่าอยู่แล้วบนโมเดล MoE ที่เล็กกว่า โมเดล MoE ขนาด 120B รันได้ที่ 50 กว่าโทเคนต่อวินาทีบน หนึ่งในโหนดเหล่านี้. ตัวเลขล้านล้านพารามิเตอร์นั้นจริง แต่มันคือการอวดหน่วยความจำ ไม่ใช่การอวดพลังประมวลผล

สิ่งที่ได้เรียนรู้: เมื่อคุณกำหนดขนาดฮาร์ดแวร์สำหรับโมเดล จำนวนพารามิเตอร์ที่ทำงานจริง (active parameter) คือสิ่งที่เครื่องของคุณต้องป้อนต่อโทเคน ไม่ใช่จำนวนรวมบนกล่อง

Mixture-of-Experts explainer: 1.04 trillion total parameters must be held in memory, an MoE router selects 8 of 384 experts plus one shared expert per token, so only about 32 billion parameters are active per token. Total parameters decide memory, active parameters decide per-token compute

ข้อจำกัด: 8 โทเคนต่อวินาทีและการรอ 40 วินาทีถึง 4 นาที หมายความว่าอย่างไรจริงๆ

แปดโทเคนต่อวินาทีคือตัวเลขที่ตัดสินทุกอย่าง ดังนั้นลองพิจารณามันสักครู่ บทความของ AMD รายงานว่าคลัสเตอร์สร้างได้ราว 8.30 t/s ที่ context ขนาด 8,192 โทเคน และราว 9.45 t/s ที่สถานะคงที่ โดยมีการประมวลผลพรอมต์ราว 100.77 t/s ตัวเลขเหล่านั้นถือว่าโอเคและยุติธรรมสำหรับสิ่งที่มันเป็น

ตัวที่เจ็บคือเวลาในการสร้างโทเคนแรก ก่อนที่โมเดลจะสร้างคำสักคำ มันต้องอ่านพรอมต์ของคุณก่อน และตารางเบนช์มาร์กของ AMD เองระบุเวลารอนั้นไว้ที่ 39.7 วินาทีสำหรับพรอมต์ขนาด 4,096 โทเคน, 90.5 วินาทีสำหรับพรอมต์ขนาด 8,192 โทเคน และ 239.1 วินาทีสำหรับพรอมต์ขนาด 16,384 โทเคนเมื่อเปิด Flash Attention ดังนั้นคุณพิมพ์คำถาม แล้วก็รอ อาจจะนานเกือบสี่นาทีก่อนที่อะไรจะกลับมา

สำหรับลูปการเขียนโค้ดแบบโต้ตอบ นั่นมันโหด และนักพัฒนาใน การสนทนาบน Hacker News ก็พูดตรงๆ ว่า: ความเงียบกว่าหนึ่งนาทีก่อนโทเคนแรกนั้นไม่เข้ากับวิธีที่ใครๆ ก็เขียนโค้ดด้วยผู้ช่วย แต่ลองพลิกภาระงานดู ถ้าคุณรันงาน batch ข้ามคืน ประมวลผลเอกสารแบบ async สร้างสิ่งที่คุณจะอ่านทีหลัง หรือทำการอนุมานแบบส่วนตัวที่จุดประสงค์ทั้งหมดคือไม่มีอะไรออกไปนอกอาคาร 8 โทเคนต่อวินาทีก็อยู่ได้สบายๆ คุณก็ไม่ได้นั่งจ้องหน้าจออยู่แล้ว

เครื่องหมายดอกจัน: อย่าคาดหวังว่าตัวเลขเหล่านี้จะทำซ้ำได้ทันทีโดยไม่ต้องปรับอะไร ซอฟต์แวร์สแตก ROCm บนฮาร์ดแวร์นี้อ่อนไหวต่อเวอร์ชันในแบบที่กัดเจ็บ: มี GitHub issue บันทึกไว้ ว่าระบบ Strix Halo ติดอยู่ที่ความเร็วสัญญาณนาฬิกา GPU ระดับ idle และคืบคลานที่ 0.5 t/s ภายใต้การอนุมาน LLM บน ROCm 7.1.1 และ Linux kernel 6.14 นั่นไม่ใช่ "AMD เสีย" แต่มันหมายความว่าประสิทธิภาพที่เผยแพร่นั้นขึ้นอยู่กับซอฟต์แวร์สแตกที่เฉพาะเจาะจงมาก และคุณอาจต้องไล่หาชุดผสมของ ROCm, kernel และเฟิร์มแวร์ก่อนที่เครื่องของคุณจะได้ตัวเลขตรงกับในบทความ

อีกเรื่องหนึ่งที่เสียงวิจารณ์เข้าใจผิด คือเรื่องต้นทุน ผู้คนเรียกมันว่า "คลัสเตอร์ราคา $10,000" แต่ไม่มีใครเผยแพร่ตัวเลขนั้นเป็นรายการวัสดุที่ตายตัว ลองคำนวณดูเอง: Framework Desktop ขนาด 128 GB สี่เครื่องที่ราคาเปิดตัว $1,999 จะทำให้เฉพาะตัวเครื่องอยู่ที่ราว $8,000 ขณะที่ สแนปช็อตจาก Liliputing เดือนมีนาคม 2026 ระบุการกำหนดค่า Framework Desktop ขนาด 128GB/1TB ไว้ที่ $2,851 หรือราว $11,400 สำหรับสี่เครื่องก่อนรวมระบบเครือข่าย เพิ่มอีกไม่กี่ร้อยดอลลาร์สำหรับสวิตช์และสายเคเบิล ช่วงราคาในทางปฏิบัติก็ใกล้เคียงกับราว $8.2K ถึง $11.7K ขึ้นอยู่กับการกำหนดค่า วันที่ซื้อ และสิ่งที่คุณมีอยู่แล้ว ไม่ใช่ของฟรี แต่ก็ไม่ใช่ห้องเซิร์ฟเวอร์เช่นกัน

นี่คือจุดที่ผมลงเอยกับทั้งเรื่องนี้: คลัสเตอร์ใช้งานได้ ส่วนแปดโทเคนต่อวินาทีและการรอกว่าหนึ่งนาทีจะเป็นชัยชนะหรือของเล่นนั้นขึ้นอยู่กับว่าคุณพยายามสร้างอะไรล้วนๆ มันไม่ใช่เวิร์กสเตชันเขียนโค้ดแบบโต้ตอบ มันก็ไม่ใช่ของเล่นเช่นกัน มันคือเครื่องจริงสำหรับงานที่ต้องใช้ความอดทนแบบเฉพาะเจาะจง และการแสร้งว่ามันเป็นมากกว่าหรือน้อยกว่านั้นคือสาเหตุที่ทุกคนในข้อโต้แย้งนี้ลงเอยด้วยการพูดคนละเรื่องกัน

เรื่องนี้ลงเอยตรงไหนจริงๆ

กรอบความคิดที่ซื่อสัตย์ไม่ใช่ "AMD เอาชนะ Nvidia" แต่เป็นว่านี่คือผลิตภัณฑ์ที่แตกต่างสำหรับคนที่แตกต่าง ผู้อ่านที่ต้องการสิ่งนี้คือคนที่ต้องการความเป็นส่วนตัว ต้องการใช้งานออฟไลน์ หรือไม่อยากจ่ายต่อโทเคนไปตลอด ไม่ใช่คนที่ไล่ตามการตอบสนองที่เร็วที่สุดเท่าที่จะเป็นไปได้

และข้อโต้แย้งที่แข็งแกร่งที่สุดต่อทั้งโครงการนี้สมควรได้รับคำตอบตรงๆ: คุณก็แค่เรียก API ของ Kimi ได้เลย ปัจจุบัน Artificial Analysis ระบุ endpoint K2.5 ของ Kimi เอง ไว้ที่ราว 56 ถึง 60 โทเคนต่อวินาที โดยมีราคาผสมราว $0.49 ต่อล้านโทเคน ขณะที่ แพลตฟอร์ม API อย่างเป็นทางการของ Kimi ระบุราคา K2.5 ไว้ที่ $0.10/M สำหรับ input โทเคนแบบ cache-hit, $0.60/M สำหรับ input โทเคน และ $3.00/M สำหรับ output โทเคน ผู้ให้บริการ K2.5 จากบุคคลที่สามอาจเร็วกว่าหรือถูกกว่าขึ้นอยู่กับการกำหนดเส้นทาง แต่ประเด็นพื้นฐานก็เหมือนเดิม: API เร็วกว่าคลัสเตอร์ ไม่ต้องคอยดูแลฮาร์ดแวร์ และจะเป็นทางเลือกที่ถูกต้องสำหรับคนส่วนใหญ่ในวันส่วนใหญ่

ดังนั้นเรื่องราวของการใช้งานในเครื่อง (local) จะสมเหตุสมผลก็ต่อเมื่อหนึ่งในสามสิ่งนี้เป็นจริง: ข้อมูลออกไปไม่ได้ (ความเป็นส่วนตัว), การเชื่อมต่อไว้วางใจไม่ได้ (ออฟไลน์) หรือปริมาณโทเคนสูงพอและต่อเนื่องพอจนการเป็นเจ้าของเครื่องคุ้มกว่าการเช่าไปตลอด (ต้นทุนที่ระดับสเกล) นอกเหนือจากสามข้อนั้น API ชนะ ภายในสามข้อนั้น คลัสเตอร์คือสิ่งเดียวที่ทำงานนี้ได้เลย

มิติ	คลัสเตอร์ 4 โหนดของ AMD	เส้นทาง Kimi API / คลาวด์
ความเร็วในการสร้าง	~8 ถึง 9.5 t/s	~56 ถึง 60 t/s บน endpoint K2.5 ของ Kimi เอง
เวลาในการสร้างโทเคนแรก	39.7 ถึง 239.1 วินาที	ขึ้นอยู่กับผู้ให้บริการ ต่ำกว่ามาก
โมเดลต้นทุน	ฮาร์ดแวร์ราว $8.2K ถึง $11.7K	ราคา API แบบต่อโทเคน
ความเป็นส่วนตัว / ออฟไลน์	ในเครื่องทั้งหมด	โฮสต์โดยผู้ให้บริการ
กรณีใช้งานที่เหมาะที่สุด	งานส่วนตัว ออฟไลน์ แบบ batch	การใช้งานแบบโต้ตอบ/API

ขอบันทึกไว้ว่า Nvidia DGX Spark คือตัวเลือก "แต่แล้ว..." ที่ชัดเจนตรงนี้ และมันชนะในบางแกนที่คลัสเตอร์ AMD ไม่ชนะ นั่นเป็นการต่อสู้ที่แยกออกไปอีกเรื่องหนึ่ง และเป็นเรื่องที่ผมจะหยิบยกขึ้นมาที่อื่น ถ้าคุณต้องการด้านการเช่าของการตัดสินใจระหว่างฮาร์ดแวร์กับคลาวด์ หน้า GPU VPS ของ Cloudzy คือจุดเปรียบเทียบที่ใช้งานได้จริงกว่า

ส่วนที่สำคัญจริงๆ

ลอกอัตราโทเคนและข้อโต้แย้งเรื่องราคาออกไป แล้วข้อเท็จจริงหนึ่งก็ยังยืนอยู่: ฮาร์ดแวร์ที่รันโมเดลล้านล้านพารามิเตอร์ตอนนี้คือชั้นวาง ไม่ใช่อาคาร

นั่นคือการเปลี่ยนแปลง และมันง่ายที่จะมองข้ามท่ามกลางการเถียงเรื่องความเร็ว เมื่อปีก่อน หมวดหมู่ ของคนที่สามารถรันโมเดลขนาด 1.04 ล้านล้านพารามิเตอร์ได้คือ "ผู้ดำเนินการดาต้าเซ็นเตอร์" จบแค่นั้น ตอนนี้มันรวมถึงใครก็ตามที่มีเงินราวหนึ่งหมื่นดอลลาร์และความอดทนสักหน่อย เส้นแบ่งไม่ได้ขยับนิดเดียว: คนกลุ่มใหม่ทั้งกลุ่มเพิ่งเดินผ่านประตูที่เคยถูกล็อกไว้

สิ่งที่มันเปิดออกคือส่วนที่น่าสนใจ เอเจนต์ส่วนตัวที่รันบนฮาร์ดแวร์ที่คุณเป็นเจ้าของทั้งหมด การอนุมานที่ทำงานได้บนเครื่องบินหรือหลัง air gap โมเดลที่ไม่สามารถส่งข้อมูลกลับบ้านได้ทางกายภาพเพราะไม่มีที่ให้การเชื่อมต่อนั้นไป เศรษฐศาสตร์ของ AI ที่ต้นทุนส่วนเพิ่มของหนึ่งโทเคนคือค่าไฟฟ้าแทนที่จะเป็นสาย API แบบมิเตอร์ ไม่มีอะไรในนั้นที่เข้าถึงได้บนฮาร์ดแวร์สำหรับผู้บริโภคเมื่อปีก่อน และหน่วยความจำแบบรวมคือสิ่งที่ทำให้เข้าถึงมันได้

ผมเห็นรูปแบบนี้มาบ่อยพอจนระวังคำว่า "สิ่งนี้เปลี่ยนทุกอย่าง" โดยปกติแล้วมันไม่เปลี่ยน โดยปกติแล้วมันคือของเมื่อปีก่อนที่มีโลโก้ใหม่ ครั้งนี้แตกต่าง และไม่ใช่เพราะมันเร็ว มันแตกต่างเพราะพื้นได้ขยับลง เวอร์ชันที่ช้า แพง และต้องใช้ความอดทนของการอนุมานในเครื่องระดับแนวหน้ามีอยู่จริงแล้ว และเวอร์ชันที่เร็วก็เป็นแค่เรื่องของฮาร์ดแวร์อีกไม่กี่รุ่นถัดไปที่จะบดมันให้เล็กลง ส่วนที่ยากไม่เคยจะเป็นความเร็ว ส่วนที่ยากคือการเข้าถึง และการเข้าถึงเพิ่งเกิดขึ้น

ก้าวสำคัญตรงนี้ไม่ใช่ความเร็ว แต่คือว่าใครได้รับอนุญาตให้เข้ามาในห้อง เครื่องที่รันโมเดลระดับแนวหน้าเคยเป็นอาคาร ตอนนี้มันคือกล่องสี่เครื่องบนชั้นวาง

คำถามที่พบบ่อย

คุณรันโมเดลล้านล้านพารามิเตอร์บนคลัสเตอร์มินิพีซีได้จริงหรือ?

ได้ โดยมีข้อแม้สำคัญหนึ่งข้อ AMD รัน Kimi K2.5 ซึ่งเป็นโมเดลขนาด 1.04 ล้านล้านพารามิเตอร์ บนมินิพีซี Ryzen AI Max+ 395 สี่เครื่อง ใน BIOS ระบบทั้งสี่สามารถกำหนดให้ใช้เป็น VRAM โดยเฉพาะได้รวมราว 384 GB จากนั้นคู่มือ Linux ของ AMD เพิ่มการจัดสรรเป็นรวม 480 GB ผ่านการตั้งค่า TTM/kernel แต่ Kimi K2.5 เป็นโมเดลแบบ Mixture-of-Experts: จากพารามิเตอร์ 1.04 ล้านล้านตัวนั้น มีเพียงประมาณ 32 พันล้านตัวที่ทำงานในแต่ละโทเคน คุณต้องมีหน่วยความจำเพื่อเก็บทั้งหมด แต่การประมวลผลต่อโทเคนใกล้เคียงกับงานขนาด 32 พันล้านพารามิเตอร์มากกว่า

Kimi K2.5 คืออะไรและทำไมสถาปัตยกรรม MoE ถึงสำคัญตรงนี้?

Kimi K2.5 เป็นโมเดลภาษาแบบ open-weight จาก Moonshot AI ที่มีพารามิเตอร์รวม 1.04 ล้านล้านตัว และทำงานจริง 32 พันล้านตัวต่อ forward pass สร้างขึ้นบนดีไซน์ Mixture-of-Experts (ผู้เชี่ยวชาญ 384 ตัว ทำงาน 8 ตัวต่อโทเคนบวกที่ใช้ร่วมกันหนึ่งตัว) สถาปัตยกรรมนี้สำคัญเพราะจำนวนพารามิเตอร์ที่ทำงานจริง ไม่ใช่จำนวนรวม คือสิ่งที่ฮาร์ดแวร์ของคุณต้องคำนวณสำหรับแต่ละโทเคน นั่นคือเหตุผลที่โมเดลที่บนกระดาษมีล้านล้านพารามิเตอร์สามารถรันบนกล่องสำหรับผู้บริโภคได้เลย

8 โทเคนต่อวินาทีเร็วพอสำหรับ AI ในเครื่องหรือไม่?

ขึ้นอยู่กับภาระงานล้วนๆ สำหรับการประมวลผลแบบ batch, งาน async, การใช้งานออฟไลน์ หรือการอนุมานส่วนตัวที่ไม่มีอะไรออกไปจากฮาร์ดแวร์ของคุณได้ 8 โทเคนต่อวินาทีก็โอเค คุณไม่ได้นั่งจ้องหน้าจออยู่ สำหรับการเขียนโค้ดแบบโต้ตอบ มันโหด ส่วนใหญ่เพราะเวลาในการสร้างโทเคนแรกบนคลัสเตอร์นี้อยู่ที่ราว 40 วินาทีถึงเกือบ 4 นาทีขึ้นอยู่กับความยาวพรอมต์ และความเงียบก่อนคำแรกนั้นฆ่าลูปแบบ iterative

ทำไมไม่ใช้ API ของ Kimi แทนล่ะ?

สำหรับคนส่วนใหญ่ คุณควรใช้ endpoint K2.5 ของ Kimi เองนั้นเร็วกว่าคลัสเตอร์ในเครื่องมากในข้อมูลปัจจุบันของ Artificial Analysis และผู้ให้บริการ K2.5 จากบุคคลที่สามอาจเร็วกว่าหรือถูกกว่าอีก ฮาร์ดแวร์ในเครื่องจะสมเหตุสมผลก็ต่อเมื่อคุณต้องการความเป็นส่วนตัว (ข้อมูลออกไปไม่ได้), ความสามารถออฟไลน์ (ไม่มีการเชื่อมต่อให้ไว้วางใจ) หรือต้นทุนที่ระดับสเกล (ปริมาณสูงต่อเนื่องที่การเป็นเจ้าของชนะการเช่า) นอกเหนือจากกรณีเหล่านั้น API คือทางเลือกที่ดีกว่า

AMD สร้างซูเปอร์คอมพิวเตอร์ AI ล้านล้านพารามิเตอร์จากมินิพีซี