Cụm Mini PC Nghìn Tỷ Tham Số của AMD: Điều Bảng Thông Số Bỏ Qua

Một năm trước, chạy một mô hình ngôn ngữ nghìn tỷ tham số đồng nghĩa với cả một phòng máy chủ. Những giá đỡ rack, hệ thống làm mát, một hóa đơn điện cần họp riêng để bàn. Rồi AMD công bố một bài viết kỹ thuật cho lập trình viên cho thấy bốn chiếc mini PC đặt trên bàn làm việc (loại mà bạn có thể xách hai chiếc cùng lúc) làm cùng một công việc đó. Bốn chiếc hộp nhỏ giống hệt nhau, nối cáp với nhau, chạy một mô hình có nhiều tham số hơn cả số ngôi sao bạn nhìn thấy được từ một con phố trong thành phố.

Tiêu đề tự nó đã nói lên tất cả: "Không cloud. Không trung tâm dữ liệu." Và điều đó đúng. AMD thực sự đã chạy một mô hình 1,04 nghìn tỷ tham số trên bốn hệ thống Framework Desktop với silicon tiêu dùng bên trong.

Nhưng có một phần mà tiêu đề bỏ qua, và đó chính là phần quyết định liệu đây là một cột mốc hay một màn ảo thuật. Có một chi tiết kiến trúc khiến "nghìn tỷ tham số" trở nên trung thực về mặt kỹ thuật, một điểm bất lợi quyết định liệu bạn có thực sự dùng được thứ này hay không, và một lý do khiến nó quan trọng hơn cả lời tung hô lẫn sự phản ứng dữ dội đánh giá.

Phiên bản ngắn gọn

Mô hình là Kimi K2.5, và nó là một thiết kế Mixture-of-Experts: tổng cộng 1,04 nghìn tỷ tham số, nhưng chỉ khoảng 32 tỷ trong số đó kích hoạt trên bất kỳ token nào. "Mô hình nghìn tỷ tham số" là chính xác; nhưng lượng tính toán trên mỗi token gần với khối lượng công việc cỡ 32B hơn.
Cụm máy này tạo ra khoảng 8 đến 9,5 token mỗi giây, với thời gian đến token đầu tiên dao động từ 39,7 đến 239,1 giây tùy thuộc vào độ dài prompt của bạn. Ổn cho công việc theo lô. Khắc nghiệt cho một vòng lặp lập trình tương tác.
Thứ thay đổi không phải tốc độ. Mà là bộ nhớ hợp nhất đã đưa suy luận quy mô tiên phong lên phần cứng bạn có thể mua và đặt trên kệ, một hạng mục từng phải bắt đầu bằng việc "sở hữu một trung tâm dữ liệu."

AMD Thực Sự Đã Làm Gì

Cấu hình gần như tẻ nhạt một khi bạn thấy nó được bày ra. Bốn máy Framework Desktop , mỗi máy mang một Ryzen AI Max+ 395 và 128 GB bộ nhớ hợp nhất LPDDR5X. Trong BIOS, mỗi node có thể phơi bày tối đa 96 GB làm VRAM chuyên dụng, hay 384 GB trên cả bốn node; sau đó hướng dẫn Linux của AMD dùng các thiết lập TTM/kernel để nâng con số đó lên 120 GB mỗi node, hay tổng cộng 480 GB. Điều đó quan trọng vì bản dựng Kimi K2.5 UD_Q2_K_XL GGUF mà AMD sử dụng được liệt kê ở mức 375 GB, không phải 240 GB.

Chất keo gắn kết là llama.cpp chạy ở chế độ RPC: một node điều khiển và ba RPC server, với mô hình được phân tán trên cả bốn máy. AMD liệt kê kết nối liên thông là Ethernet 5 Gbps, vừa khớp với cổng Ethernet 5Gbit tích hợp của Framework Desktop. Đó là toàn bộ dàn máy. Không có kết nối liên thông kỳ lạ, không có bo mạch tùy chỉnh, không có gì mà bạn không thể đặt mua ngay chiều nay.

Từ thú vị trong tất cả những điều đó là hợp nhất. Trên một chiếc PC thông thường, RAM của CPU và VRAM của GPU là những bể nhớ riêng biệt, và một mô hình quá lớn so với VRAM thì hoặc tràn sang bộ nhớ hệ thống chậm chạp hoặc không chạy được. Bộ nhớ hợp nhất phá sập bức tường đó: GPU có thể truy cập toàn bộ ngăn nhớ, và đó chính là toàn bộ lý do một chiếc desktop 4,5 lít có thể chứa một phần của mô hình cỡ này ngay từ đầu.

Bài viết kỹ thuật của chính AMD trình bày chi tiết về cấu hình. Thứ mà nó không thực sự đề cập đến là tại sao "nghìn tỷ tham số" lại đảm nhận nhiều vai trò tu từ hơn vẻ ngoài của nó.

Diagram of AMD's 4-node mini PC cluster: four Framework Desktop nodes with Ryzen AI Max+ 395 and 128 GB unified memory each, linked over 5 Gbps Ethernet as one controller and three RPC servers, running the 375 GB Kimi K2.5 GGUF build with 96 GB BIOS VRAM and 120 GB Linux allocation per node (480 GB total)

Mánh Khóe: Tại Sao "Nghìn Tỷ Tham Số" Là Đúng Nhưng Không Phải Toàn Bộ Sự Thật

Đây là điều mà bảng thông số dựa vào mà không giải thích: Kimi K2.5 là một mô hình Mixture-of-Experts, và điều đó thay đổi ý nghĩa của "nghìn tỷ tham số" trong thực tế.

Một mô hình dense, loại mà hầu hết mọi người hình dung, chạy mọi tham số cho mọi token. Một mô hình dense 70 tỷ tham số thực hiện lượng tính toán tương đương 70 tỷ tham số cho mỗi từ nó tạo ra. Một mô hình Mixture-of-Experts được xây dựng khác đi. Kimi K2.5 có 384 "expert" riêng biệt, 8 trong số đó kích hoạt trên mỗi token cộng với một expert dùng chung, trải trên 61 lớp. Vậy nên dù mô hình mang tổng cộng 1,04 nghìn tỷ tham số, chỉ khoảng 32 tỷ trong số đó được kích hoạt trên bất kỳ lượt truyền xuôi nào. Một bộ định tuyến chọn expert nào để đánh thức; số còn lại nằm yên không làm gì cho token đó.

Vậy "chạy một mô hình nghìn tỷ tham số trên bốn mini PC" có trung thực không? Có, bạn thực sự cần bộ nhớ để chứa toàn bộ 1,04 nghìn tỷ tham số, và bộ nhớ đó là phần khó. Nhưng lượng tính toán mà phần cứng của bạn phải thực hiện trên mỗi token là công việc cỡ 32B, không phải cỡ 1T.

Điều này cắt theo cả hai hướng, và đây là chỗ trở nên thú vị. Nó khiến màn trình diễn ấn tượng hơn so với vẻ ngoài, vì giữ trọn một mô hình nghìn tỷ tham số đầy đủ trong bộ nhớ trên các hộp máy tiêu dùng là điều thực sự khó mà họ đã làm được. Và nó cũng khiến nó kém ấn tượng hơn so với những gì tiêu đề ngụ ý, vì khối lượng công việc thực tế trên mỗi token là thứ mà những hộp máy đơn lẻ đã xử lý nhanh hơn trên các mô hình MoE nhỏ hơn. Một mô hình MoE 120B chạy ở tốc độ hơn 50 token mỗi giây trên một trong những node này. Con số nghìn tỷ tham số là thật, nhưng nó là màn khoe bộ nhớ, không phải màn khoe tính toán.

Điều rút ra: khi bạn định cỡ phần cứng cho một mô hình, số tham số kích hoạt mới là thứ máy của bạn phải nạp trên mỗi token, không phải tổng số trên hộp máy.

Mixture-of-Experts explainer: 1.04 trillion total parameters must be held in memory, an MoE router selects 8 of 384 experts plus one shared expert per token, so only about 32 billion parameters are active per token. Total parameters decide memory, active parameters decide per-token compute

Điểm Bất Lợi: 8 Token Mỗi Giây và Một Khoảng Chờ 40 Giây Đến 4 Phút Thực Sự Có Nghĩa Là Gì

Tám token mỗi giây là con số quyết định mọi thứ, nên hãy dừng lại với nó một chút. Bài viết của AMD báo cáo cụm máy tạo ra khoảng 8,30 t/s ở ngữ cảnh 8.192 token và khoảng 9,45 t/s ở trạng thái ổn định, với xử lý prompt khoảng 100,77 t/s. Đó là những con số ổn, hợp lý cho những gì chúng vốn là.

Con số gây đau đớn là thời gian đến token đầu tiên. Trước khi mô hình tạo ra một từ duy nhất, nó phải đọc prompt của bạn, và bảng benchmark của chính AMD đặt khoảng chờ đó ở mức 39,7 giây cho một prompt 4.096 token, 90,5 giây cho một prompt 8.192 token, và 239,1 giây cho một prompt 16.384 token với Flash Attention được bật. Vậy nên bạn gõ một câu hỏi, rồi bạn chờ. Có thể gần bốn phút, trước khi bất cứ thứ gì hiện ra.

Đối với một vòng lặp lập trình tương tác, điều đó thật khắc nghiệt, và các lập trình viên trong cuộc thảo luận trên Hacker News đã nói thẳng như vậy: một phút trở lên im lặng trước token đầu tiên không phù hợp với cách bất kỳ ai viết code cùng một trợ lý. Nhưng hãy lật ngược khối lượng công việc lại. Nếu bạn chạy các tác vụ theo lô qua đêm, xử lý tài liệu bất đồng bộ, tạo ra những thứ bạn sẽ đọc sau, hoặc làm suy luận riêng tư mà toàn bộ mục đích là không có gì rời khỏi tòa nhà, thì 8 token mỗi giây là hoàn toàn chấp nhận được. Dù sao bạn cũng không ngồi nhìn màn hình.

Dấu sao cần lưu ý: Đừng kỳ vọng những con số này tái lập ngay khi mở hộp. Ngăn xếp phần mềm ROCm trên phần cứng này nhạy cảm với phiên bản theo những cách gây khó chịu: một issue trên GitHub đã ghi lại một hệ thống Strix Halo bị kẹt ở xung GPU nhàn rỗi và bò chậm ở 0,5 t/s dưới suy luận LLM trên ROCm 7.1.1 và Linux kernel 6.14. Đó không phải "AMD bị hỏng," nhưng nó có nghĩa là hiệu năng được công bố phụ thuộc vào một ngăn xếp phần mềm rất cụ thể, và bạn có thể sẽ phải chật vật săn lùng các tổ hợp ROCm, kernel, và firmware trước khi dàn máy của bạn đạt được các con số trong bài viết.

Còn một điều nữa mà sự phản ứng dữ dội hiểu sai, đó là chi phí. Người ta cứ gọi nó là một "cụm máy 10.000 đô," nhưng không ai công bố con số đó như một bảng vật tư cố định. Hãy tự làm phép tính: bốn chiếc Framework Desktop 128 GB ở mức giá ra mắt 1.999 đô sẽ khiến riêng các máy đã vào khoảng 8.000 đô, trong khi một bản chụp của Liliputing vào tháng 3 năm 2026 liệt kê một cấu hình Framework Desktop 128GB/1TB ở mức 2.851 đô, hay khoảng 11.400 đô cho bốn máy trước khi tính mạng. Cộng thêm vài trăm đô cho switch và cáp, và khoảng thực tế gần với chừng 8,2K đến 11,7K đô tùy thuộc vào cấu hình, ngày mua, và những gì bạn đã có sẵn. Không phải là không có gì. Cũng không phải một phòng máy chủ.

Đây là chỗ tôi đứng về toàn bộ chuyện này: cụm máy hoạt động. Liệu tám token mỗi giây và một khoảng chờ một phút trở lên là một chiến thắng hay một món đồ chơi hoàn toàn phụ thuộc vào thứ bạn đang cố xây dựng. Nó không phải một máy trạm lập trình tương tác. Nó cũng không phải một món đồ chơi. Nó là một cỗ máy thực sự cho một loại công việc kiên nhẫn cụ thể, và việc giả vờ rằng nó hơn hoặc kém thế là cách mà mọi người trong cuộc tranh luận này rốt cuộc nói qua nói lại mà chẳng ai hiểu ai.

Nơi Điều Này Thực Sự Đứng

Khung nhìn trung thực không phải "AMD đánh bại Nvidia." Mà là đây là một sản phẩm khác cho một người khác. Người đọc muốn thứ này là người cần sự riêng tư, muốn offline, hoặc không muốn trả tiền theo từng token mãi mãi, chứ không phải người đang săn lùng phản hồi nhanh nhất có thể.

Và lập luận mạnh nhất chống lại toàn bộ bài tập này xứng đáng có một câu trả lời thẳng thắn: bạn chỉ cần gọi API của Kimi. Artificial Analysis hiện liệt kê endpoint K2.5 của chính Kimi ở khoảng 56 đến 60 token mỗi giây với mức giá trộn khoảng 0,49 đô mỗi triệu token, trong khi nền tảng API chính thức của Kimi liệt kê giá K2.5 ở mức 0,10 đô/M token đầu vào trúng cache, 0,60 đô/M token đầu vào, và 3,00 đô/M token đầu ra. Các nhà cung cấp K2.5 bên thứ ba có thể nhanh hơn hoặc rẻ hơn tùy thuộc vào định tuyến, nhưng điểm cơ bản vẫn như nhau: API nhanh hơn cụm máy, tránh việc phải trông nom phần cứng, và sẽ là lựa chọn đúng đắn cho hầu hết mọi người trong hầu hết các ngày.

Vậy nên câu chuyện chạy cục bộ chỉ có ý nghĩa khi một trong ba điều là đúng: dữ liệu không thể rời đi (riêng tư), kết nối không thể giả định là có (offline), hoặc khối lượng token đủ cao và đủ bền bỉ đến mức sở hữu phần cứng đánh bại việc thuê mãi mãi (chi phí ở quy mô lớn). Ngoài ba điều đó, API thắng. Trong ba điều đó, cụm máy là thứ duy nhất hoàn thành được công việc.

Khía cạnh	Cụm 4 node của AMD	Tuyến API / cloud của Kimi
Tốc độ tạo sinh	~8 đến 9,5 t/s	~56 đến 60 t/s trên endpoint K2.5 của chính Kimi
Thời gian đến token đầu tiên	39,7 đến 239,1 s	phụ thuộc vào nhà cung cấp, thấp hơn nhiều
Mô hình chi phí	~8,2K đến 11,7K đô phần cứng	giá API theo từng token
Riêng tư / offline	hoàn toàn cục bộ	lưu trữ bởi nhà cung cấp
Trường hợp dùng phù hợp nhất	công việc riêng tư, offline, theo lô	dùng tương tác/API

Để cho rõ ràng, DGX Spark của Nvidia là cái "nhưng còn" hiển nhiên ở đây, và nó thắng trên một số trục mà cụm máy AMD không thắng. Đó là cả một cuộc chiến riêng, và là cuộc chiến mà tôi sẽ bàn ở nơi khác. Nếu bạn muốn khía cạnh thuê trong quyết định phần cứng-hay-cloud, GPU VPS của Cloudzy là điểm so sánh thực tế hơn.

Phần Thực Sự Quan Trọng

Gạt bỏ tốc độ token và các lập luận về giá, một sự thật vẫn đứng vững: phần cứng chạy một mô hình nghìn tỷ tham số giờ đây là một chiếc kệ, không phải một tòa nhà.

Đó là sự dịch chuyển, và nó dễ bị bỏ sót dưới những lời cãi vã về tốc độ. Một năm trước, nhóm người có thể chạy một mô hình 1,04 nghìn tỷ tham số là "những người vận hành trung tâm dữ liệu." Hết. Giờ nó bao gồm bất kỳ ai có khoảng mười nghìn đô và một chút kiên nhẫn. Lằn ranh không nhích lên một chút: cả một nhóm người hoàn toàn mới vừa bước qua một cánh cửa từng bị khóa.

Thứ mà điều đó mở ra mới là phần thú vị. Những agent riêng tư chạy hoàn toàn trên phần cứng bạn sở hữu. Suy luận hoạt động trên máy bay hoặc sau một air gap. Những mô hình về mặt vật lý không thể gọi về nhà vì chẳng có chỗ nào để cuộc gọi đi đến. Một nền kinh tế học AI nơi chi phí biên của một token là điện thay vì một đường API tính theo lượng dùng. Không điều nào trong số đó có thể với tới được trên phần cứng tiêu dùng một năm trước, và bộ nhớ hợp nhất là thứ đã với tới nó.

Tôi đã chứng kiến khuôn mẫu này đủ nhiều lần để dè dặt với câu "điều này thay đổi mọi thứ." Thường thì không; thường thì đó là thứ của năm ngoái với một logo mới. Lần này thì khác, và không phải vì nó nhanh. Nó khác vì cái sàn đã dịch chuyển. Phiên bản chậm, đắt, kiên nhẫn của suy luận cục bộ quy mô tiên phong giờ đã tồn tại, và phiên bản nhanh chỉ là vấn đề của vài thế hệ phần cứng tiếp theo mài giũa nó xuống. Phần khó chưa bao giờ là tốc độ. Phần khó là sự tiếp cận, và sự tiếp cận vừa mới xảy ra.

Cột mốc ở đây không phải tốc độ. Mà là ai được phép vào trong phòng. Cỗ máy chạy các mô hình quy mô tiên phong từng là một tòa nhà. Giờ nó là bốn chiếc hộp trên một chiếc kệ.

Câu hỏi thường gặp

Bạn Có Thể Thực Sự Chạy Một Mô Hình Nghìn Tỷ Tham Số Trên Một Cụm Mini PC Không?

Có, với một điểm lưu ý quan trọng. AMD đã chạy Kimi K2.5, một mô hình 1,04 nghìn tỷ tham số, trên bốn mini PC Ryzen AI Max+ 395. Trong BIOS, bốn hệ thống có thể phơi bày tổng cộng khoảng 384 GB VRAM chuyên dụng; sau đó hướng dẫn Linux của AMD nâng phân bổ lên tổng cộng 480 GB thông qua các thiết lập TTM/kernel. Nhưng Kimi K2.5 là một mô hình Mixture-of-Experts: trong số 1,04 nghìn tỷ tham số đó, chỉ khoảng 32 tỷ kích hoạt trên bất kỳ token nào. Bạn cần bộ nhớ để chứa tất cả chúng, nhưng lượng tính toán trên mỗi token gần với khối lượng công việc 32 tỷ tham số hơn.

Kimi K2.5 Là Gì và Tại Sao Kiến Trúc MoE Lại Quan Trọng Ở Đây?

Kimi K2.5 là một mô hình ngôn ngữ open-weight từ Moonshot AI với tổng cộng 1,04 nghìn tỷ tham số và 32 tỷ tham số kích hoạt trên mỗi lượt truyền xuôi, được xây dựng trên một thiết kế Mixture-of-Experts (384 expert, 8 được kích hoạt trên mỗi token cộng với một expert dùng chung). Kiến trúc này quan trọng vì số tham số kích hoạt, không phải tổng số, mới là thứ phần cứng của bạn phải tính toán cho mỗi token. Đó là lý do tại sao một mô hình với một nghìn tỷ tham số trên giấy tờ có thể chạy được trên các hộp máy tiêu dùng.

8 Token Mỗi Giây Có Đủ Nhanh Cho AI Cục Bộ Không?

Điều đó hoàn toàn phụ thuộc vào khối lượng công việc. Đối với xử lý theo lô, các tác vụ bất đồng bộ, dùng offline, hoặc suy luận riêng tư mà không có gì rời khỏi phần cứng của bạn, 8 token mỗi giây là ổn, bạn đâu có chằm chằm nhìn màn hình. Đối với lập trình tương tác, nó khắc nghiệt, chủ yếu vì thời gian đến token đầu tiên trên cụm máy này chạy từ khoảng 40 giây đến gần 4 phút tùy thuộc vào độ dài prompt, và khoảng im lặng đó trước từ đầu tiên giết chết một vòng lặp lặp đi lặp lại.

Tại Sao Không Chỉ Dùng API của Kimi Thay Vào Đó?

Đối với hầu hết mọi người, bạn nên làm vậy. Endpoint K2.5 của chính Kimi nhanh hơn nhiều so với cụm máy cục bộ trong dữ liệu Artificial Analysis hiện tại, và các nhà cung cấp K2.5 bên thứ ba có thể còn nhanh hơn hoặc rẻ hơn nữa. Phần cứng cục bộ chỉ có ý nghĩa khi bạn cần sự riêng tư (dữ liệu không thể rời đi), khả năng offline (không thể giả định là có kết nối), hoặc chi phí ở quy mô lớn (khối lượng cao bền bỉ nơi sở hữu đánh bại thuê). Ngoài những trường hợp đó, API là lựa chọn tốt hơn.

AMD Đã Dựng Một Siêu Máy Tính AI Nghìn Tỷ Tham Số Từ Những Chiếc Mini PC