ข้ามไปยังเนื้อหาหลัก
ลด 50% ทุกแพลน เวลาจำกัด เริ่มต้นที่ $2.48/mo

ผู้เขียน

Brian

Staff Technical Writer

2 posts

Brian educates on using software and tools effectively. He is pragmatic in each of his articles and provides value in terms of work that can actually be done today.

GGUF, GPTQ, AWQ, EXL2 quantization formats compared: how model weights, runtime overhead, and KV cache stack up in memory
AI และ Machine Learning

GGUF, GPTQ, AWQ, EXL2: รูปแบบการควอนไทซ์ LLM ใช้หน่วยความจำจริงๆ อย่างไร

เปรียบเทียบการใช้หน่วยความจำของ GGUF, GPTQ, AWQ และ EXL2 ตั้งแต่ขนาดไฟล์ Q4_K_M ไปจนถึงการเติบโตของ KV cache และโอเวอร์เฮดของรันไทม์

Brian 12 นาทีในการอ่าน
Unified memory explained: discrete GPU memory requires a copy across PCIe between system RAM and VRAM, while unified memory is one shared pool the CPU and GPU both access directly
AI และ Machine Learning

หน่วยความจำรวม (Unified Memory) คืออะไร และทำไมมันถึงทำให้มินิพีซีรันโมเดล 235B ได้?

หน่วยความจำรวมทำให้พีซี AI ขนาดกะทัดรัดโหลดโมเดลระดับ 235B ที่ GPU 24-32GB เพียงตัวเดียวไม่สามารถรองรับได้ มันคืออะไร ทำไมถึงใช้ได้ผล และทำไมใหญ่กว่าไม่ได้แปลว่าเร็วกว่า

Brian 11 นาทีในการอ่าน