ผู้เขียน

Brian

นักเขียนเชิงเทคนิคประจำ

3 posts

Brian สอนการใช้ซอฟต์แวร์และเครื่องมืออย่างมีประสิทธิภาพ เขายึดแนวปฏิบัติได้จริงในทุกบทความ และมอบคุณค่าในรูปของงานที่ลงมือทำได้จริงตั้งแต่วันนี้

LoRA vs QLoRA vs full fine-tuning compared by VRAM use, quality, and when each method wins

AI และ Machine Learning

LoRA เทียบกับ QLoRA เทียบกับ Full Fine-Tuning: ควรใช้วิธีไหน?

เปรียบเทียบ LoRA, QLoRA และ full fine-tuning ในด้าน VRAM คุณภาพ และกรณีใช้งาน เรียนรู้ว่าวิธี fine-tuning LLM แบบไหนเหมาะกับงบ GPU ของคุณ

Brian Jul 6, 2026 15 นาทีในการอ่าน

$GGUF, GPTQ, AWQ, EXL2 quantization formats compared: how model weights, runtime overhead, and KV cache stack up in memory$

AI และ Machine Learning

GGUF, GPTQ, AWQ, EXL2: รูปแบบการควอนไทซ์ LLM ใช้หน่วยความจำจริงๆ อย่างไร

เปรียบเทียบการใช้หน่วยความจำของ GGUF, GPTQ, AWQ และ EXL2 ตั้งแต่ขนาดไฟล์ Q4_K_M ไปจนถึงการเติบโตของ KV cache และโอเวอร์เฮดของรันไทม์

Brian Jul 2, 2026 12 นาทีในการอ่าน

Unified memory explained: discrete GPU memory requires a copy across PCIe between system RAM and VRAM, while unified memory is one shared pool the CPU and GPU both access directly

AI และ Machine Learning

หน่วยความจำรวม (Unified Memory) คืออะไร และทำไมมันถึงทำให้มินิพีซีรันโมเดล 235B ได้?

หน่วยความจำรวมทำให้พีซี AI ขนาดกะทัดรัดโหลดโมเดลระดับ 235B ที่ GPU 24-32GB เพียงตัวเดียวไม่สามารถรองรับได้ มันคืออะไร ทำไมถึงใช้ได้ผล และทำไมใหญ่กว่าไม่ได้แปลว่าเร็วกว่า

Brian Jul 2, 2026 11 นาทีในการอ่าน