Auteur

Brian

Interne technische redactie

3 posts

Brian legt uit hoe je software en tools effectief inzet. Hij blijft pragmatisch in elk artikel en levert waarde in de vorm van werk dat je vandaag echt kunt doen.

LoRA vs QLoRA vs full fine-tuning compared by VRAM use, quality, and when each method wins

AI en machine learning

LoRA vs. QLoRA vs. Full Fine-Tuning: welke methode moet je gebruiken?

Vergelijk LoRA, QLoRA en full fine-tuning op VRAM, kwaliteit en use case. Ontdek welke LLM fine-tuning methode past bij jouw GPU-budget.

Brian Jul 6, 2026 15 min leestijd

$GGUF, GPTQ, AWQ, EXL2 quantization formats compared: how model weights, runtime overhead, and KV cache stack up in memory$

AI en machine learning

GGUF, GPTQ, AWQ, EXL2: hoe LLM-kwantisatieformaten daadwerkelijk geheugen gebruiken

Vergelijk het geheugengebruik van GGUF, GPTQ, AWQ en EXL2, van Q4_K_M-bestandsgrootte tot KV-cachegroei en runtime-overhead.

Brian Jul 2, 2026 12 min leestijd

Unified memory explained: discrete GPU memory requires a copy across PCIe between system RAM and VRAM, while unified memory is one shared pool the CPU and GPU both access directly

AI en machine learning

Wat is unified memory, en waarom kan een mini-pc daardoor een 235B-model draaien?

Unified memory stelt een compacte AI-pc in staat om 235B-klasse modellen te laden die geen enkele losse GPU met 24-32GB kan bevatten. Wat het is, waarom het werkt, en waarom groter

Brian Jul 2, 2026 11 min leestijd