Forfatter

Brian

Fastansat teknisk skribent

3 posts

Brian underviser i at bruge software og værktøjer effektivt. Han er pragmatisk i hver eneste artikel og leverer værdi i form af arbejde, der rent faktisk kan gøres i dag.

LoRA vs QLoRA vs full fine-tuning compared by VRAM use, quality, and when each method wins

AI og machine learning

LoRA vs. QLoRA vs. Full Fine-Tuning: Hvilken metode skal du bruge?

Sammenlign LoRA, QLoRA og full fine-tuning på VRAM, kvalitet og use case. Find ud af, hvilken LLM fine-tuning metode der passer til dit GPU-budget.

Brian Jul 6, 2026 15 min læsning

$GGUF, GPTQ, AWQ, EXL2 quantization formats compared: how model weights, runtime overhead, and KV cache stack up in memory$

AI og machine learning

GGUF, GPTQ, AWQ, EXL2: Sådan bruger LLM-kvantiseringsformater faktisk hukommelse

Sammenlign hukommelsesforbruget for GGUF, GPTQ, AWQ og EXL2, fra Q4_K_M-filstørrelse til KV cache-vækst og runtime-overhead.

Brian Jul 2, 2026 12 min læsning

Unified memory explained: discrete GPU memory requires a copy across PCIe between system RAM and VRAM, while unified memory is one shared pool the CPU and GPU both access directly

AI og machine learning

Hvad er unified memory, og hvorfor kan det få en mini-pc til at køre en 235B-model?

Unified memory gør det muligt for en kompakt AI-pc at indlæse modeller i 235B-klassen, som ingen enkelt 24-32GB GPU kan rumme. Hvad det er, hvorfor det virker, og hvorfor større ik

Brian Jul 2, 2026 11 min læsning