Autor

Brian

Interní technická redakce

3 posts

Brian učí, jak efektivně používat software a nástroje. V každém článku zůstává pragmatický a přináší hodnotu v podobě práce, kterou lze skutečně udělat ještě dnes.

LoRA vs QLoRA vs full fine-tuning compared by VRAM use, quality, and when each method wins

AI a strojové učení

LoRA vs. QLoRA vs. Full Fine-Tuning: Kterou metodu použít?

Porovnejte LoRA, QLoRA a full fine-tuning podle VRAM, kvality a případu použití. Zjistěte, která metoda fine-tuningu LLM se hodí k vašemu rozpočtu na GPU.

Brian Jul 6, 2026 15 min čtení

$GGUF, GPTQ, AWQ, EXL2 quantization formats compared: how model weights, runtime overhead, and KV cache stack up in memory$

AI a strojové učení

GGUF, GPTQ, AWQ, EXL2: Jak formáty kvantizace LLM skutečně využívají paměť

Porovnání využití paměti GGUF, GPTQ, AWQ a EXL2, od velikosti souboru Q4_K_M po růst KV cache a režii běhového prostředí.

Brian Jul 2, 2026 12 min čtení

Unified memory explained: discrete GPU memory requires a copy across PCIe between system RAM and VRAM, while unified memory is one shared pool the CPU and GPU both access directly

AI a strojové učení

Co je sjednocená paměť a proč díky ní může mini PC spustit 235B model?

Sjednocená paměť umožňuje kompaktnímu AI PC načíst modely třídy 235B, které se nevejdou do žádné jednotlivé GPU s 24 až 32 GB. Co to je, proč to funguje a proč větší neznamená rych

Brian Jul 2, 2026 11 min čtení