Autor

Brian

Redacción técnica interna

3 posts

Brian enseña a usar software y herramientas de forma eficaz. Es pragmático en cada uno de sus artículos y aporta valor en forma de trabajo que se puede hacer hoy mismo.

LoRA vs QLoRA vs full fine-tuning compared by VRAM use, quality, and when each method wins

IA y machine learning

LoRA vs. QLoRA vs. Full Fine-Tuning: ¿qué método deberías usar?

Compara LoRA, QLoRA y el full fine-tuning según VRAM, calidad y caso de uso. Descubre qué método de fine-tuning de LLM se ajusta a tu presupuesto de GPU.

Brian Jul 6, 2026 15 min de lectura

$GGUF, GPTQ, AWQ, EXL2 quantization formats compared: how model weights, runtime overhead, and KV cache stack up in memory$

IA y machine learning

GGUF, GPTQ, AWQ, EXL2: cómo usan realmente la memoria los formatos de cuantización de LLM

Compara el uso de memoria de GGUF, GPTQ, AWQ y EXL2, desde el tamaño del archivo Q4_K_M hasta el crecimiento de la caché KV y el sobrecoste del runtime.

Brian Jul 2, 2026 12 min de lectura

Unified memory explained: discrete GPU memory requires a copy across PCIe between system RAM and VRAM, while unified memory is one shared pool the CPU and GPU both access directly

IA y machine learning

¿Qué es la memoria unificada y por qué permite que un mini PC ejecute un modelo de 235 mil millones de parámetros?

La memoria unificada permite que un PC de IA compacto cargue modelos de clase 235B que ninguna GPU única de 24-32 GB puede contener. Qué es, por qué funciona y por qué más grande n

Brian Jul 2, 2026 11 min de lectura