作者

Brian

专职技术作者

3 posts

Brian 讲解如何高效使用软件和工具。他的每篇文章都很务实，提供的价值是今天就能真正动手做完的事。

从显存占用、效果质量和使用场景对比 LoRA、QLoRA 和全量微调,了解哪种大模型微调方法适合你的 GPU 预算。

Brian Jul 6, 2026 15 分钟阅读

$GGUF, GPTQ, AWQ, EXL2 quantization formats compared: how model weights, runtime overhead, and KV cache stack up in memory$

对比GGUF、GPTQ、AWQ和EXL2的内存使用情况,从Q4_K_M文件大小到KV缓存增长和运行时开销。

Brian Jul 2, 2026 12 分钟阅读

统一内存让紧凑型AI主机能够加载单块24-32GB GPU都装不下的235B级模型。它是什么、为什么有效,以及为什么更大不等于更快。

Brian Jul 2, 2026 11 分钟阅读