작성자

Brian

전임 테크니컬 라이터

3 posts

Brian은 소프트웨어와 도구를 효과적으로 쓰는 법을 알려줍니다. 모든 글에서 실용적인 태도를 유지하며, 오늘 당장 실행할 수 있는 작업이라는 형태로 가치를 전합니다.

VRAM, 품질, 사용 사례를 기준으로 LoRA, QLoRA, 풀 파인튜닝을 비교하세요. 어떤 LLM 파인튜닝 방법이 GPU 예산에 맞는지 알아보세요.

Brian Jul 6, 2026 15 분 분량

$GGUF, GPTQ, AWQ, EXL2 quantization formats compared: how model weights, runtime overhead, and KV cache stack up in memory$

GGUF, GPTQ, AWQ, EXL2의 메모리 사용량을 Q4_K_M 파일 크기부터 KV 캐시 증가, 런타임 오버헤드까지 비교한다.

Brian Jul 2, 2026 12 분 분량

통합 메모리는 단일 24-32GB GPU로는 담을 수 없는 235B급 모델을 소형 AI PC가 로드할 수 있게 해준다. 그것이 무엇인지, 왜 작동하는지, 그리고 왜 크다고 더 빠른 건 아닌지.

Brian Jul 2, 2026 11 분 분량