AIと機械学習
GGUF、GPTQ、AWQ、EXL2、LLM量子化フォーマットが実際にメモリをどう使うか
GGUF、GPTQ、AWQ、EXL2のメモリ使用量を比較する。Q4_K_Mのファイルサイズから、KVキャッシュの増大、ランタイムのオーバーヘッドまで。
Brian 12 分で読めます
国を選ぶと、Cloudzyをあなたの言語で表示します。
著者
Staff Technical Writer
2 posts
Brian educates on using software and tools effectively. He is pragmatic in each of his articles and provides value in terms of work that can actually be done today.
GGUF、GPTQ、AWQ、EXL2のメモリ使用量を比較する。Q4_K_Mのファイルサイズから、KVキャッシュの増大、ランタイムのオーバーヘッドまで。
ユニファイドメモリにより、コンパクトなAI PCは単一の24〜32GB GPUでは保持できない235B級モデルをロードできる。それが何か、なぜ機能するのか、そしてなぜ大きいことが速いことを意味しないのかを解説する。