AI a strojové učení
GGUF, GPTQ, AWQ, EXL2: Jak formáty kvantizace LLM skutečně využívají paměť
Porovnání využití paměti GGUF, GPTQ, AWQ a EXL2, od velikosti souboru Q4_K_M po růst KV cache a režii běhového prostředí.
Brian 12 min čtení
Vyberte zemi, abyste viděli Cloudzy ve svém jazyce.
Autor
Staff Technical Writer
2 posts
Brian educates on using software and tools effectively. He is pragmatic in each of his articles and provides value in terms of work that can actually be done today.
Porovnání využití paměti GGUF, GPTQ, AWQ a EXL2, od velikosti souboru Q4_K_M po růst KV cache a režii běhového prostředí.
Sjednocená paměť umožňuje kompaktnímu AI PC načíst modely třídy 235B, které se nevejdou do žádné jednotlivé GPU s 24 až 32 GB. Co to je, proč to funguje a proč větší neznamená rych