Ako KV cache a paged attention zrýchľujú LLM na GPU
Ako KV cache a paged attention zrýchľujú LLM na GPU? Kvôli náročnosti inferencie sa ukladá kontext token po tokene pomocou KV cache. Paged attention rieši problémy s alokáciou pamäte, aplikuje stránkovanie pre efektívnejšie využitie VRAM a optimalizáciu výkonu.
Veľké jazykové modely (LLM) sú skvelé, ale ich používanie v praxi môže byť náročné. Ak máte len jedného používateľa, všetko funguje hladko. Ale čo sa stane, keď je súčasne pripojených desať alebo sto? Latencia začína rastať, využitie pamäte GPU prudko stúpa a výkon klesá. Problém často nie je v modeli samotnom, ale v tom, ako sa používa pamäť počas inferencie – konkrétne v spôsobe, akým model ukladá a získava kontext token po tokene. V tomto článku sa zameriame na dva mechanizmy, KV cache a paged attention, ktoré pomáhajú znižovať čas oneskorenia a náklady spojené s inferenciou LLM vo veľkom meradle.