Nové architektúry jazykových modelov: Alternatívy pozornosti a Mixture of Experts

Nové jazykové modely využívajú alternatívy pozornosti (Mamba 2, DeepSeek) a architektúry Mixture of Experts (MoE) na efektívnejšie spracovanie dlhých textov. MoE rozdeľuje prácu medzi „expertmi“, čo zvyšuje kapacitu modelu bez dramatického zvýšenia výpočtovej náročnosti.

Nové architektúry jazykových modelov: Alternatívy pozornosti a Mixture of Experts
Photo by Vitaly Gariev/Unsplash

Predstavte si, že by ste mohli učiť počítač porozumieť a generovať text takmer rovnako dobre ako človek. To je cieľom moderných jazykových modelov a v posledných rokoch sme svedkami obrovského pokroku. V najnovšej prednáške z kurzu Stanford CS336 „Modelovanie jazyka od základov“ sa profesor Percy Liang venoval fascinujúcemu svetu alternatív pozornosti a architektúram Mixture of Experts (MoE). Poďme sa pozrieť na to, čo sme sa dozvedeli.

Mastodon