Nové architektúry jazykových modelov: Alternatívy pozornosti a Mixture of Experts
Nové jazykové modely využívajú alternatívy pozornosti (Mamba 2, DeepSeek) a architektúry Mixture of Experts (MoE) na efektívnejšie spracovanie dlhých textov. MoE rozdeľuje prácu medzi „expertmi“, čo zvyšuje kapacitu modelu bez dramatického zvýšenia výpočtovej náročnosti.
Predstavte si, že by ste mohli učiť počítač porozumieť a generovať text takmer rovnako dobre ako človek. To je cieľom moderných jazykových modelov a v posledných rokoch sme svedkami obrovského pokroku. V najnovšej prednáške z kurzu Stanford CS336 „Modelovanie jazyka od základov“ sa profesor Percy Liang venoval fascinujúcemu svetu alternatív pozornosti a architektúram Mixture of Experts (MoE). Poďme sa pozrieť na to, čo sme sa dozvedeli.