Technológia

Architektúry jazykových modelov: Pohľad zo Stanfordu

Architektúry jazykových modelov sa neustále vyvíjajú. Prednáška zo Stanfordu zdôrazňuje dôležitosť praktickej skúsenosti, optimalizácie pre výkon (arithmetic intensity) a inovácií ako GLU, RoPE a Z-Loss Trick pri trénovaní vlastných modelov.

Štefan Algoritmov

16 apr 2026 8 min

Photo by Logan Voss/Unsplash

Prednáška z kurzu CS336 na Stanforde sa ponorila do fascinujúceho sveta architektúr moderných jazykových modelov. Namiesto teoretických úvah sa prednášajúci zamerali na praktické poznatky získané pri trénovaní vlastných modelov a skúmaní najnovších výskumov. Od variantov Transformeru až po optimalizácie pre dlhý kontext, táto prednáška ponúka cenný pohľad do toho, ako sa tieto modely vyvíjajú a čo ich robí tak efektívnymi.

Čítať ďalej