Technológia

Multimodalita a budúcnosť jazykových modelov

Multimodálne jazykové modely (CLIP, Lava, Quen, Chameleon) predstavujú významný krok v AI. Dokážu spracovávať text, obrázky, zvuk a video, čím otvárajú nové možnosti porozumenia sveta. Transformátory zostávajú kľúčové, no výzva spočíva v prevode dát do tokenov.

Štefan Algoritmov

05 jún 2026 8 min

Photo by Steve A Johnson/Unsplash

Nedávno som si pozrel fascinujúcu prednášku z kurzu CS336 na Stanforde, ktorá sa zaoberá vývojom jazykových modelov. Prednáška sa posunula od tradičných textových modelov k pokročilejším multimodálnym modelom, ktoré dokážu spracovávať a generovať rôzne typy dát – text, obrázky, zvuk a video. Cieľom je dosiahnuť takzvanú „omnimodalitu“, teda schopnosť pracovať s akoukoľvek kombináciou týchto modalít. Prednáška sa venovala novým architektúram, ako sú CLIP, Lava, Quen a Chameleon, ktoré predstavujú významný krok vpred v oblasti umelej inteligencie.

Čítať ďalej