Iné

Od jazykových modelov k multimodálnej AI: budúcnosť

Táto prednáška z Stanfordu preskúma budúcnosť AI smerom k multimodálnemu porozumeniu sveta. Jazykové modely sú len začiatok; natívne multimodálne systémy, ako Chameleon a Transfusion, integrujú text, obrázky a zvuk pre komplexnejšie AI.

Veronika Flexibilná

05 jún 2026 7 min

Photo by Igor Omilaev/Unsplash

Táto prednáška zo Stanfordu, s hosťujúcou Viktóriou Lynn z Thinking Machines Lab, sa ponorila hlboko do fascinujúceho sveta multimodálnej umelej inteligencie. Zatiaľ čo jazykové modely (LLM) ako ChatGPT spôsobili revolúciu v spôsobe, akým interagujeme s technológiou, prednášateľka poukazuje na ich obmedzenia a zdôrazňuje potrebu systémov, ktoré dokážu efektívne spracovávať rôzne typy dát – text, obrázky, zvuk a video. Cieľom je vytvoriť AI, ktorá rozumie svetu rovnako dobre ako my ľudia, a to prostredníctvom kombinácie rôznych modalít.

Čítať ďalej