AI, vizuálna inteligencia a budúcnosť generatívnych modelov

AI revolúcia: pohľad z Black Forest Labs. Andreas Blattmann hovorí o prechode k unimodálnym systémom, dôležitosti spätnej väzby používateľov a otvorených modeloch. Kľúčom je učenie sa z videa & zvuku, nie 3D modelov!

AI, vizuálna inteligencia a budúcnosť generatívnych modelov
Photo by Google DeepMind/Unsplash

V poslednej časti prednášky CS153 „Frontier Systems“ na Stanforde sa Anjney Midha stretol s Andreasom Blattmannom, spoluzakladateľom spoločnosti Black Forest Labs (BFL) a spoluautorom Stable Diffusion. Ich diskusia sa zameriava na hranicu vizuálnej inteligencie, a to, ako „frontier AI továrne“ dokážu efektívne škálovať svoje operácie. Od počiatkov v malom laboratóriu na Univerzite v Heidelbergu až po revolúciu vo svete generatívnych modelov, Andreas nám ponúka pohľad do zákulisia vývoja Stable Diffusion a ich aktuálnej práce s Fluxom. Hlavnou témou je prechod od jednoduchších text-to-image modelov k sofistikovanejším unimodálnym systémom, ktoré dokážu rozumieť a interagovať s rôznymi typmi dát – obrazom, videami a zvukom.

Mastodon