Technológia

Difúzne transformátory: Architektúra generátorov obrázkov

Architektúra generátorov obrázkov, konkrétne difúzne modely a transformátory, bola podrobne preskúmaná. Prednáška odhalila vnútorné fungovanie modelov, vrátane konvolučných vrstiev, U-Net architektúry a inovácií ako RoPE pre reprezentáciu pozície.

Štefan Algoritmov

12 máj 2026 8 min

Photo by Nigel Hoare/Unsplash

Prednáška z Stanfordu CME296 sa venovala fascinujúcemu svetu architektúr generátorov obrázkov, konkrétne difúznym modelom a ich implementáciám pomocou transformerov. Počas prednášky boli prebraté kľúčové koncepty od základných stavebných prvkov ako konvolučné vrstvy až po pokročilé techniky reprezentácie pozície v transformátoroch, čím sa poskytol komplexný pohľad na to, ako tieto modely fungujú a vyvíjajú. Cieľom bolo preskúmať, čo sa deje „pod kapotou“ generovania obrázkov pomocou AI, a odhaliť mechanizmy, ktoré umožňujú vytvárať realistické a detailné vizuály.

Čítať ďalej