AI, ktorá si dokáže zmeniť názor? Nová architektúra a budúcnosť umelej inteligencie
AI mení názor? Nová architektúra CTM od Sakana AI napodobňuje ľudské myslenie prostredníctvom adaptívneho výpočtu a biologicky inšpirovaných neurónov. Výskumníci sa sťahujú od transformerov a hľadajú nové cesty v oblasti umelej inteligencie.
V posledných rokoch dominujú veľké jazykové modely (LLM) ako ChatGPT. Avšak, podľa niektorých odborníkov, takýto prístup môže viesť k stagnácii v oblasti AI. Llion Jones a Luke Darlow zo Sakana AI predstavili novú architektúru nazvanú „Continuous Thought Machine“ (CTM), ktorá by mohla otvoriť nové cesty pre výskum umelej inteligencie. V tomto článku sa pozrieme na kľúčové myšlienky z ich nedávneho rozhovoru a zistíme, čo táto nová technológia prináša.
Kľúčové poznatky
- Odsun od Transformerov: Výskumníci v Sakana AI sa postupne sťahujú od výskumu na báze transformerov, pretože vidia preplnenosť tejto oblasti a hľadajú nové cesty.
- Continuous Thought Machine (CTM): Nová rekurentná architektúra, ktorá napodobňuje ľudské myslenie prostredníctvom adaptívneho výpočtu a biologicky inšpirovaných neurónov.
- Dôležitosť voľnosti pri výskume: Podľa autorov je kľúčové umožniť výskumníkom slobodu pri hľadaní nových riešení, bez tlaku cieľov a komitét.
- Problém „jagged intelligence“: Moderné LLM dosahujú pôsobivé výsledky brutálnou silou, čo môže maskovať ich skutočné nedostatky a brániť hlbšiemu porozumeniu.
- Nové benchmarky pre testovanie AI: Vytvorenie nových benchmarkov ako SudokuBench je nevyhnutné na presnejšie hodnotenie schopností AI v oblasti uvažovania.
Prečo sa vzdialiť od Transformerov?
Transformer architektúra, ktorá stojí za mnohými modernými AI modelmi, dosiahla obrovský úspech. Avšak, Llion Jones argumentuje, že súčasná situácia je podobná „úspechu zachyteniu“. Výskumníci sa sústreďujú na drobné vylepšenia existujúcej architektúry namiesto hľadania radikálnych nových riešení. Podobne, ako pri RNN (Recurrent Neural Networks) predchádzajúceho pokroku, aj teraz je riziko stratiť čas drobnými úpravami v rámci už zavedenej paradigmy.
Continuous Thought Machine: AI, ktorá myslí krok za krokom
CTM sa snaží napodobniť ľudský spôsob riešenia problémov. Namiesto toho, aby model okamžite „videl“ celé riešenie, ako to robia súčasné LLM, CTM postupuje krok za krokom a uvažuje nad každým krokom. Jeho architektúra využíva adaptívny výpočet – model si dokáže vyhradiť viac času na zložitejšie problémy a menej na jednoduchšie.
Neurónové úrovňové modely (NLM): Každý neurón v CTM je vlastne malá neurálna sieť, ktorá spracováva históriu aktivácií a produkuje výstup. Tento prístup sa snaží kombinovať biologickú plausibilitu s trénovateľnosťou hlbokých sietí.
Uvažovanie a „Leapfrogging“ v bludiskách
CTM preukazuje fascinujúce správanie pri navigácii v bludiskách. Model dokáže spätkovať, skúmať viacero trás a nakoniec nájsť správnu cestu. V časovo obmedzených situáciách využíva stratégiu „leapfrogging“ – rýchlo preskočí dopredu a neskôr vyplní chýbajúce časti dozadu.
SudokuBench: Nový benchmark pre testovanie uvažovania
Vytvorenie spoľahlivého spôsobu merania schopností AI v oblasti uvažovania je kľúčové. Preto bol vyvinutý SudokuBench, nový benchmark obsahujúci varianty Sudoku s unikátnymi „breakin“ pravidlami. Táto séria hádankových hier bola vytvorená na základe tisícov hodín videí z kanála „Cracking the Cryptic“, čím sa zachytávajú detailné procesy ľudského uvažovania pri riešení komplexných úloh.
Odporúčania a úvahy
Nová architektúra CTM predstavuje sľubný krok smerom k AI, ktorá myslí viac, ako len imituje. Je dôležité podporovať výskum v oblastiach mimo zavedených paradigiem a umožniť výskumníkom slobodu pri hľadaní nových riešení. SudokuBench a podobné benchmarky sú nevyhnutné na presnejšie hodnotenie schopností AI v oblasti uvažovania a pomáhajú nám posúvať hranice toho, čo je možné s umelou inteligenciou dosiahnuť.
Referencie
- [Why Greatness Cannot be Planned] Kenneth Stanley(https://www.amazon.co.uk/Why-Greatness-Cannot-Planned-Objective/dp/3319155237)
- [The Hardware Lottery] Sara Hooker(https://arxiv.org/abs/2009.06489)
- [Continuous Thought Machines] Luke Darlow et al / Sakana(https://arxiv.org/abs/2505.05522)
- [Sudoku Bench] Sakana(https://pub.sakana.ai/sudoku/)
Približne 212 gCO₂ bolo uvoľnených do atmosféry a na chladenie sa spotrebovalo 1.06 l vody za účelom vygenerovania tohoto článku.
Komentáre ()