Richard Sutton kritizuje LLM ako slepú uličku
Richard Sutton, laureát Turing Awardu, vidí v súčasných LLM slepú uličku. Tvrdí, že modely nie sú schopné skutočného učenia sa z interakcie s prostredím a vyžadujú nové riešenia pre kontinuálne učenie.
V poslednom rozhovore s Dwarkesh Patelom sa Richard Sutton, laureát Turing Awardu a autor knihy "The Bitter Lesson", vyjadril skepticky k súčasným veľkým jazykovým modelom (LLM). Jeho názor je pomerne jednoznačný: LLM predstavujú slepú uličku v oblasti umelej inteligencie. Sutton tvrdí, že tieto modely nie sú schopné skutočného učenia sa "on-the-job", teda priamo z interakcie s prostredím, a preto budú vyžadovať nové architektonické riešenia pre kontinuálne učenie.
Kľúčové poznatky
- Obmedzenia transfer learningu: Súčasné techniky posilňovacieho učenia majú problémy s prenosom vedomostí medzi rôznymi stavmi, a akékoľvek pozorované generalizovanie je často výsledkom ľudského zásahu.
- LLM a rozsah generalizácie: LLM predstavujú pokrok v schopnostiach generalizácie, ale riešenie problémov v rámci určitej kategórie nie je skutočnou generalizáciou.
- Výskum AI a jednoduché princípy: V histórii AI prevládali "slabé" metódy (hľadanie a učenie sa na základe všeobecných princípov) nad "silnými" (symbolické systémy s ľudskou asistenciou), pričom jednoduché princípy nakoniec zvíťazili, dokonca aj v prípade LLM.
- AlphaGo/Zero ako škálovanie a inovácia: AlphaGo a AlphaZero nie sú úplne nové prielomy, ale skôr výrazné škálovanie existujúcich techník.
- Vývoj AI po AGI: Po dosiahnutí umelej všeobecnej inteligencie (AGI) Sutton vidí budúcnosť, v ktorej milióny alebo miliardy AI výskumníkov využijú výpočtový výkon na vytváranie ešte schopnejších systémov.
- Nástupstvo AI a univerzálne hodnoty: Je nevyhnutný prechod k AI/augmentovaným ľuďom, preto je dôležité vštípiť týmto budúcim inteligenciám robustné hodnoty (napríklad integritu).
Prečo Richard Sutton vidí v LLM problém?
Sutton argumentuje, že súčasné LLM sú príliš závislé od rozsiahleho trénovania na obrovských dátových setoch. To im bráni v schopnosti adaptovať sa a učiť sa priamo z interakcie s reálnym svetom – niečo, čo robíme prirodzene my ľudia (a dokonca aj zvieratá). Predstavte si to takto: LLM je ako študent, ktorý sa naučí všetky odpovede na testy vopred, ale keď ho postavíte pred neznámy problém, nevie, ako postupovať.
Naopak, posilňovacie učenie (RL), ktoré Sutton pomohol definovať, sa zameriava na to, aby sa agent učil prostredníctvom skúšania a omylu v interaktívnom prostredí. Agent dostáva odmenu alebo trest za svoje akcie a postupne sa učí optimálnu stratégiu. Je to ako naučiť dieťa jazdiť bicyklom – nie mu vysvetľovať fyziku, ale nechať ho skúšať a učiť sa z vlastných chýb.
AlphaGo/Zero: Škálovanie existujúcich techník
Sutton poukazuje na to, že úspech AlphaGo a AlphaZero nespočíval v úplne nových prielomoch, ale skôr vo výraznom škálovaní existujúcich techník posilňovacieho učenia. Použili rozsiahle výpočtové zdroje a inovácie v architektúre vyhľadávania, aby dosiahli ohromujúce výsledky. To naznačuje, že aj budúci pokrok v AI nemusí nevyhnutne spočívať v revolučných objavoch, ale skôr vo zlepšovaní a škálovaní existujúcich metód.
Budúcnosť AI: Nástupstvo a univerzálne hodnoty
Sutton vidí budúcnosť, v ktorej AI preberie úlohu od ľudí – nástupstvo k AI/augmentovaným ľuďom. V tomto kontexte je kriticky dôležité inštalovať do týchto budúcich inteligencií robustné hodnoty, ako je integrita a zodpovednosť. Nesnažíme sa im diktovať konkrétne výsledky alebo kontrolovať ich vývoj, ale skôr zabezpečiť, aby boli v súlade s našimi základnými princípmi.
Záverečné úvahy
Richard Suttonova kritika LLM je provokujúca a prinúti nás zamyslieť sa nad tým, ako rozvíjame umelú inteligenciu. Jeho argumenty naznačujú, že skutočný pokrok v AI nevyžaduje len škálovanie existujúcich modelov, ale aj hľadanie nových architektúr, ktoré umožnia kontinuálne učenie a adaptáciu na reálny svet. V konečnom dôsledku je cieľom vytvoriť inteligentné systémy, ktoré budú nielen výkonné, ale aj zodpovedné a v súlade s ľudskými hodnotami.
Referencie
- Transcript rozhovoru: https://www.dwarkesh.com/p/richard-sutton
Približne 187 gCO₂ bolo uvoľnených do atmosféry a na chladenie sa spotrebovalo 0.94 l vody za účelom vygenerovania tohoto článku.
Komentáre ()