Richard Sutton kritizuje LLM ako slepú uličku

Richard Sutton, laureát Turing Awardu, vidí v súčasných LLM slepú uličku. Tvrdí, že modely nie sú schopné skutočného učenia sa z interakcie s prostredím a vyžadujú nové riešenia pre kontinuálne učenie.

Richard Sutton kritizuje LLM ako slepú uličku
Photo by Igor Omilaev/Unsplash

V poslednom rozhovore s Dwarkesh Patelom sa Richard Sutton, laureát Turing Awardu a autor knihy "The Bitter Lesson", vyjadril skepticky k súčasným veľkým jazykovým modelom (LLM). Jeho názor je pomerne jednoznačný: LLM predstavujú slepú uličku v oblasti umelej inteligencie. Sutton tvrdí, že tieto modely nie sú schopné skutočného učenia sa "on-the-job", teda priamo z interakcie s prostredím, a preto budú vyžadovať nové architektonické riešenia pre kontinuálne učenie.

Kľúčové poznatky

  • Obmedzenia transfer learningu: Súčasné techniky posilňovacieho učenia majú problémy s prenosom vedomostí medzi rôznymi stavmi, a akékoľvek pozorované generalizovanie je často výsledkom ľudského zásahu.
  • LLM a rozsah generalizácie: LLM predstavujú pokrok v schopnostiach generalizácie, ale riešenie problémov v rámci určitej kategórie nie je skutočnou generalizáciou.
  • Výskum AI a jednoduché princípy: V histórii AI prevládali "slabé" metódy (hľadanie a učenie sa na základe všeobecných princípov) nad "silnými" (symbolické systémy s ľudskou asistenciou), pričom jednoduché princípy nakoniec zvíťazili, dokonca aj v prípade LLM.
  • AlphaGo/Zero ako škálovanie a inovácia: AlphaGo a AlphaZero nie sú úplne nové prielomy, ale skôr výrazné škálovanie existujúcich techník.
  • Vývoj AI po AGI: Po dosiahnutí umelej všeobecnej inteligencie (AGI) Sutton vidí budúcnosť, v ktorej milióny alebo miliardy AI výskumníkov využijú výpočtový výkon na vytváranie ešte schopnejších systémov.
  • Nástupstvo AI a univerzálne hodnoty: Je nevyhnutný prechod k AI/augmentovaným ľuďom, preto je dôležité vštípiť týmto budúcim inteligenciám robustné hodnoty (napríklad integritu).

Prečo Richard Sutton vidí v LLM problém?

Sutton argumentuje, že súčasné LLM sú príliš závislé od rozsiahleho trénovania na obrovských dátových setoch. To im bráni v schopnosti adaptovať sa a učiť sa priamo z interakcie s reálnym svetom – niečo, čo robíme prirodzene my ľudia (a dokonca aj zvieratá). Predstavte si to takto: LLM je ako študent, ktorý sa naučí všetky odpovede na testy vopred, ale keď ho postavíte pred neznámy problém, nevie, ako postupovať.

Naopak, posilňovacie učenie (RL), ktoré Sutton pomohol definovať, sa zameriava na to, aby sa agent učil prostredníctvom skúšania a omylu v interaktívnom prostredí. Agent dostáva odmenu alebo trest za svoje akcie a postupne sa učí optimálnu stratégiu. Je to ako naučiť dieťa jazdiť bicyklom – nie mu vysvetľovať fyziku, ale nechať ho skúšať a učiť sa z vlastných chýb.

AlphaGo/Zero: Škálovanie existujúcich techník

Sutton poukazuje na to, že úspech AlphaGo a AlphaZero nespočíval v úplne nových prielomoch, ale skôr vo výraznom škálovaní existujúcich techník posilňovacieho učenia. Použili rozsiahle výpočtové zdroje a inovácie v architektúre vyhľadávania, aby dosiahli ohromujúce výsledky. To naznačuje, že aj budúci pokrok v AI nemusí nevyhnutne spočívať v revolučných objavoch, ale skôr vo zlepšovaní a škálovaní existujúcich metód.

Budúcnosť AI: Nástupstvo a univerzálne hodnoty

Sutton vidí budúcnosť, v ktorej AI preberie úlohu od ľudí – nástupstvo k AI/augmentovaným ľuďom. V tomto kontexte je kriticky dôležité inštalovať do týchto budúcich inteligencií robustné hodnoty, ako je integrita a zodpovednosť. Nesnažíme sa im diktovať konkrétne výsledky alebo kontrolovať ich vývoj, ale skôr zabezpečiť, aby boli v súlade s našimi základnými princípmi.

Záverečné úvahy

Richard Suttonova kritika LLM je provokujúca a prinúti nás zamyslieť sa nad tým, ako rozvíjame umelú inteligenciu. Jeho argumenty naznačujú, že skutočný pokrok v AI nevyžaduje len škálovanie existujúcich modelov, ale aj hľadanie nových architektúr, ktoré umožnia kontinuálne učenie a adaptáciu na reálny svet. V konečnom dôsledku je cieľom vytvoriť inteligentné systémy, ktoré budú nielen výkonné, ale aj zodpovedné a v súlade s ľudskými hodnotami.

Referencie

Hodnotenie článku:
Richard Sutton kritizuje LLM ako slepú uličku

Hĺbka a komplexnosť obsahu (8/10)+
Povrchné / ZjednodušenéHlboká analýza / Komplexné

Zdôvodnenie: Článok hlbšie analyzuje názory Richarda Suttona na LLM a ich obmedzenia. Poskytuje kontext prostredníctvom histórie AI a porovnáva s RL, AlphaGo/Zero a zdôrazňuje potrebu hodnôt v budúcej AI.

Kredibilita (argumentácia, dôkazy, spoľahlivosť) (9/10)+
Nízka / NespoľahlivéVysoká / Spoľahlivé

Zdôvodnenie: Článok prezentuje názory renomovaného odborníka (Turing Award laureate) a podopiera ich logickými argumentmi. Poskytuje kontext a vysvetľuje princípy posilňovacieho učenia. Odkaz na prepis rozhovoru zvyšuje overiteľnosť.

Úroveň zaujatosti a manipulácie (6/10)+
Objektívne / Bez manipulácieZaujaté / Manipulatívne

Zdôvodnenie: Článok prezentuje názor Richarda Suttona ako hlavný argument a mierne zjednodušuje komplexnú tému. Chýba vyváženejšia perspektíva s pohľadmi podporujúcimi LLM.

Konštruktívnosť (6/10)+
Deštruktívne / ProblémovéVeľmi konštruktívne / Riešenia

Zdôvodnenie: Článok primárne kritizuje LLM, ale zároveň naznačuje potrebu nových architektur a zdôrazňuje dôležitosť kontinuálneho učenia a hodnotovej orientácie v budúcej AI.

Politické zameranie (5/10)+
Výrazne liberálneNeutrálneVýrazne konzervatívne

Zdôvodnenie: Článok sa zameriava na technické aspekty umelej inteligencie a neobsahuje politické vyhlásenia ani hodnotové súdy. Diskusia o etike AI je neutrálna.

Knihy v článku

The Bitter Lesson: The decline in teachers' pay
National Union of Teachers. Salaries ...
The Bitter Lesson: The decline in teachers' payNational Union of Teachers. Salaries DepartmentRok: 1973
Približne 187 gCO₂ bolo uvoľnených do atmosféry a na chladenie sa spotrebovalo 0.94 l vody za účelom vygenerovania tohoto článku.
Mastodon