Môžu ľudia vylepšiť umelú inteligenciu?
Môžu ľudia vylepšiť umelú inteligenciu? Video od Welch Labs skúma históriu AI, od rozpoznávania reči po rozsiahle jazykové modely (LLM). Richard Sutton varuje pred spoliehaním sa na ľudskú znalosť a AlphaGo ukázal učenie sa prostredníctvom skúseností.
Nedávno som sledoval fascinujúce video od Welch Labs, ktoré sa zaoberá otázkou, či dokážeme zlepšiť umelú inteligenciu. Video skúma históriu pokusov o vytváranie AI, od prvých systémov rozpoznávania reči až po súčasné rozsiahle jazykové modely (LLM), a zároveň zvažuje budúcnosť AI a jej potenciál pre učenie sa priamo zo sveta okolo nás.
Stručný prehľad videa
Video začína v roku 1971, keď americká vláda spustila program ARPA s cieľom vytvoriť systém rozpoznávania reči s vysokou presnosťou. Projekt Harpy z Carnegie Mellon University dosiahol pôsobivý úspech a prekonal očakávania. Neskôr sa video zaoberá konceptom „horkej lekcie“ Richarda Suttona, ktorý tvrdí, že spoliehanie sa na ľudskú znalosť pri vytváraní AI je kontraproduktívne. Napriek tomu, že modely ako GPT-2 a AlphaGo demonštrovali pozoruhodné výsledky, Sutton neskôr prehodnotil svoje názory a naznačuje, že LLM môžu naraziť na limity vďaka svojej závislosti od ľudského obsahu. Video sa potom presúva k myšlienke učenia sa prostredníctvom skúseností, ako ju demonštroval AlphaGo, a nakoniec sa zamýšľa nad tým, či posilňované učenie (reinforcement learning) môže otvoriť nové možnosti pre AI.
Kľúčové poznatky
- Harpy: Prvý systém rozpoznávania reči, ktorý dosiahol pôsobivú presnosť vďaka rozsiahlej znalostnej databáze a pravidlám gramatiky.
- Horká lekcia: Argument Richarda Suttona, že spoliehanie sa na ľudskú znalosť pri vytváraní AI je kontraproduktívne.
- LLM a limity: Rozsiahle jazykové modely môžu naraziť na limity vďaka svojej závislosti od ľudského obsahu.
- Posilňované učenie (Reinforcement Learning): AlphaGo demonštroval, že AI sa môže učiť priamo zo skúseností bez potreby rozsiahlych trénovacích dát.
- Učenie sa prostredníctvom skúsenosti: Budúcnosť AI môže spočívať v systémoch, ktoré sa učia z reálnych odmien a interakcií so svetom.
História rozpoznávania reči: Od Harpy po súčasnosť
Prvé pokusy o vytvorenie systémov rozpoznávania reči boli ambiciózne. Projekt ARPA v 70. rokoch si stanovil cieľ dosiahnuť 90% presnosť na 1000 slovách do piatich rokov. Systém Harpy z Carnegie Mellon University tento cieľ nielenže dosiahol, ale ho aj prekonal. Jeho úspech spočíval v rozsiahlej znalostnej databáze (nad 14 000 uzlov) reprezentujúcej zvuky a štruktúry viet. Systém analyzoval zvuk tým, že rozdelil audio na bloky a porovnával frekvenčný obsah s frekvenciami známych zvukov v databáze. Okrem toho využíval formálnu gramatiku na obmedzenie akceptovaných štruktúr viet a zohľadňoval aj drobné zmeny vo výslovnosti, tzv. junktúry.
Napriek úspechu sa však Harpy ťažko škálovalo a bol nahradený modelmi skrytých Markovových reťazcov (Hidden Markov Models – HMM), ktoré využívali pravdepodobnosti naučené z dát namiesto explicitne definovaných pravidiel.
„Horká lekcia“ Richarda Suttona: Spoliehanie sa na ľudskú znalosť?
Richard Sutton, uznávaný odborník na posilňované učenie, v 90. rokoch formuloval koncept „horkej lekcie“. Jeho argument znie, že spoliehanie sa na ľudskú znalosť pri vytváraní AI je kontraproduktívne a že všeobecné výpočtové metódy sú efektívnejšie. Pôvodne to platilo pre systémy ako Harpy, ktoré boli založené na rozsiahlych ručne vytvorených pravidlách.
LLM: Potvrdenie „horkej lekcie“ alebo nie?
Vznik rozsiahlych jazykových modelov (LLM), ako je GPT-2, spočiatku vyvolal dojem, že Suttonove myšlienky boli potvrdené. Tieto modely dosahovali pôsobivé výsledky v rôznych úlohách spracovania prirodzeného jazyka. Avšak, v nedávnom rozhovore pre podcast Richard Sutton naznačil, že LLM môžu byť vlastne ďalším príkladom „horkej lekcie“, pretože sa silno spoliehajú na ľudsky generovaný text.
Posilňované učenie a AlphaGo: Učenie sa priamo zo skúseností
Prelomom v oblasti AI bolo stvárnenie hry Go systémom AlphaGo od Google DeepMind. AlphaGo sa naučil hrať Go na úrovni lepšej ako ľudia prostredníctvom posilňovaného učenia, a to bez použitia rozsiahlych trénovacích dát z hier hraných ľuďmi. Používal kombináciu „policy network“ (predpovedajúceho ťahy) a „value network“ (odhadujúceho pravdepodobnosť výhry), spolu s Monte Carlo tree search.
Budúcnosť AI: Učenie sa prostredníctvom skúsenosti?
David Silver a Richard Sutton argumentujú, že súčasné LLM sú obmedzené svojou závislosťou od ľudskej znalosti a navrhujú prechod k systémom, ktoré sa učia z reálnych odmien. Aktuálny výskum v oblasti posilňovaného učenia prostredníctvom ľudskej spätnej väzby (RLHF) a modelov uvažovania s overiteľnými odmenami (RLVR) predstavuje sľubný krok týmto smerom. Otázkou ostáva, či posilňované učenie dokáže otvoriť nové hranice v oblasti AI a prekonať limity súčasných systémov pri aplikácii na reálne problémy mimo sveta hier a matematiky.
Zhrnutie a úvahy
Video od Welch Labs ponúka fascinujúci pohľad do histórie a budúcnosti umelej inteligencie. Ukazuje, ako sa myšlienky o tom, ako by mala AI fungovať, menili v priebehu času a zdôrazňuje dôležitosť učenia sa priamo zo skúseností. Či už ide o rozsiahle jazykové modely alebo systémy posilňovaného učenia, cesta k vytvoreniu skutočne inteligentnej AI je stále plná výziev a príležitostí. Je jasné, že budúcnosť AI bude závisieť od našej schopnosti navrhnúť systémy, ktoré sa dokážu učiť z reálnych odmien a interakcií so svetom okolo nás.
Zdroje
- Originálne video
- Prekladiam...
- Ilustrovaný sprievodca umelou inteligenciou od Welch Labs Druhé vydanie — Welch Labs
- Ilustrovaný sprievodca umelou inteligenciou od Welch Labs Digitálna stiahnutelná verzia — Welch Labs
- Video The Bitter Lesson – Technické poznámky — Welch Labs
- GitHub - stephencwelch/manim_videos: Kód pre scény generované manim, použité vo videách Welch Labs
- Horká lekcia
- Richard Sutton – Father of RL thinks LLMs are a dead end
- Match 4 - Google DeepMind Challenge Match: Lee Sedol vs AlphaGo
- V mysli nadľudského modela Go: Ako číta Leela Zero reťaze? — LessWrong
- Harpy Search Long Version
Približne 195 gCO₂ bolo uvoľnených do atmosféry a na chladenie sa spotrebovalo 0.98 l vody za účelom vygenerovania tohoto článku.
Komentáre ()