AI hrá Pokémona: Zábavný experiment s vážnymi zisteniami

Experiment AI hrajúcej Pokémona odhaľuje vážne problémy autonómnych systémov: zacyklenia v chybách, otrávenie pamäte a stratu kreativity. Ponaučenie pre budúcnosť umelej inteligencie.

Photo by Li Panidara / Unsplash

Predstavte si umelú inteligenciu, ktorá hrá klasickú videohru Pokémon. Znie to ako kuriozita alebo žart, však? Na prvý pohľad by sa mohlo zdať, že nechať veľký jazykový model (LLM) hrať detskú hru je len pre zábavu. Slovenský AI nadšenec Igor Šovčík však vo svojom príspevku poukazuje, že tento nezvyčajný experiment odhaľuje viacero vážnych problémov v správaní autonómnych AI agentov. Ide o javy ako „otrava“ kontextu, zacyklenie sa v neúspechoch, kognitívna zotrvačnosť a kolaps rôznorodosti riešení. Tieto problémy síce vyplávali na povrch pri hraní Pokémona, no môžu ovplyvňovať akékoľvek komplexné systémy umelej inteligencie – od právnych asistentov cez riadenie organizácií až po technické AI systémy. V tomto článku si zrozumiteľne vysvetlíme, čo tieto pojmy znamenajú, aké majú dôsledky aj mimo sveta hier, a aké riešenia výskumníci navrhujú.

Kľúčové poznatky

Context poisoning (otrávenie kontextu): Postupné nahromadenie chybných alebo zavádzajúcich informácií v pamäti AI (kontexte), ktoré skresľujú jej ďalšie rozhodovanie a správanie.
Failure loops (zacyklené zlyhania): Stav, keď sa AI agent opakovane cyklí v neúspešných akciách a nedokáže nájsť východisko, často preto, že má obmedzený alebo pomýlený kontext.
Cognitive entrenchment (kognitívna zotrvačnosť): Tendencia AI uviaznuť v osvedčenom spôsobe uvažovania alebo stratégie, aj keď prestáva fungovať optimálne – model ustrnie v starých návykoch namiesto toho, aby sa prispôsobil novým okolnostiam.
Mode collapse (kolaps rôznorodosti): Jav, pri ktorom sa správanie alebo výstupy AI zúžia iba na jeden či pár vzorcov a stráca sa pestrosť riešení. Model akoby „zamrzne“ v jednom móde a ignoruje iné možné prístupy.

Tieto zistenia nie sú len akademické – každý z nich má reálne dopady. Nižšie sa podrobnejšie pozrieme na to, ako sa uvedené javy prejavili v AI hrajúcej Pokémona, a ukážeme si príklady, ako podobné problémy môžu nastať aj v právnych, organizačných či iných technických systémoch.

Otrávený kontext (context poisoning)

Jedným z prvých problémov, na ktoré Igor Šovčík upozornil, je otrava kontextu. Predstavte si, že AI model si počas hry ukladá do svojej „pamäte“ všetko, čo sa stalo – dobré aj zlé rozhodnutia, úspechy aj omyly. Otrávenie kontextu nastáva, keď sa v tejto pamäti nahromadia chybné alebo toxické informácie, ktoré následne ovplyvňujú ďalšie rozhodnutia systému. V experimentálnej Pokémon hre to mohlo znamenať, že ak si model nesprávne vyloží určitú hernú situáciu (napríklad omylom vyhodnotí neškodnú prekážku ako neprekonateľnú), táto mylná informácia ostane v kontexte a vedie AI k chybným akciám aj neskôr. Model potom pokračuje s „otráveným“ pohľadom na svet hry a môže sa správať nelogicky či neefektívne.

Prečo je to dôležité mimo hry? Otrávený kontext môže nastať v rôznych oblastiach. Príklad z práva: Predstavme si právnickú AI, ktorá analyzuje súdny prípad. Ak do jej vstupov prenikne chybná informácia alebo zaujatý predpoklad (napríklad nesprávny údaj o predchádzajúcom rozsudku), môže sa tento omyl stať súčasťou jej kontextu. Následne AI buduje argumentáciu na chybných základoch a jej odporúčania môžu byť skreslené. Podobne v medicíne – ak zdravotnícky AI asistent vychádza z nesprávnej anamnézy pacienta uloženej v kontexte, jeho diagnostické závery môžu byť nebezpečne pomýlené. Otrávený kontext je teda ako snehová guľa: malá chybička sa nabalí a ovplyvní veľkú časť procesu rozhodovania. V organizáciách to vidíme napríklad vtedy, keď sa do rozhodovania vkradnú neoverené dáta alebo domnienky – nasledujúce strategické rozhodnutia firmy potom môžu byť výrazne mimo, pretože “kontext” porady bol otrávený nesprávnymi vstupmi.

Zacyklenie sa v zlyhaniach (failure loops)

Druhým pozorovaným javom sú failure loops, čiže zacyklené zlyhania. Ide o situáciu, keď AI agent opakovane uviazne v slučke neúspešných akcií a nedokáže sa z nej vymaniť. V prípade AI hrajúcej Pokémona sa to prejavilo napríklad tým, že model dlhý čas dokola narážal na tú istú prekážku. V priamom prenose na Twitchi diváci videli, ako Claude (AI model od Anthropic) opakovane skúšal prejsť cez skalu, ktorá blokovala cestu, a nechápal, prečo to nejde. Pre nás ľudí je riešenie triviálne – obísť prekážku inou cestou. No AI uviazla v slučke zlyhania: stále skúšala to isté neúspešné riešenie, pretože jej aktuálny kontext a strategické nastavenie jej neumožnili uvedomiť si inú možnosť (Anthropic's Claude AI is playing Pokémon on Twitch — slowly | TechCrunch). Až po dlhom čase jej “došlo”, že treba zmeniť prístup a skúsila obísť prekážku.

Kde inde hrozia takéto zacyklenia? V technických systémoch nie je nič výnimočné, že program alebo robot uviazne v nekonečnej slučke. Napríklad automatický vysávač, ktorý stále prechádza tú istú trasu a obchádza neviditeľnú prekážku, hoci má k dispozícii zvyšok miestnosti. Alebo algoritmus, ktorý pri chybe stále reštartuje ten istý nefunkčný postup, čím vytvorí nekonečný cyklus zlyhania. V organizáciách môžeme vidieť obdobu: firma opakovane nasadzuje tu istú stratégiu, aj keď čísla už niekoľkokrát ukázali, že nefunguje – vedenie je akoby zaseknuté v myšlienkovom kruhu a nevie nájsť východisko. Takýto failure loop často vzniká, keď ľudia (či AI) nevidia alternatívu alebo ignorujú signály, že treba zásadne zmeniť prístup. Dôsledkom môže byť premárnený čas, zdroje a narastajúca frustrácia – či už ide o AI, ktorá blúdi v hre, alebo tím, ktorý blúdi v neúspešnom projekte.

Kognitívna zotrvačnosť (cognitive entrenchment)

Tretím dôležitým fenoménom je cognitive entrenchment, ktorý môžeme voľne preložiť ako kognitívna zotrvačnosť či uviaznutie v zaužívanom spôsobe myslenia. AI systémy (podobne ako ľudia) majú tendenciu držať sa toho, čo sa im kedysi osvedčilo, a neradi menia svoj zaužívaný postup – aj keď situácia volá po zmene. V Pokémon experimente sa to môže prejaviť tak, že model opakovane volí tú istú hernú stratégiu, ktorú si vyvinul na začiatku, hoci neskôr už nie je najlepšia. Napríklad ak si AI na začiatku hry „obľúbi“ určitý útok alebo postup v súbojoch, môže ho tvrdohlavo používať proti všetkým súperom, aj keď by iná taktika bola efektívnejšia. Táto mentálna zotrvačnosť brzdí schopnosť učiť sa z nových podnetov – model je v zákopoch svojho pôvodného myslenia. Igor Šovčík poznamenáva, že s pribúdajúcimi schopnosťami pokročilých AI môže byť tento problém ešte výraznejší, pretože čím viac kognitívnych úloh AI prevezme, tým silnejšie sa môže utvrdiť vo vlastných zaužívaných vzorcoch správania.

Cognitive entrenchment dobre poznáme aj u ľudí. Právnik alebo sudca môže zotrvávať v jednom spôsobe výkladu zákona, lebo v minulosti mu fungoval, a prehliada novšie precedensy či inovatívne argumenty. Skúsený inžinier môže ignorovať nové riešenia, pretože “vždy sme to takto robili”. V organizačnom prostredí sa táto zotrvačnosť prejaví ako odpor k zmene – napríklad firma dlhé roky používa tú istú obchodnú stratégiu na základe minulých úspechov a nevšimne si, že trh sa zmenil a vyžaduje iný prístup. U AI systémov je nebezpečenstvo v tom, že kognitívne uviaznutie môže byť neviditeľné, pokiaľ AI naoko funguje. Model môže dávať zmysluplné odpovede, ale všetky sú podľa jednej šablóny a z jedného uhla pohľadu. Stráca sa čerstvosť a kritické prehodnocovanie – AI už nerozmýšľa out of the box, ale zostáva bezpečne v boxe, ktorý si sama vytvorila z predošlých skúseností.

Kolaps rôznorodosti (mode collapse)

Napokon je tu fenomén známy ako mode collapse, čiže kolaps rôznorodosti výstupov. Tento termín pochádza zo sveta strojového učenia (najmä generatívnych modelov), kde označuje situáciu, že model postupne skĺzne k jednoliatym výstupom a ignoruje iné možnosti. Inými slovami, AI prestane byť kreatívna či adaptívna a začne dookola generovať veľmi podobné riešenia, pretože si našla jeden “mód”, v ktorom funguje.

V experimente s Pokémonom by mode collapse znamenal, že Claude by napríklad prestával skúšať nové veci a opakoval by ten istý vzorec hry. Mohlo by to vyzerať tak, že vždy začne boj rovnakým ťahom, vždy rovnakým spôsobom prechádza každú oblasť hry, pomenuje každého Pokémona podobne atď., čím by hra stratila pestrosť. Niečo podobné sa v AI streamoch aj pozorovalo – model mal sklony generovať veľmi predvídateľné akcie a musel byť stimulovaný, aby skúšal aj iné prístupy.

V širšom kontexte je kolaps rôznorodosti rizikom všade tam, kde chceme, aby AI ponúkala viacero možností alebo tvorivých riešení. V tvorbe textu alebo umenia to vidíme tak, že generátor začne tvoriť stále ten istý štýl obrazu či príbehu, hoci by mal vymýšľať rôzne štýly. Alebo jazykový model začne odpovedať veľmi šablónovito – napríklad na každú otázku dá odpoveď s rovnakou štruktúrou, pretože táto šablóna sa mu počas tréningu osvedčila. V biznise môže analogicky dôjsť ku “kolapsu módov” tak, že analytický softvér začne prehliadať okrajové scenáre a stále dokola navrhuje len mainstreamové riešenie, čím firme unikajú inovatívne prístupy. Mode collapse teda znamená stratu kreativity a prispôsobivosti – AI hrá “tú istú pesničku dookola”. A hoci tá pesnička môže znieť dobre, v meniacej sa realite je to problém, lebo svet vie byť nepredvídateľný a jednotvárne riešenia prestávajú stačiť.

Ako tieto problémy riešiť?

Dobrou správou je, že výskumníci si uvedomujú tieto nedostatky a aktívne hľadajú spôsoby, ako ich prekonať. Medzi perspektívne prístupy patrí:

Rekontextualizácia: Jednoducho povedané, ide o “refresh” pre AI kontext. Model by sa priebežne zbavoval nadbytočných alebo zavádzajúcich informácií vo svojej pamäti a preformuloval by si kontext tak, aby bol relevantný a čistý. V praxi to môže znamenať, že AI dostane pravidelné reštarty s prehľadným zhrnutím dôležitých faktov, čím sa vymažú potenciálne otravy kontextu. Rekontextualizácia pomáha AI vidieť situáciu nanovo a nepodliehať starým omylom.
Reflexívne metamodely: Ide o modely, ktoré sledujú a korigujú iné modely – akýsi druhý (meta) mozog pre AI. Tento prístup zavádza reflexiu, teda schopnosť AI uvažovať o vlastnom uvažovaní. Napríklad nad hlavnou AI bežiacou hru by mohla dozerať ďalšia AI, ktorá vyhodnocuje: “Neviazne môj hlavný agent v slučke? Neopakuje sa? Nezavádzajú ho nesprávne dáta?” Takýto metamodel môže detegovať context poisoning či failure loop a zasiahnuť – napríklad upozorniť hlavný model, aby prehodnotil svoj plán. Výsledkom je, že AI systém má zabudovanú sebakontrolu a schopnosť poučiť sa v reálnom čase, podobne ako keď človek získa nadhľad nad svojím správaním.
Kontextové filtre: Toto riešenie pripomína filter v e-mailovej schránke – len namiesto spamu filtruje nevhodný alebo zavádzajúci kontext. AI by mala mechanizmy, ktoré automaticky odstraňujú šum: opakujúce sa informácie, očividné nezmysly alebo toxické vstupy, ktoré by mohli „otráviť“ jej pracovnú pamäť. Kontextové filtre môžu napríklad vynechať z predchádzajúcej komunikácie všetko, čo nie je pre aktuálnu úlohu podstatné, alebo označiť časti kontextu, ktoré sú podozrivé (napr. neoverené tvrdenia). Tým sa znižuje riziko, že AI bude rozhodovať na základe chybných údajov.
Dezinfekcia kontextu: Kým filtre odstraňujú šum priebežne, dezinfekcia kontextu je cielenejší zásah, keď už k otrave došlo. Predstavme si to ako antivírus pre AI pamäť – keď sa zistí, že v kontexte sa nachádza chybná informácia alebo nebezpečný vzorec (napríklad začínajúci failure loop), systém vykoná hĺbkovú očistu. Môže to znamenať, že AI spätne prehodnotí kľúčové premisy svojho doterajšieho uvažovania a uprace si fakty: “Je toto naozaj pravda, alebo som sa nechal zmiasť?” Dezinfekcia kontextu tak opraví už vzniknuté skreslenia – podobne ako keď si človek uvedomí, že pracoval s nesprávnym predpokladom a vedome ho vyradí z úvah.

Všetky tieto prístupy – od rekontextualizácie po reflexívne modely – smerujú k tomu, aby boli budúce AI odolnejšie, pružnejšie a spoľahlivejšie. Učia AI systémy, ako neuvaiznuť vo vlastnej “hlave”, ale naopak dynamicky sa prispôsobovať a udržiavať si čistý rozhľad.

Záver: Ponaučenie pre budúcnosť AI

Experiment, v ktorom AI hrá Pokémona, nie je len internetová zábavka pre geekov. Ukázal nám v priamom prenose, s čím všetkým sa budú musieť autonómne AI agenti vyrovnať. Hoci išlo „iba“ o videohru, podobné princípy platia pre AI, ktoré budú v budúcnosti riadiť autonómne autá, pomáhať lekárom s diagnózami či asistovať pri rozhodovaní manažérom. Context poisoning, failure loops, cognitive entrenchment a mode collapse – to všetko sú potenciálne pasce, do ktorých môže AI spadnúť, pokiaľ ju nenaučíme, ako sa im vyhnúť.

Dobrou správou je, že vďaka takýmto experimentom tieto slabiny odhaľujeme skôr, než AI nasadíme v kritických úlohách. Každé zaváhanie Claudea v Pokémonovi bolo viditeľné pre výskumníkov a divákov, čo umožňuje otvorene diskutovať o tom, prečo k nemu došlo. Toto poznanie je neoceniteľné: vieme, na čo si dať pozor pri vývoji zložitejších systémov. Navyše, riešenia ako rekontextualizácia či reflexívne metamodely dávajú nádej, že budúce AI sa z týchto chýb poučia a budú odolnejšie.

Z pohľadu bežného používateľa to znamená väčšiu dôveru v inteligentných pomocníkov. Ak AI v telefóne alebo aute nebude “uviaznutá v slučke” či ovplyvnená nejakou starou chybou, bude pre nás užitočnejšia a bezpečnejšia. Z pohľadu spoločnosti ako celku je dôležité, aby vývojári venovali pozornosť nielen zvyšovaniu schopností AI, ale aj predchádzaniu zlyhaniam. Pokémon experiment nám trochu hravou formou pripomenul, že inteligencia nie je len o výkone, ale aj o schopnosti adaptovať sa, učiť sa z omylov a udržiavať si čistý pohľad.

Keď najbližšie uvidíte AI hrať nejakú hru (či už to bude Pokémon alebo iná výzva), spomeňte si, že nejde len o to, či vyhrá. Dôležitejšie je, čo sa pri tom naučíme my o nej. Každá prekážka, do ktorej AI vrazí, je príležitosťou vylepšiť jej dizajn. Ak sa z týchto ponaučení poučíme, budú budúce autonómne systémy múdrejšie – a možno raz zvládnu aj svet zložitejší než ten pokémonový.

Dôležité odkazy:

Experimentálny Twitch kanál Claude Plays Pokémon (živé vysielanie AI hrajúcej Pokémon Red)
Článok Anthropic’s Claude AI is playing Pokémon on Twitch — slowly (TechCrunch, 25. február 2025) (Anthropic's Claude AI is playing Pokémon on Twitch — slowly | TechCrunch) (Anthropic's Claude AI is playing Pokémon on Twitch — slowly | TechCrunch)
Správa Anthropic is training its AI by having it play Pokemon on Twitch (Tubefilter, 26. február 2025) (Anthropic is training its AI by having it play Pokemon on Twitch - Tubefilter) (Anthropic is training its AI by having it play Pokemon on Twitch - Tubefilter)

Tento príspevok bol AI generovaný na základe facebookového príspevku Igora Šovčíka zakladateľa altky.sk