Posilňovacie učenie: Úvod a algoritmy

Posilňovacie učenie (RL) učí agenta optimálnu stratégiu maximalizáciou odmeny interagujúc s prostredím. Základom je Markovov rozhodovací proces (MDP), ktorý definuje stavy, akcie a odmeny. Algoritmy ako Q-learning a SARSA sa zameriavajú na učenie politiky bez modelu prostredia.

Posilňovacie učenie: Úvod a algoritmy
Photo by Vitaly Gariev/Unsplash

Tento článok sumarizuje kľúčové body z prednášky „Reinforcement Learning“ v rámci kurzu Stanford CS221 (jeseň 2025). Prednáška sa zaoberá posilňovacím učením (RL), ktoré je oblasťou umelej inteligencie, kde agent interaguje s prostredím a učí sa optimálnu stratégiu (politiku) na maximalizáciu odmeny. Začneme opakovaním Markovových rozhodovacích procesov (MDPs), prejdeme cez rôzne algoritmy, ako je hodnota iterácie, a nakoniec sa zameriame na model-free učenie, vrátane Q-learningu a SARSA.

Prehľad Markovových rozhodovacích procesov (MDP)

Prednáška začína sa opakovaním MDPs, ktoré sú základom pre posilňovacie učenie. MDP definuje prostredie s nasledujúcimi komponentmi: počiatočný stav, akcie, pravdepodobnosti prechodu medzi stavmi, odmeny a test ukončenia. Jeden z príkladov je „flaky tram“ – situácia, kde sa musíte rozhodnúť, či pôjdete pešo alebo pôjdete električkou, pričom električka má istú pravdepodobnosť poruchy. MDPs sú vizualizované ako grafy s uzlami reprezentujúcimi stavy a šancovými uzlami reprezentujúcimi výsledky akcií. Politika je definovaná ako mapovanie stavu na akciu, čo umožňuje agentovi robiť rozhodnutia v rôznych situáciách.

Hodnotová iterácia a posilňovacie učenie

Hodnota politiky sa vypočíta ako očakávaná hodnota nekonečného počtu krokov podľa určitej politiky. Algoritmus hodnotovej iterácie používa rekurzívnu rovnicu na výpočet hodnoty danej politiky a následne extrahuje optimálnu politiku. Posilňovacie učenie je potom definované ako MDP, v ktorom samotný MDP nie je známy. Agent interaguje s prostredím, vykonáva akcie a získava odmeny a pozorovania. Agent sa snaží dynamicky meniť svoju politiku na základe spätnej väzby z prostredia.

Model-based vs. Model-free učenie

Prednáška rozlišuje medzi model-based a model-free prístupmi. Model-based RL sa snaží naučiť samotný MDP, čo umožňuje lepšie plánovanie. Model-free RL sa naopak zameriava priamo na odhad optimálnej politiky bez explicitného učenia sa modelu prostredia.

Monte Carlo a Q-learning: Model-free algoritmy

Prednáška predstavuje model-free algoritmus Monte Carlo, ktorý využíva epsilon-greedy stratégiu pre prieskum (exploration). Agent náhodne vyberie akciu s pravdepodobnosťou epsilon a inak si vyberie najlepšiu akciu na základe aktuálnych odhadov Q-hodnôt. Q-hodnoty sa vypočítajú ako priemery utilít pozorovaných počas epizód.

Q-learning je ďalší model-free algoritmus, ktorý využíva bootstrapping – nahradzuje odhad budúcej odmeny modelom. Rozdiel medzi SARSA a Q-learning spočíva v tom, že SARSA (State-Action-Reward-State-Action) odhaduje hodnoty pre aktuálnu politiku (on-policy), zatiaľ čo Q-learning odhaduje hodnoty pre optimálnu politiku (off-policy). Q-learning používa max_a' Q(s', a') v pravidle aktualizácie, zatiaľ čo SARSA používa Q(s', a').

Kľúčové poznatky

  • Posilňovacie učenie: Učí agenta optimálnu stratégiu (politiku) na maximalizáciu odmeny interagujúc s prostredím.
  • Markovove rozhodovacie procesy (MDP): Základný matematický rámec pre posilňovacie učenie, definuje stavy, akcie, pravdepodobnosti a odmeny.
  • Model-based vs. Model-free: Dva hlavné prístupy k RL – model-based sa učí prostredie, zatiaľ čo model-free sa zameriava priamo na učenie politiky.
  • Q-learning & SARSA: Dôležité algoritmy pre model-free posilňovacie učenie, ktoré odhadujú hodnoty a zlepšujú politiku.
  • Exploration vs. Exploitation: Dôležitý kompromis (tradeoff) v RL – agent musí skúmať nové akcie (exploration) aj využívať známe dobré akcie (exploitation).

Odporúčania a úvahy

Prednáška poukazuje na výzvy spojené s prácou s rozsiahlymi alebo kontinuálnymi stavovými priestormi. Tieto problémy vyžadujú pokročilé techniky, ako sú funkčné aproximácie a hĺbkové učenie (deep learning), ktoré sa stali kľúčovými nástrojmi v modernom posilňovacom učení. Pre študentov, ktorí sa zaujímajú o túto oblasť, je odporúčané pokračovať v štúdiu pokročilejších algoritmov a techník na zvládanie komplexných prostredí. Prednáška predstavila základné koncepty posilňovacieho učenia, ktoré slúžia ako pevný základ pre ďalšie poznávanie v tejto vzrušujúcej oblasti umelej inteligencie.

Zdroje

Hodnotenie článku:
Posilňovacie učenie: Úvod a algoritmy

Hĺbka a komplexnosť obsahu (7/10)+
Povrchné / ZjednodušenéHlboká analýza / Komplexné

Zdôvodnenie: Článok sumarizuje kľúčové koncepty RL a MDPs. Pokrýva rôzne algoritmy (hodnotová iterácia, Q-learning, SARSA) a rozlišuje medzi model-based/free učením. Hĺbka je primeraná pre úvodný prehľad.

Kredibilita (argumentácia, dôkazy, spoľahlivosť) (9/10)+
Nízka / NespoľahlivéVysoká / Spoľahlivé

Zdôvodnenie: Článok sumarizuje prednášku z renommovaného kurzu Stanfordu. Vysvetľuje kľúčové koncepty RL a algoritmy s jasnou štruktúrou. Odkaz na pôvodné video zvyšuje dôveryhodnosť.

Úroveň zaujatosti a manipulácie (1/10)+
Objektívne / Bez manipulácieZaujaté / Manipulatívne

Zdôvodnenie: Článok je striktne informatívny a sumarizuje prednášku. Neobsahuje žiadnu zaujatosť ani manipulatívne techniky; prezentuje fakty objektívne.

Konštruktívnosť (7/10)+
Deštruktívne / ProblémovéVeľmi konštruktívne / Riešenia

Zdôvodnenie: Článok sumarizuje prednášku a vysvetľuje kľúčové koncepty RL. Nehovorí o riešeniach problémov, ale poskytuje základy pre ďalšie štúdium.

Politické zameranie (5/10)+
Výrazne liberálneNeutrálneVýrazne konzervatívne

Zdôvodnenie: Článok sa zameriava na vysvetlenie technických konceptov umelej inteligencie a neobsahuje žiadne politické vyhlásenia alebo názory.

Približne 209 gCO₂ bolo uvoľnených do atmosféry a na chladenie sa spotrebovalo 1.05 l vody za účelom vygenerovania tohoto článku.
Mastodon