Posilňovacie učenie: Úvod a algoritmy
Posilňovacie učenie (RL) učí agenta optimálnu stratégiu maximalizáciou odmeny interagujúc s prostredím. Základom je Markovov rozhodovací proces (MDP), ktorý definuje stavy, akcie a odmeny. Algoritmy ako Q-learning a SARSA sa zameriavajú na učenie politiky bez modelu prostredia.
Tento článok sumarizuje kľúčové body z prednášky „Reinforcement Learning“ v rámci kurzu Stanford CS221 (jeseň 2025). Prednáška sa zaoberá posilňovacím učením (RL), ktoré je oblasťou umelej inteligencie, kde agent interaguje s prostredím a učí sa optimálnu stratégiu (politiku) na maximalizáciu odmeny. Začneme opakovaním Markovových rozhodovacích procesov (MDPs), prejdeme cez rôzne algoritmy, ako je hodnota iterácie, a nakoniec sa zameriame na model-free učenie, vrátane Q-learningu a SARSA.
Prehľad Markovových rozhodovacích procesov (MDP)
Prednáška začína sa opakovaním MDPs, ktoré sú základom pre posilňovacie učenie. MDP definuje prostredie s nasledujúcimi komponentmi: počiatočný stav, akcie, pravdepodobnosti prechodu medzi stavmi, odmeny a test ukončenia. Jeden z príkladov je „flaky tram“ – situácia, kde sa musíte rozhodnúť, či pôjdete pešo alebo pôjdete električkou, pričom električka má istú pravdepodobnosť poruchy. MDPs sú vizualizované ako grafy s uzlami reprezentujúcimi stavy a šancovými uzlami reprezentujúcimi výsledky akcií. Politika je definovaná ako mapovanie stavu na akciu, čo umožňuje agentovi robiť rozhodnutia v rôznych situáciách.
Hodnotová iterácia a posilňovacie učenie
Hodnota politiky sa vypočíta ako očakávaná hodnota nekonečného počtu krokov podľa určitej politiky. Algoritmus hodnotovej iterácie používa rekurzívnu rovnicu na výpočet hodnoty danej politiky a následne extrahuje optimálnu politiku. Posilňovacie učenie je potom definované ako MDP, v ktorom samotný MDP nie je známy. Agent interaguje s prostredím, vykonáva akcie a získava odmeny a pozorovania. Agent sa snaží dynamicky meniť svoju politiku na základe spätnej väzby z prostredia.
Model-based vs. Model-free učenie
Prednáška rozlišuje medzi model-based a model-free prístupmi. Model-based RL sa snaží naučiť samotný MDP, čo umožňuje lepšie plánovanie. Model-free RL sa naopak zameriava priamo na odhad optimálnej politiky bez explicitného učenia sa modelu prostredia.
Monte Carlo a Q-learning: Model-free algoritmy
Prednáška predstavuje model-free algoritmus Monte Carlo, ktorý využíva epsilon-greedy stratégiu pre prieskum (exploration). Agent náhodne vyberie akciu s pravdepodobnosťou epsilon a inak si vyberie najlepšiu akciu na základe aktuálnych odhadov Q-hodnôt. Q-hodnoty sa vypočítajú ako priemery utilít pozorovaných počas epizód.
Q-learning je ďalší model-free algoritmus, ktorý využíva bootstrapping – nahradzuje odhad budúcej odmeny modelom. Rozdiel medzi SARSA a Q-learning spočíva v tom, že SARSA (State-Action-Reward-State-Action) odhaduje hodnoty pre aktuálnu politiku (on-policy), zatiaľ čo Q-learning odhaduje hodnoty pre optimálnu politiku (off-policy). Q-learning používa max_a' Q(s', a') v pravidle aktualizácie, zatiaľ čo SARSA používa Q(s', a').
Kľúčové poznatky
- Posilňovacie učenie: Učí agenta optimálnu stratégiu (politiku) na maximalizáciu odmeny interagujúc s prostredím.
- Markovove rozhodovacie procesy (MDP): Základný matematický rámec pre posilňovacie učenie, definuje stavy, akcie, pravdepodobnosti a odmeny.
- Model-based vs. Model-free: Dva hlavné prístupy k RL – model-based sa učí prostredie, zatiaľ čo model-free sa zameriava priamo na učenie politiky.
- Q-learning & SARSA: Dôležité algoritmy pre model-free posilňovacie učenie, ktoré odhadujú hodnoty a zlepšujú politiku.
- Exploration vs. Exploitation: Dôležitý kompromis (tradeoff) v RL – agent musí skúmať nové akcie (exploration) aj využívať známe dobré akcie (exploitation).
Odporúčania a úvahy
Prednáška poukazuje na výzvy spojené s prácou s rozsiahlymi alebo kontinuálnymi stavovými priestormi. Tieto problémy vyžadujú pokročilé techniky, ako sú funkčné aproximácie a hĺbkové učenie (deep learning), ktoré sa stali kľúčovými nástrojmi v modernom posilňovacom učení. Pre študentov, ktorí sa zaujímajú o túto oblasť, je odporúčané pokračovať v štúdiu pokročilejších algoritmov a techník na zvládanie komplexných prostredí. Prednáška predstavila základné koncepty posilňovacieho učenia, ktoré slúžia ako pevný základ pre ďalšie poznávanie v tejto vzrušujúcej oblasti umelej inteligencie.
Zdroje
- Originálne video
- Kurzy a programy umelej inteligencie | Stanford Online
- online.stanford.edu
- AI 221: Umelecká inteligencia: Princípy a techniky
- Stanford CS221: Artificial Intelligence: Principles and Techniques | Autumn 2025
Približne 209 gCO₂ bolo uvoľnených do atmosféry a na chladenie sa spotrebovalo 1.05 l vody za účelom vygenerovania tohoto článku.
Komentáre ()