Nové metódy posilňovacieho učenia: Offline RL, učenie sa z ukážok a ľudských preferencií

Nové metódy RL – Offline RL, Reward Learning a učenie sa z ľudských preferencií – otvárajú dvere k novým aplikáciám. Učíme sa z existujúcich dát bez interakcie s prostredím alebo využívame spätnú väzbu od ľudí na efektívne učenie politík. Budúcnosť RL vyzerá sľubne!

Nové metódy posilňovacieho učenia: Offline RL, učenie sa z ukážok a ľudských preferencií
Photo by Vitaly Gariev/Unsplash

Posledné roky prinášajú revolučnú zmenu v oblasti umelej inteligencie, konkrétne v posilňovacom učení (Reinforcement Learning – RL). Tradičné RL metódy sa spoliehajú na definované odmeny, ktoré sú však často ťažko definovateľné alebo nedostupné v reálnom svete. Nové výskumy sa zameriavajú na učenie sa z ukážok a ľudských preferencií, čo otvára dvere k novým aplikáciám a riešeniam. V poslednej prednáške Stanford CS224R sme sa dozvedeli o fascinujúcich metódach, ako sú Offline RL, Reward Learning a učenie sa z ľudských preferencií.

Kľúčové poznatky

  • Offline Reinforcement Learning (RL): Učíme sa politiku len z existujúcich dát bez potreby ďalšieho zbierania nových dát.
  • Učenie sa z ukážok: Trénujeme klasifikátor, ktorý predpovedá úspech alebo neúspech na základe označených príkladov a jeho výstup používame ako signál odmeny pre RL.
  • Učenie sa z ľudských preferencií: Požadujeme od ľudí spätnú väzbu, ktorá trajektória je lepšia medzi dvoma možnosťami.

Offline Reinforcement Learning: Učíme sa z minulosti

Offline RL predstavuje zaujímavý prístup k učeniu sa politík. Namiesto toho, aby agent interagoval s prostredím a zbieral nové dáta (ako je to pri tradičnom RL)), učí sa len z existujúcej databázy. Hlavnou výzvou je tzv. "distribution shift" – ak agent navrhne akciu, ktorá nebola v dátach prítomná, odhad Q-funkcie môže byť nesprávny a viesť k chybám.

Algoritmus IQL (Implicit Q-Learning) sa snaží tento problém riešiť učením hodnotovej funkcie a Q-funkcie len na základe dostupných stavov a akcií v dátach. Použitie asymetrickej straty pre hodnotovú funkciu pomáha učiť politiku, ktorá je lepšia ako pôvodná politika (behavior policy), pričom sa zameriava na vyššie Q-hodnoty.

Ďalším prístupom je CQL (Conservative Q-Learning), ktorý minimalizuje Q-hodnoty pre akcie mimo rozsahu dát. To zabezpečuje, že agent bude konzervatívny pri extrapolácii a nebude robiť nebezpečné rozhodnutia. Entropy regularizácia zabraňuje príliš determinovanému výberu akcií a umožňuje lepšiu generalizáciu.

Učenie sa z ukážok: Klasifikátor ako odmena

V situáciách, kde je ťažké definovať explicitnú funkciu odmeny, môžeme využiť učenie sa z ukážok. V tomto prístupe trénujeme klasifikátor, ktorý predpovedá úspech alebo neúspech na základe označených príkladov. Výstup tohto klasifikátora potom slúži ako signál odmeny pre RL agenta.

Je však dôležité zabrániť tomu, aby agent využil slabosti klasifikátora. Preto je potrebné periodicky retrainovať klasifikátor a pridávať do tréningových dát aj navštívené stavy (označené ako negatívne), čím sa zabezpečí rovnováha medzi pozitívnymi a negatívnymi príkladmi.

Učenie sa z ľudských preferencií: Spätná väzba od ľudí

Učenie sa z ľudských preferencií predstavuje ďalšiu fascinujúcu možnosť. Namiesto toho, aby sme poskytovali demonštrácie alebo definované ciele, požiadame ľudí o spätnú väzbu, ktorá trajektória je lepšia medzi dvoma možnosťami. Je oveľa ľahšie posúdiť relatívnu kvalitu trajektórií ako absolútne hodnotenie výkonu.

Tento prístup môže byť implementovaný pomocou generatívnych adversariálnych sietí (GAN), kde klasifikátor slúži ako diskriminátor a RL politika ako generátor. V oblasti jazykových modelov sa často využíva pre-tréning, následné jemné doladenie a potom posilňovacie učenie s ľudskými preferenciami.

Záver: Budúcnosť posilňovacieho učenia

Nové metódy v oblasti posilňovacieho učenia, ako Offline RL, Reward Learning a učenie sa z ľudských preferencií, otvárajú nové možnosti pre aplikácie v rôznych oblastiach, od optimalizácie emailových notifikácií (ako to LinkedIn využilo) až po trénovanie jazykových modelov. Tieto prístupy umožňujú využiť existujúce dáta a spätnú väzbu od ľudí na učenie sa efektívnych politík v situáciách, kde je definícia explicitnej funkcie odmeny náročná alebo nemožná. Budúcnosť posilňovacieho učenia vyzerá sľubne a očakávame ďalšie inovácie v tejto oblasti.

Zdroje

Hodnotenie článku:
Nové metódy posilňovacieho učenia: Offline RL, učenie sa z ukážok a ľudských preferencií

Hĺbka a komplexnosť obsahu (7/10)+
Povrchné / ZjednodušenéHlboká analýza / Komplexné

Zdôvodnenie: Článok sa zaoberá viacerými pokročilými témami RL a vysvetľuje ich. Hoci je zrozumiteľný, chýba hlbšia teoretická diskusia o limitáciách a výzvach jednotlivých metód.

Kredibilita (argumentácia, dôkazy, spoľahlivosť) (8/10)+
Nízka / NespoľahlivéVysoká / Spoľahlivé

Zdôvodnenie: Článok je dobre štruktúrovaný a vysvetľuje komplexné témy RL zrozumiteľne. Odkazuje na Stanford CS224R prednášku a spomína konkrétne algoritmy (IQL, CQL). Zdroje sú uvedené, čo zvyšuje dôveryhodnosť.

Úroveň zaujatosti a manipulácie (2/10)+
Objektívne / Bez manipulácieZaujaté / Manipulatívne

Zdôvodnenie: Článok je informačný a objektívny. Popisuje nové metódy RL bez výraznej zaujatosti alebo manipulatívnych techník. Zameriava sa na vysvetlenie konceptov.

Konštruktívnosť (9/10)+
Deštruktívne / ProblémovéVeľmi konštruktívne / Riešenia

Zdôvodnenie: Článok predstavuje nové metódy RL a ich aplikácie. Popisuje riešenia pre problémy s definíciou odmien a ponúka konkrétne prístupy (Offline RL, učenie sa z ukážok/preferencií) na zlepšenie efektivity.

Politické zameranie (5/10)+
Výrazne liberálneNeutrálneVýrazne konzervatívne

Zdôvodnenie: Článok sa zameriava na technický popis nových metód v oblasti umelej inteligencie a neobsahuje politické vyjadrenia ani hodnotenia.

Približne 190 gCO₂ bolo uvoľnených do atmosféry a na chladenie sa spotrebovalo 0.95 l vody za účelom vygenerovania tohoto článku.
Mastodon