Posúvanie jazykových modelov: RLHF, DPO a nové stratégie
Posúvanie jazykových modelov: RLHF, DPO a nové stratégie ako GRPO, R1 a Kimmy 1.5 predstavujú pokrok v optimalizácii AI pomocou učenia posilnenia. Článok sumarizuje kľúčové poznatky z prednášky Stanfordu CS336.