Hodnotenie jazykových modelov: Pohľad zo Stanfordu
Hodnotenie jazykových modelov je kľúčové pre ich vývoj. Tréningové dáta zásadne ovplyvňujú výkonnosť a benchmarky sa neustále vyvíjajú. Perplexity môže byť zavádzajúca, preto sú dôležité rôzne metódy – od Chatbot Areny po agent-based testovanie.