Validácia bezpečnostne kritických systémov: vysvetliteľnosť a mechanistická interpretácia
Validácia bezpečnostne kritických systémov vyžaduje vysvetliteľnosť a mechanistickú interpretáciu. Prednáška preskúmala techniky ako Shapleyho hodnoty, politickú vizualizáciu a sparse autoencoders na pochopenie fungovania sofistikovaných AI modelov a odhalenie potenciálnych problémov.
Táto prednáška zo Stanfordu sa ponorila do fascinujúceho sveta validácie bezpečnostne kritických systémov, pričom sa zvláštnou pozornosťou venovala vysvetliteľnosti a mechanistickej interpretácii. Prednášajúci prechádza široké spektrum tém, od analýzy dosiahnuteľnosti až po komplexné koncepty ako Shapleyho hodnoty a causal graphs, s cieľom poskytnúť hlboký pohľad na to, ako porozumieť a dôverovať rozhodnutiam sofistikovaných AI systémov.