"Finálny boss" hlbokého učenia: Ako teória kategórií môže zachrániť AI
Moderné AI modely, ako ChatGPT, zlyhávajú v základnej matematike (sčítanie) kvôli nedostatku vnútorného mechanizmu pre operácie. Teória kategórií ponúka nový rámec („periodická tabuľka“ neurónových sietí), ktorý by mohol AI posunúť od pokusov a omylu k vedeckému inžinierstvu.
Nedávno sa objavil fascinujúci videozáznam na YouTube, ktorý sa zaoberá zásadnými limitáciami dnešných modelov umelej inteligencie a radikálnym matematickým rámcom, ktorý by ich mohol vyriešiť. Video „The 'Final Boss' of Deep Learning“ od Machine Learning Street Talk preskúma, prečo modely ako ChatGPT stále zlyhávajú pri jednoduchých úlohách, ako je sčítanie a riešenie fyzikálnych problémov, a predstavuje kategóriu teórie ako potenciálne „periodickú tabuľku“ pre neurónové siete.
Kľúčové poznatky
Video odhaľuje niekoľko dôležitých zistení:
- Problém sčítania: Moderné jazykové modely (LLM) v skutočnosti „nevedia“ matematiku, iba rozpoznávajú vzory. Zmena jediného čísla v dlhom reťazci čísel naruší tento vzor, pretože model nemá vnútorný mechanizmus na vykonanie jednoduchého prenosu (carry).
- Od alchýmie k vede: Hlboké učenie je momentálne vo fáze „alchýmie“ – máme výkonné výsledky, ale chýba nám jednotná teória. Kategória teória by mohla byť rámcom na prechod AI od pokusov a omylu k princípmi založenému inžinierstvu.
- Algebra s farbami: Koncepty kategórie teórie sú vysvetľované pomocou analógie „algebra s farbami“, kde sa matice vnímajú ako magnety s farbami, ktoré sa spoja iba ak typy zodpovedajú.
- Analytická vs. Syntetická matematika: Je potrebná filozofická zmena v AI výskume: prechod od „analytickej“ matematiky (čo veci tvoria) k „syntetickej“ matematike (ako sa veci správajú a vzájomne sa viažu).
- Štyridsaťrozmerný prenos: Aj jednoduché algoritmy, ako je prenos čísla pri sčítaní, súvisia so zložitými geometrickými štruktúrami, ako sú Hopfove fibrácie.
Prečo LLM zlyhávajú v matematike?
Problém spočíva v architektúre samotných modelov. LLM sa učia rozpoznávať vzory v obrovskom množstve dát. Keďže však nemajú vnútorný mechanizmus na vykonávanie matematických operácií, ako je prenos čísla pri sčítaní, ich výkon klesá, keď sa menia vstupné dáta. Predstavte si to takto: model videl tisíce príkladov 1 + 1 = 2, ale nikdy nepochopil prečo je to tak. Keď mu zadáte 999 + 1, vzor sa zlomí a model „halucinuje“ výsledok.
Kategória teória: Nový rámec pre AI?
Kategória teória je ultra-abstraktná vetva matematiky, ktorá ponúka potenciálne riešenie tohto problému. Podľa hostiteľa videa Tima Scarfeho by mohla slúžiť ako „periodická tabuľka“ pre neurónové siete, čím by sa z alchýmie moderných AI stala rigorózna veda.
Ako to funguje? Kategória teória umožňuje modelovať vzťahy medzi rôznymi matematickými objektmi a operáciami. To znamená, že môžeme vytvárať modely, ktoré „rozumejú“ pravidlám logiky a výpočtov, namiesto toho, aby sa len učili rozpoznávať vzory.
Algebra s farbami: Pochopenie kategórie teórie
Aby bolo pochopenie kategórie teórie prístupnejšie, hostia používajú analógiu „algebra s farbami“. Predstavte si matice ako magnety s rôznymi farbami. Tieto magnety sa spoja iba vtedy, keď zodpovedá ich typ. Toto „čiastočné zloženie“ je kľúčom k budovaniu komplexnejšieho vnútorného uvažovania v neurónových sieťach.
Od analytickej k syntetickej matematike: Zmena paradigmy
Paul Lessard rozdeľuje filozofickú zmenu potrebnú v AI výskume: prechod od „analytickej“ matematiky (čo veci tvoria) k „syntetickej“ matematike (ako sa veci správajú a vzájomne sa viažu). Namiesto toho, aby sme sa len snažili pochopiť, z čoho sú veci zložené, musíme sa zaoberať tým, ako fungujú a ako spolupracujú.
Zložitosť prenosu čísla: Hopfove fibrácie
V ohromujúcom záverečnom tvrdení tím diskutuje o tom, že aj jednoduché algoritmy, ako je „prenos čísla“ pri sčítaní, súvisia so zložitými geometrickými štruktúrami, ako sú Hopfove fibrácie. To naznačuje, že základné matematické operácie môžu byť oveľa zložitejšie a zaujímavejšie, než si myslíme.
Záver: Budúcnosť AI je v kategórii teórii?
Ak chceme, aby AI riešila najťažšie vedecké problémy, nemôže to byť len „stochastický papagáj“. Potrebuje internalizovať pravidlá logiky a výpočtov. Vytvorením neurónových sietí s kategóriovými prioritami sa výskumníci pokúšajú vybudovať budúcnosť, v ktorej AI nerozpoznáva len ďalšie slovo – rozumie podstate vesmíru. Kategória teória predstavuje sľubný smer pre budúcnosť umelej inteligencie a môže byť kľúčom k vytvoreniu skutočne inteligentných systémov.
Zdroje
- Originálne video
- Viem
- Genie 3: Nová hranica pre globálne modely
- Geometrické hlboké učenie: siete, skupiny, grafy, geodézie a meradlá
- Aplikácie viacerých ortogonálnych polynómov s hypergeometrickými funkciami generujúcimi momenty
- Generovanie kódu na úrovni súťaže s AlphaCode
- Matematické objavy z hľadania programov pomocou rozsiahlych jazykových modelov - Nature
- Pozornosť je všetko, čo potrebuješ
- Pozícia: Kategóriové hlboké učenie je algebraická teória všetkých architektúr
Približne 200 gCO₂ bolo uvoľnených do atmosféry a na chladenie sa spotrebovalo 1.00 l vody za účelom vygenerovania tohoto článku.
Komentáre ()