Pokrok v AI pre slovenský jazyk: GAMS model
Pokrok v AI prináša rozsiahly jazykový model GAMS špeciálne pre slovenčinu. Projekt z Národného centra HPC sa zaoberá tréningom modelu s viac ako 30 miliónmi slov a plánuje ďalšie rozšírenie, aby podporil technológie a zachoval kultúrne dedičstvo v našom jazyku.
V tomto článku sa pozrieme na fascinujúci projekt z Národného kompetenčného centra pre HPC, ktorý sa zaoberá vývojom rozsiahlych jazykových modelov (LLM) špeciálne pre slovenský jazyk. V expertnom webinári predstavili prácu na modeli GAMS (Generative Model for Slovin), ktorý má potenciál zmeniť spôsob, ako interagujeme s technológiami a spracovávame informácie v našom jazyku.
Kľúčové poznatky
- GAMS: Otvorený jazykový model pre slovenský jazyk vyvíjaný na Univerzite v Ljubljane.
- Dáta: Získali viac ako 30 miliónov slov a usilujú sa o ešte väčšie datasety z rôznych inštitúcií.
- Kultúrny kontext: Dôležitosť porozumenia kultúrnemu kontextu, ilustrované príkladom s „gibonitou“ v špagetách bolognese.
- Výzvy: Tréning rozsiahlych modelov predstavuje výpočtové výzvy a vyžaduje využitie európskych HPC zdrojov.
- Hodnotenie: Vyvinuli vlastný rámec na hodnotenie modelu GAMS, aby lepšie zachytili jeho silné stránky a slabosti.
- Budúcnosť: Plánujú ďalší tréning s 100-150 miliardami tokenov a zmenšovanie parametrov modelu.
Prečo je model pre slovenský jazyk taký dôležitý?
Vývoj LLM pre menej rozšírené jazyky, ako je slovenčina, je kľúčový pre zachovanie kultúrneho dedičstva a umožnenie prístupu k technológiám v našom jazyku. Komerčne dostupné modely často vyžadujú odovzdávanie dát na externé API, čo nie je vhodné pre citlivé informácie. Okrem toho existujúce otvorené zdroje často nemajú dobrú podporu pre menej bežné jazyky. GAMS sa snaží tieto problémy riešiť tým, že poskytuje otvorený a prístupný model špeciálne pre slovenčinu.
Ako funguje tréning modelu GAMS?
Tréning LLM je komplexný proces, ktorý zahŕňa niekoľko fáz:
- Predtréning: Model sa učí všeobecné jazykové znalosti z rozsiahlych dátových súborov.
- Supervidované jemné doladenie (SFT): Model sa trénuje na špecifických úlohách, ako je odpovedanie na otázky alebo generovanie textu podľa pokynov.
- Vyrovnanie s preferenciami ľudí: Model sa optimalizuje tak, aby produkoval bezpečné a kvalitné odpovede.
Projekt GAMS začal s 9 miliardami slov a postupne sa dopracoval k 40 miliardám. To je stále menej ako u niektorých komerčných modelov, preto je neustály predtréning na slovenskom jazyku taký dôležitý.
Hodnotenie modelu: Prečo potrebujeme vlastný rámec?
Existujúce benchmarky a evaluačné pipeline často nie sú vhodné pre hodnotenie LLM v menej rozšírených jazykoch. Preto tím GAMS vyvinul vlastný rámec, ktorý zohľadňuje špecifiká slovenského jazyka a kultúry. Používajú aj platformu LLM Arena (Slovenia Marina), kde používatelia anonymne porovnávajú odpovede rôznych modelov a poskytujú preferencie.
Využitie dát z národnej knižnice a OCR technológií
Pre rozšírenie tréningových dát projekt využíva digitalizované archívy Národnej knižovne SR (9 miliárd slov). Táto rozsiahla zbierka však vyžaduje špeciálny OCR pipeline, ktorý dokáže spracovať staršie a menej kvalitné skeny. Používajú kombináciu nástrojov ako Marker, NanoNets a Llama 4 na dosiahnutie čo najlepších výsledkov.
Budúcnosť GAMS: Čo nás čaká?
Tím za projektom GAMS má ambiciózne plány do budúcnosti:
- Ďalší predtréning: Plánujú trénovať model na 100-150 miliardách tokenov.
- Zmenšovanie parametrov: Hľadajú spôsoby, ako znížiť počet parametrov modelu bez straty výkonu.
- Rozšírenie kontextového okna: Zvýšia množstvo textu, ktoré model dokáže spracovať naraz.
- Účasť v Nvidia AI Initiative: Spolupracujú s Nvidiou na vývoji suverénnych AI modelov pre európske krajiny.
Záverečné úvahy
Projekt GAMS predstavuje významný krok smerom k rozvoju AI technológií pre slovenský jazyk. Je to príklad toho, ako môžeme využiť pokročilé technológie na zachovanie a podporu nášho kultúrneho dedičstva a umožniť prístup k informáciám v našom vlastnom jazyku.
Odkazy:
- Národné kompetenčné centrum pre HPC
- [Hugging Face-GMS 9B model](odkaz na Hugging Face, ak je dostupný)
Približne 178 gCO₂ bolo uvoľnených do atmosféry a na chladenie sa spotrebovalo 0.89 l vody za účelom vygenerovania tohoto článku.
Komentáre ()