Technológia

Pokrok v AI pre slovenský jazyk: GAMS model

Štefan Algoritmov

29. okt 2025 7 min

Pokrok v AI prináša rozsiahly jazykový model GAMS špeciálne pre slovenčinu. Projekt z Národného centra HPC sa zaoberá tréningom modelu s viac ako 30 miliónmi slov a plánuje ďalšie rozšírenie, aby podporil technológie a zachoval kultúrne dedičstvo v našom jazyku.

Photo by Daniel Eliashevskyi/Unsplash

V tomto článku sa pozrieme na fascinujúci projekt z Národného kompetenčného centra pre HPC, ktorý sa zaoberá vývojom rozsiahlych jazykových modelov (LLM) špeciálne pre slovenský jazyk. V expertnom webinári predstavili prácu na modeli GAMS (Generative Model for Slovin), ktorý má potenciál zmeniť spôsob, ako interagujeme s technológiami a spracovávame informácie v našom jazyku.

Kľúčové poznatky

GAMS: Otvorený jazykový model pre slovenský jazyk vyvíjaný na Univerzite v Ljubljane.
Dáta: Získali viac ako 30 miliónov slov a usilujú sa o ešte väčšie datasety z rôznych inštitúcií.
Kultúrny kontext: Dôležitosť porozumenia kultúrnemu kontextu, ilustrované príkladom s „gibonitou“ v špagetách bolognese.
Výzvy: Tréning rozsiahlych modelov predstavuje výpočtové výzvy a vyžaduje využitie európskych HPC zdrojov.
Hodnotenie: Vyvinuli vlastný rámec na hodnotenie modelu GAMS, aby lepšie zachytili jeho silné stránky a slabosti.
Budúcnosť: Plánujú ďalší tréning s 100-150 miliardami tokenov a zmenšovanie parametrov modelu.

Prečo je model pre slovenský jazyk taký dôležitý?

Vývoj LLM pre menej rozšírené jazyky, ako je slovenčina, je kľúčový pre zachovanie kultúrneho dedičstva a umožnenie prístupu k technológiám v našom jazyku. Komerčne dostupné modely často vyžadujú odovzdávanie dát na externé API, čo nie je vhodné pre citlivé informácie. Okrem toho existujúce otvorené zdroje často nemajú dobrú podporu pre menej bežné jazyky. GAMS sa snaží tieto problémy riešiť tým, že poskytuje otvorený a prístupný model špeciálne pre slovenčinu.

Ako funguje tréning modelu GAMS?

Tréning LLM je komplexný proces, ktorý zahŕňa niekoľko fáz:

Predtréning: Model sa učí všeobecné jazykové znalosti z rozsiahlych dátových súborov.
Supervidované jemné doladenie (SFT): Model sa trénuje na špecifických úlohách, ako je odpovedanie na otázky alebo generovanie textu podľa pokynov.
Vyrovnanie s preferenciami ľudí: Model sa optimalizuje tak, aby produkoval bezpečné a kvalitné odpovede.

Projekt GAMS začal s 9 miliardami slov a postupne sa dopracoval k 40 miliardám. To je stále menej ako u niektorých komerčných modelov, preto je neustály predtréning na slovenskom jazyku taký dôležitý.

Hodnotenie modelu: Prečo potrebujeme vlastný rámec?

Existujúce benchmarky a evaluačné pipeline často nie sú vhodné pre hodnotenie LLM v menej rozšírených jazykoch. Preto tím GAMS vyvinul vlastný rámec, ktorý zohľadňuje špecifiká slovenského jazyka a kultúry. Používajú aj platformu LLM Arena (Slovenia Marina), kde používatelia anonymne porovnávajú odpovede rôznych modelov a poskytujú preferencie.

Využitie dát z národnej knižnice a OCR technológií

Pre rozšírenie tréningových dát projekt využíva digitalizované archívy Národnej knižovne SR (9 miliárd slov). Táto rozsiahla zbierka však vyžaduje špeciálny OCR pipeline, ktorý dokáže spracovať staršie a menej kvalitné skeny. Používajú kombináciu nástrojov ako Marker, NanoNets a Llama 4 na dosiahnutie čo najlepších výsledkov.

Budúcnosť GAMS: Čo nás čaká?

Tím za projektom GAMS má ambiciózne plány do budúcnosti:

Ďalší predtréning: Plánujú trénovať model na 100-150 miliardách tokenov.
Zmenšovanie parametrov: Hľadajú spôsoby, ako znížiť počet parametrov modelu bez straty výkonu.
Rozšírenie kontextového okna: Zvýšia množstvo textu, ktoré model dokáže spracovať naraz.
Účasť v Nvidia AI Initiative: Spolupracujú s Nvidiou na vývoji suverénnych AI modelov pre európske krajiny.

Záverečné úvahy

Projekt GAMS predstavuje významný krok smerom k rozvoju AI technológií pre slovenský jazyk. Je to príklad toho, ako môžeme využiť pokročilé technológie na zachovanie a podporu nášho kultúrneho dedičstva a umožniť prístup k informáciám v našom vlastnom jazyku.

Odkazy:

Národné kompetenčné centrum pre HPC
[Hugging Face-GMS 9B model](odkaz na Hugging Face, ak je dostupný)

Hodnotenie článku:
Pokrok v AI pre slovenský jazyk: GAMS model

Hĺbka a komplexnosť obsahu (7/10)+

Povrchné / ZjednodušenéHlboká analýza / Komplexné

Zdôvodnenie: Článok detailne popisuje projekt GAMS a jeho vývoj. Analyzuje technické aspekty tréningu LLM, hodnotenia a budúce plány, pričom zohľadňuje špecifiká slovenského jazyka a kultúry.

Kredibilita (argumentácia, dôkazy, spoľahlivosť) (8/10)+

Nízka / NespoľahlivéVysoká / Spoľahlivé

Zdôvodnenie: Článok poskytuje detailný prehľad o projekte GAMS a jeho cieľoch. Používa odborné termíny, ale vysvetľuje ich kontext. Zdroje sú uvedené (Národné kompetenčné centrum pre HPC, Hugging Face). Chýba hlbšia kritika alebo alternatívne pohľady.

Úroveň zaujatosti a manipulácie (2/10)+

Objektívne / Bez manipulácieZaujaté / Manipulatívne

Zdôvodnenie: Článok je prevažne informatívny a objektívny. Popisuje projekt GAMS bez výraznej zaujatosti alebo manipulatívnych techník. Zameriava sa na fakty a proces.

Konštruktívnosť (9/10)+

Deštruktívne / ProblémovéVeľmi konštruktívne / Riešenia

Zdôvodnenie: Článok predstavuje konkrétny projekt s jasným cieľom a popisuje jeho vývoj, výzvy a budúcnosť. Ponúka informácie o riešení problému nedostatočnej podpory pre slovenčinu v LLM a naznačuje ďalšie kroky.

Politické zameranie (5/10)+

Výrazne liberálneNeutrálneVýrazne konzervatívne

Zdôvodnenie: Článok sa zameriava na technologický vývoj a vedecký projekt. Neobsahuje politické vyhlásenia ani hodnotenie, iba popis technického procesu a jeho potenciálneho prínosu.

Približne 178 gCO₂ bolo uvoľnených do atmosféry a na chladenie sa spotrebovalo 0.89 l vody za účelom vygenerovania tohoto článku.

Pokrok v AI pre slovenský jazyk: GAMS model

Kľúčové poznatky

Prečo je model pre slovenský jazyk taký dôležitý?

Ako funguje tréning modelu GAMS?

Hodnotenie modelu: Prečo potrebujeme vlastný rámec?

Využitie dát z národnej knižnice a OCR technológií

Budúcnosť GAMS: Čo nás čaká?

Záverečné úvahy

Odkazy:

Hodnotenie článku:
Pokrok v AI pre slovenský jazyk: GAMS model

Čítať ďalej

Nové kybernetické hrozby: AI prehliadače, malvér a výpadok AWS

AI a rozpad reality: Varovanie odborníka pred falošnými informáciami

Budúcnosť s AI: Spolupráca, etika a kvantové počítače

Komentáre ()

Kľúčové poznatky

Prečo je model pre slovenský jazyk taký dôležitý?

Ako funguje tréning modelu GAMS?

Hodnotenie modelu: Prečo potrebujeme vlastný rámec?

Využitie dát z národnej knižnice a OCR technológií

Budúcnosť GAMS: Čo nás čaká?

Záverečné úvahy

Odkazy:

Hodnotenie článku: Pokrok v AI pre slovenský jazyk: GAMS model

Čítať ďalej

Komentáre ( )

Hodnotenie článku:
Pokrok v AI pre slovenský jazyk: GAMS model

Komentáre ()