LLM a slovenský jazyk: čo vie Leonardo Superpočítač?

Výskum LLM pre slovenský jazyk sa zameriava na kombináciu pravdepodobnosti a logiky, s cieľom prekonať nedostatok tréningových dát. Verejná účasť a lokálne spustanie modelov sú kľúčové pre budúcnosť!

LLM a slovenský jazyk: čo vie Leonardo Superpočítač?
Photo by engin akyurt/Unsplash

Nedávno sme si vypočuli zaujímavú prezentáciu od Marka Dobeša, ktorá sa venovala výzvam a príležitostiam spojeným s používaním veľkých jazykových modelov (LLM) pre slovenský jazyk. V kontexte superpočítača Leonardo a celkového úsilia o podporu nízko-zdrojových jazykov, ako je náš, prezentácia ponúkla cenné poznatky o súčasných limitáciách LLM, smerovaní výskumu a potenciálnych cestách pre budúcnosť. Dobeš sa venoval aj možnosti verejnej účasti na tvorbe jazykových dát a zdôraznil dôležitosť ochrany osobných údajov pri práci s týmito modelmi.

Kľúčové poznatky

  • LLM a logické myslenie: Súčasné LLM sa spoliehajú primárne na pravdepodobnostnú inferenciu, čo je podobné fungovaniu ľudského mozgu. Chýba im však schopnosť rule-based reasoning (logického uvažovania) a symbolickej manipulácie, v ktorých ľudia vynikajú.
  • Výskum jednotnej architektúry: Tím výskumníkov pracuje na architektúrách, ktoré kombinujú pravdepodobnostnú inferenciu so symbolickou manipuláciou, čím sa snažia napodobniť schopnosť ľudského mozgu vykonávať rôzne úlohy pomocou jednej neurónovej štruktúry.
  • Interné modely: Ľudský mozog vytvára "interné modely" sveta, čo umožňuje robiť závery bez potreby rozsiahlych znalostí – niečo, čo LLM momentálne postrádajú.
  • Verejná účasť: Existuje viacero ciest, ako sa verejne zapojiť: interakcia s modelmi cez webové portály (potenciálne uľahčená budúcim superpočítačom), poskytovanie spätnej väzby prostredníctvom spoločností alebo spustenie kvantizovaných modelov na mobilných zariadeniach.
  • Ochrana dát: Spustenie modelov lokálne (na telefónoch/PC) by umožnilo používateľom vlastniť svoje dáta a vyhnúť sa obavám z nahrávania údajov spojeným s cloudovými službami ako ChatGPT.

Prečo je to dôležité pre slovenský jazyk?

Problém nízko-zdrojových jazykov, akým je slovenčina, spočíva v nedostatku tréningových dát. LLM sa učia z obrovského množstva textu a čím viac dát majú k dispozícii, tým lepšie fungujú. Pre slovenský jazyk to znamená, že modely často nedosahujú takú úroveň presnosti a plynulosti ako pre dominantné jazyky, ako je angličtina.

Projekt, o ktorom hovoril Marek Dobeš, sa snaží tento problém prekonať viacerými spôsobmi:

  • Generovanie dvojjazyčných dát: Vytvárajú dvojjazyčné datasety pomocou slovenských kníh a modelu LLaMA 3.3 70B Instruct pre účely prekladu a zlepšovania generovaného slovenčiny.
  • Sumarizácia vedeckých článkov: S pomocou Gemini Flash a databázy PLOS sumarizujú vedecké články v slovenskom jazyku, čím podporujú tréning modelov v špecializovanej terminológii.
  • Dataset z domáceho zdroja: Vyvíjajú dataset zo slovenských zdrojov na zlepšenie porozumenia kultúrnemu kontextu a spracovania tém špecifických pre Slovensko.

Budúcnosť LLM a slovenčiny: Lokálna kontrola a spolupráca

Jednou z kľúčových myšlienok prezentácie bola možnosť spustenia jazykových modelov lokálne na osobných zariadeniach. To by nielen umožnilo používateľom vlastniť svoje dáta, ale aj potenciálne zvýšilo rýchlosť a efektivitu spracovania. Dobeš tiež zdôraznil otvorenosť tímu pre spoluprácu s inými platformami, hoci momentálne nemajú priame partnerstvá s veľkými hráčmi ako Amazon SageMaker.

Zameranie do budúcnosti

Výskum v oblasti LLM a ich aplikácie na nízko-zdrojové jazyky je stále v plnom rozmachu. Je dôležité pokračovať v podpore iniciatív, ktoré sa zameriavajú na vytváranie kvalitných tréningových dát pre slovenský jazyk a zároveň zabezpečujú ochranu osobných údajov používateľov. Verejná účasť je kľúčová – či už prostredníctvom interakcie s modelmi, poskytovania spätnej väzby alebo experimentovania s lokálnymi implementáciami.

Referencie

  • Národné kompetenčné centrum pre HPC: https://www.hpc-sk.sk/ (Oficiálna stránka centra)
  • LLaMA 3.3 70B Instruct model: Informácie o tomto modeli nájdete na stránkach Meta AI.
  • Gemini Flash: Informácie o Gemini Flash nájdete na stránkach Google AI.
  • PLOS database: https://plos.org/ (Databáza vedeckých článkov)
Približne 123 gCO₂ bolo uvoľnených do atmosféry a na chladenie sa spotrebovalo 0.62 l vody za účelom vygenerovania tohoto článku.

Hodnotenie článku:
LLM a slovenský jazyk: čo vie Leonardo Superpočítač?

Hĺbka a komplexnosť obsahu (8/10)
Povrchné / ZjednodušenéHlboká analýza / Komplexné

Zdôvodnenie: Článok sa hĺbovo zaoberá výzvami a príležitosťami LLM pre slovenčinu. Analyzuje technické aspekty (logika vs. pravdepodobnosť), riešenia (generovanie dát, sumarizácia) a etické otázky (ochrana dát). Zohľadňuje kontext nízko-zdrojových jazykov.

Kredibilita (argumentácia, dôkazy, spoľahlivosť) (9/10)
Nízka / NespoľahlivéVysoká / Spoľahlivé

Zdôvodnenie: Článok je dobre štruktúrovaný a informácie sú podložené referenciami. Prezentuje komplexné témy LLM pre slovenčinu zrozumiteľne a s ohľadom na výzvy a riešenia. Zdroje sú relevantné a overiteľné.

Úroveň zaujatosti a manipulácie (2/10)
Objektívne / Bez manipulácieZaujaté / Manipulatívne

Zdôvodnenie: Článok je prevažne informatívny a objektívny. Prezentuje informácie o výskume LLM pre slovenčinu bez zjavnej zaujatosti alebo manipulatívnych techník.

Konštruktívnosť (8/10)
Deštruktívne / ProblémovéVeľmi konštruktívne / Riešenia

Zdôvodnenie: Článok neobsahuje len kritiku, ale aj predstavuje konkrétne kroky a projekty na zlepšenie LLM pre slovenčinu. Zdôrazňuje verejnú účasť a rieši otázku ochrany dát.

Politické zameranie (5/10)
Výrazne liberálneNeutrálneVýrazne konzervatívne

Zdôvodnenie: Článok sa zameriava na technologický vývoj a vedecký výskum v oblasti jazykových modelov. Neobsahuje politické vyhlásenia ani hodnotenie politických otázok.

Mastodon