Dáta sú kráľom: Budúcnosť jazykových modelov
Dáta sú kľúčom! Nové zistenia zo Stanfordu ukazujú, že pre pokročilé jazykové modely je kvalita dát dôležitejšia ako architektúra. Článok sa zaoberá výzvami a príležitosťami pri získavaní a spracovaní obrovských datasetov.

Prednáška Stanford CS336 zameraná na modelovanie jazyka od základov priniesla fascinujúce pohľady do sveta trénovania najpokročilejších AI systémov. Zatiaľ čo architektonické inovácie a optimalizácia sú dôležité, prednášajúci zdôrazňuje, že dáta sú kľúčovým faktorom určujúcim výkon jazykových modelov. Od získavania surových dát z webu až po sofistikované techniky filtrovania a generovania syntetických dát, cesta k vytvoreniu robustného a efektívneho jazykového modelu je plná výziev a príležitostí. V tomto článku sa pozrieme na najdôležitejšie poznatky z prednášky a zamyslíme sa nad ich dopadom na budúcnosť AI.
Kľúčové poznatky
- Dáta sú kritické: Kvalita dát je často dôležitejšia ako samotná architektúra modelu, hoci niektorí (ako napríklad Tatsu) by mohli nesúhlasiť.
- Otvorenie vs. utajovanie: Výrobca open-weight modelov, ako Llama 3 a DeepSeek, poskytujú rozsiahle informácie o svojej architektúre, ale minimalizujú detaily o tréningových dátach z dôvodu konkurencie a právnych obmedzení.
- Trénovanie v troch fázach: Jazykové modely prechádzajú tromi hlavnými fázami: predtrénovanie na surových webových dátach, mid-training s vybranými dokumentmi a post-training (jemné doladenie) pre špecifické úlohy.
- Common Crawl ako základ: Common Crawl predstavuje rozsiahly zdroj dát, ktorý pravidelne indexuje internet a ponúka obrovské množstvo informácií.
- Výzvy spracovania dát: Výber a spracovanie tréningových dát je často založené na intuícii a indukčnom uvažovaní, nie na formálnych princípoch.
- Dáta ako diferenciátor: Napriek podobnosti architektúr sú práve dáta hlavným faktorom, ktorý odlišuje výkon jednotlivých jazykových modelov.
Získavanie a spracovanie dát: Od WebTextu po RefinedWeb
Prednáška detailne rozoberala rôzne stratégie získavania a spracovania tréningových dát. Začneme s históriou, kde GPT-2 využíval "WebText", dataset vytvorený scrapovaním Reddit linkov s vysokým počtom hlasov (karma). Neskôr sa pokusili o reprodukciu tohto datasetu, čo však viedlo k menšiemu objemu dát.
Common Crawl predstavuje rozsiahly zdroj webových dát, ktorý je však potrebné dôkladne filtrovať a spracovávať. Meta's CCNet používala n-gramové modely založené na Wikipédii na filtrovanie Common Crawlu, zatiaľ čo Google's C4 sa snažila využiť obrovský objem dát s pomocou techník kvality filtrovania. DeepMind’s Gopher model využil rozsiahly dataset (vrátane Common Crawlu, C4, kníh, novín a GitHubu) s manuálnymi kvalitnými filtrami založenými na pravidlách ako minimálny počet znakov a kontrole toxicity pomocou Google Safe Search.
Llama použila Common Crawl spracovaný prostredníctvom CCNet, pričom zahrnuli aj C4, Project Gutenberg, Stack Exchange a Archive. Vytvorili klasifikátor, ktorý identifikoval stránky odkazujúce z Wikipédie, čím sa snažili dosiahnuť vysokú kvalitu obsahu. Reprodukcia tohto datasetu bola neskôr vytvorená pod názvom "Red Pajama".
Projekt RefinedWeb demonštroval, že dobre filtrované webové dáta môžu byť dostatočné pre trénovanie jazykových modelov a uvoľnili 600 miliárd tokenov z väčšieho datasetu s objemom 5 biliónov tokenov. AI2’s OMO modely boli trénované na rôznorodom datasete, ktorý zahŕňal Common Crawl, Stack (kód), C4, Reddit príspevky/komentáre, Semantic Scholar dáta, Project Gutenberg a Wikipédia.
Syntetické dáta: Nový trend v trénovaní jazykových modelov
Prednáška tiež poukazovala na rastúci význam syntetických dát pri trénovaní jazykových modelov. Medzi bežné metódy patria self-instruction (Alpaca), imitácia konverzácií z ChatGPT (Vicuna) a "evol instruct" techniky, ktoré zvyšujú komplexitu otázok. Ďalšou možnosťou je extrakcia Question/Answer párov z webových stránok s kvízmi nájdených v Common Crawlu.
Autorské práva a budúcnosť dátového inžinierstva
Prednáška sa venovala aj problematike autorských práv, ktorá predstavuje významnú výzvu pri trénovaní jazykových modelov na webových dátach. Používanie rozsiahlych datasetov ako Common Crawl si vyžaduje dôkladné zváženie licenčných podmienok a potenciálnych právnych rizík.
Odporúčania a zamyslenia
Prednáška jasne ukázala, že trénovanie jazykových modelov je komplexný proces, ktorý vyžaduje rozsiahle znalosti v oblasti spracovania dát, strojového učenia a autorských práv. Budúcnosť AI bude pravdepodobne formovaná inováciami v oblasti dátového inžinierstva a vývojom nových techník filtrovania, generovania syntetických dát a správy autorských práv.
Je jasné, že hoci architektúra modelov môže byť podobná, práve dáta predstavujú kľúčový diferenciátor a určujú výkonnosť jazykových modelov. Výskum v tejto oblasti je stále v plnom rozmachu a očakáva sa, že prinesie ďalšie fascinujúce objavy a inovácie. (📎)
Dôležité odkazy
- Stanford Online - Artificial Intelligence programs
- Online.stanford.edu - CS336 Language Modeling from Scratch
- Stanford-cs336.github.io - Spring 2025 Syllabus
Približne 151 gCO₂ bolo uvoľnených do atmosféry a na chladenie sa spotrebovalo 0.76 l vody za účelom vygenerovania tohoto článku.
Komentáre ()