09.06.2025
Národné kompetenčné centrá pre HPC na Slovensku a v Taliansku Vás pozývajú na spoločný webinár o modelovaní jazyka s názvom Nástup veľkých jazykových modelov (LLM).
Témy webinára:
- Generovanie bilingválnych dátových súborov: Pomocou starostlivo zostavenej databázy odborne redigovaných slovenských kníh využívame model LLaMA 3.3 70B Instruct na preklad textov do angličtiny a späť do slovenčiny. Týmto spôsobom vytvárame dva datasety – jeden na trénovanie kompaktného otvoreného modelu pre preklad z angličtiny do slovenčiny a druhý na zlepšenie strojovo preloženej slovenčiny.
- Sumarizácia vedeckých textov: S využitím Gemini Flash Experimental a vedeckej databázy PLOS generujeme súhrny vedeckých článkov v slovenčine. Tento dataset podporuje trénovanie slovenských LLM v oblasti špecializovanej vedeckej terminológie.
- Zvýšenie kultúrneho kontextu: Hoci modely ako DeepSeek a ChatGPT dosahujú v slovenčine relatívne dobré výsledky, majú ťažkosti s kultúrne špecifickými a kontextuálnymi témami týkajúcimi sa Slovenska. Plánujeme syntetizovať texty zo slovenských zdrojov na vytvorenie datasetu, ktorý túto medzeru zaplní.
Webinár sa bude konať 11. júna 2025 od 10.00 – 11.00 hod.
Zdroj: eurocc.nscc.sk