Slovenčina v ére veľkých jazykových modelov (s podporou superpočítača Leonardo)

09.06.2025

Národné kompetenčné centrá pre HPC na Slovensku a v Taliansku Vás pozývajú na spoločný webinár o modelovaní jazyka s názvom Nástup veľkých jazykových modelov (LLM).

Témy webinára:

Generovanie bilingválnych dátových súborov: Pomocou starostlivo zostavenej databázy odborne redigovaných slovenských kníh využívame model LLaMA 3.3 70B Instruct na preklad textov do angličtiny a späť do slovenčiny. Týmto spôsobom vytvárame dva datasety – jeden na trénovanie kompaktného otvoreného modelu pre preklad z angličtiny do slovenčiny a druhý na zlepšenie strojovo preloženej slovenčiny.
Sumarizácia vedeckých textov: S využitím Gemini Flash Experimental a vedeckej databázy PLOS generujeme súhrny vedeckých článkov v slovenčine. Tento dataset podporuje trénovanie slovenských LLM v oblasti špecializovanej vedeckej terminológie.
Zvýšenie kultúrneho kontextu: Hoci modely ako DeepSeek a ChatGPT dosahujú v slovenčine relatívne dobré výsledky, majú ťažkosti s kultúrne špecifickými a kontextuálnymi témami týkajúcimi sa Slovenska. Plánujeme syntetizovať texty zo slovenských zdrojov na vytvorenie datasetu, ktorý túto medzeru zaplní.

Webinár sa bude konať 11. júna 2025 od 10.00 – 11.00 hod.

Viac informácií

Registrácia

Zdroj: eurocc.nscc.sk

{{ $i18n.t("searchMenu.list.title") }}

Slovenčina v ére veľkých jazykových modelov (s podporou superpočítača Leonardo)