Slovenčina v ére veľkých jazykových modelov (s podporou superpočítača Leonardo)

Domov Veda v SR Novinky vedy a techniky v SR Slovenčina v ére veľkých jazykových modelov (s podporou superpočítača Leonardo)

Národné kompetenčné centrá pre HPC na Slovensku a v Taliansku Vás pozývajú na spoločný webinár o modelovaní jazyka s názvom Nástup veľkých jazykových modelov (LLM).

Témy webinára:

  • Generovanie bilingválnych dátových súborov: Pomocou starostlivo zostavenej databázy odborne redigovaných slovenských kníh využívame model LLaMA 3.3 70B Instruct na preklad textov do angličtiny a späť do slovenčiny. Týmto spôsobom vytvárame dva datasety – jeden na trénovanie kompaktného otvoreného modelu pre preklad z angličtiny do slovenčiny a druhý na zlepšenie strojovo preloženej slovenčiny.
  • Sumarizácia vedeckých textov: S využitím Gemini Flash Experimental a vedeckej databázy PLOS generujeme súhrny vedeckých článkov v slovenčine. Tento dataset podporuje trénovanie slovenských LLM v oblasti špecializovanej vedeckej terminológie.
  • Zvýšenie kultúrneho kontextu: Hoci modely ako DeepSeek a ChatGPT dosahujú v slovenčine relatívne dobré výsledky, majú ťažkosti s kultúrne špecifickými a kontextuálnymi témami týkajúcimi sa Slovenska. Plánujeme syntetizovať texty zo slovenských zdrojov na vytvorenie datasetu, ktorý túto medzeru zaplní.

Webinár sa bude konať  11. júna 2025 od 10.00 – 11.00 hod.

Viac informácií

Registrácia

Zdroj: eurocc.nscc.sk