Liður í að bjarga íslenskunni

„Ég er búinn að vera að vinna í því í …
„Ég er búinn að vera að vinna í því í tíu ár að koma Íslandi inn í þetta verkefni,“ segir Eiríkur Rögnvaldsson um CLARIN, eitt af rannsóknarinnviðaverkefnum Evrópusambandsins. mbl.is/Kristinn Magnúsosn

Eiríkur Rögnvaldsson, prófessor emeritus, verður í 40% starfi sem landsfulltrúi CLARIN á Íslandi, en CLARIN er eitt af rannsóknarinnviðaverkefnum Evrópusambandsins. Eiríkur segir að í tengslum við máltækniátak íslenska ríkisins verði til margs konar málleg gögn sem eigi að vera öllum opin. Mikilvægt er að þessi gögn séu tryggilega geymd og aðgengileg, skráð samkvæmt ákveðnum stöðlum og leyfum og á stöðluðu formi. Hann segir að með þátttöku í CLARIN fáum við Íslendingar aðgang að bæði búnaði og þekkingu sem auðveldar utanumhald þessara gagna.

„Ég er búinn að vera að vinna að því í tíu ár að koma Íslandi inn í þetta verkefni,“ segir Eiríkur, sem gat því ekki sleppt tækifærinu að taka þátt í verkefninu þótt hann hafi farið á eftirlaun í sumar eftir að hafa kennt íslensku og málvísindi við Háskóla Íslands í áratugi.

Hagstæð þróun

Af hverju er verkefnið mikilvægt á þessum tímapunkti?

„Núna er að fara af stað máltækniátak ríkisstjórnarinnar en grundvallaratriði í því er að byggja upp alls konar málleg gagnasöfn, textasöfn, orðasöfn, upptökur af töluðu máli og svo framvegis. Aðferðir í máltækni hafa breyst heilmikið á seinustu árum. Áður fyrr þurfti að skrifa sérstakan hugbúnað fyrir hvert tungumál til að þróa t.d. leiðréttingar- eða þýðingarforrit. Það er mikið mál, jafn mikið fyrir tungumál sem 300 þúsund manns tala eins og 300 milljónir. Þróunin hefur verið okkur hagstæð að því leyti að aðferðirnar eru að verða miklu óháðari tungumálinu með gervigreind og tauganetum. Þær aðferðir byggjast í einfölduðu máli fyrst og fremst á því að tölvurnar eru látnar fara í gegnum gífurlega mikið af gögnum en í þessu tilviki væru það hljóðupptökur eða textar. Tölvunni er alveg sama hvers konar gögn hún er með og hvort hún er með íslenskan eða enskan texta; það sem hún gerir er að leita að munstrum sem síðan er hægt að nota í alls konar hugbúnaði,“ segir Eiríkur.

„Eitt af því sem er lögð mikil áhersla á í þessu máltækniverkefni hérna er að byggja upp gögn og gagnasöfn sem síðan er hægt að nota. Grundvallaratriði í því er að þau gögn eiga að vera opin og öllum aðgengileg,“ segir hann og heldur áfram:

„Ýmis fyrirtæki geta gengið að þessum gögnum og vita þá hvers konar gögn þau hafa. Ef fyrirtæki vill þróa vélrænar þýðingar milli íslensku og einhverra mála þá liggi fyrir alveg nákvæmar upplýsingar um hvaða gögn eru til og á hvaða formi þau eru.“

Eitt meginatriði í máltækniverkefninu er að ná sambandi við alþjóðleg stórfyrirtæki á borð við Google, Apple og Amazon og láta vita að þessi gögn séu til á íslensku og biðja þau að fella þau inn í hugbúnað sinn, útskýrir Eiríkur. Þá er mikilvægt að fyrir liggi að gögnin séu gerð samkvæmt ákveðnum stöðlum.

CLARIN er ekki aðeins hugsað fyrir máltækni heldur fyrir hvers kyns rannsóknir í félags- og hugvísindum sem nýta málleg gögn. Verkefni Eiríks verður fyrst um sinn að koma á fót samstarfshópi stofnana sem búa yfir mállegum gögnum og/eða nýta slík gögn. Síðan þarf að vinna að því að koma upp íslensku CLARIN-tæknisetri og gera margvísleg gagnasöfn aðgengileg í gegnum það. Enn fremur liggur fyrir að kynna CLARIN og gagnsemi þess fyrir stofnunum og fræðafólki. Íslenskir fræðimenn fá þarna aðgang að gagnasöfnum í yfir 20 Evrópulöndum, auk þess sem aðgengi að ýmsum innlendum gagnasöfnum mun væntanlega batna smátt og smátt.

Móðurmál í raddstýringu

Eiríkur hlær við þegar spurt er hvort þetta sé verkefnið sem bjargi íslenskunni. Hann játar því þó að þetta sé mikilvægt. Tæki séu orðin raddstýrð og við getum ekki notað móðurmálið við stýringuna. „Þá er bara tímaspursmál hvenær unga fólkið spyr hvers vegna við erum að púkka upp á þetta mál ef við getum ekki notað það í því sem okkur finnst spennandi. Það er mjög mikilvægt að koma íslenskunni í þennan heim. Það skiptir heilmiklu máli að þessi gagnasöfn verði til, þau verði aðgengileg og stöðluð.“

Þessi grein birtist
í Morgunblaðinu
Áskrifendur:
Þessi grein birtist
í Morgunblaðinu
Áskrifendur:

Bloggað um fréttina

Fleira áhugavert
Fleira áhugavert