„Til þess að tölvur geti skilið íslensku þurfum við að beita svokölluðum vélarlærdómi á fullt af gögnum, en það sem okkur vantar núna eru gögnin um íslensku. Við þurfum að vita hvernig íslenska er töluð og til þess að gera það þurfum við gagnasafn,“ segir Eyþór Máni Steinarsson, 21 árs gamall forritari og verkefnastjóri Samróms.
Samrómur er samstarfsverkefni Almannaróms, Deloitte, Háskólans í Reykjavík og Nýsköpunarsjóðs námsmanna og miðar að því að safna upptökum af töluðu íslensku máli með aðstoð almennings.
„Við fáum fólk til að þesa nokkrar setningar. Þetta krefst mjög lítils tíma af hverjum og einum, en margt fólk getur búið til alveg rosalega stórt gagnasafn,“ segir Eyþór Máni. Stærsta íslenska gagnasafnið samanstendur af 90 klukkustundum af upptökum. Opnað var fyrir söfnunina í gærmorgun og síðdegis í dag höfðu á annað þúsund Íslendinga ljáð söfnuninni rödd sína og safnast höfðu 12 klukkustundir af upptökum.
„Ég var í allt gærkvöld á hópspjallinu með nemendunum og við vorum forviða yfir viðtökunum. Við bjuggumst ekki við einum tíunda af þessu,“ segir Eyþór Máni, en það voru fjórir framúrskarandi nemendur í tölvunar- og verkfræði sem þróuðu Samróm í sumar.
Markmiðið er að upptökurnar telji þúsund klukkustundir í febrúar á næst ári. „En við munum ekki hætta þar. Allt umfram það gerir gagnasafnið enn betra. Þeim mun viðameira og fjölbreyttara sem gagnasafnið er, þeim mun betri lærdóm fær tölvan. Það er hægt að hugsa þetta svolítið eins og sinn eigin lærdóm: maður lærir betur og lærir meira eftir því sem maður inntekur meira efni og því fjölbreyttara sem það er, alveg eins og tölvan.“
„Með því að fá almenning til að taka þátt fáum við rosalega fjölbreytt samansafn af íslenskumælandi fólki, hvort sem það hefur íslensku að móðurmáli eða ekki. Það gerir tækjunum okkar kleift að skilja íslensku, hvernig sem hún er töluð,“ útskýrir Eyþór Máni.
Almenningi býðst ekki einungis að taka þátt í þessu stóra verkefni með því að ljá því rödd sína. Það þarf nefnilega að tryggja að upptökurnar séu góðar og gildar áður en þær eru samþykktar inn í gagnasafnið. Um helmingur upptakanna, eða rúmlega sex klukkustundir, hafa þegar verið samþykktar.
„Við þurfum að tryggja að gögnin séu góð áður en við látum tölvuna byrja að læra af þeim. Við byrjum á því að láta fólk taka upp gögn en á sama tíma er hægt að hlusta á upptökur frá öðrum og staðfesta að þær séu góðar. Ef þær eru tvisvar staðfestar þá komast þær inn í gagnasafnið, en ef þær eru metnar slæmar tvisvar sinnum þá fara þær í svokallaðan „kirkjugarð“. Þar er hægt að sækja þær og skoða en þær komast ekki í almennu gagnasöfnunina.“
Gagnasafnið verður svo aðgengilegt hverjum sem hefur áhuga á að þróa íslenska máltækni.
„Það er það sem okkur finnst svolítið sérstakt og skemmtilegt við þetta. Þarna erum við með hóp af nemendum í HR og HÍ sem er að gera öðrum „amatúrum“ kleift að taka þátt í þróun íslenskrar máltækni. Með þessi getur venjulegur leikmaður hjálpað til við að bjarga ísneskunni frá tæknilegum dauða, ekki bara háskólasamfélaginu eða fyrirtækjum.“
Til stóð að opna aðgang að gagnasafninu innan nokkurra vikna þegar nægt magn gagna hefði safnast. Eyþór Máni segir þó að söfnunin hafi gengið framar vonum og því verði jafnvel hægt að opna aðgang að gagnasafninu á næstu dögum.