Digilang kehittää kieliaineistoja ja kokoaa ne portaaliin: rahoitusta myönnettiin yli puoli miljoonaa vuosille 2018–2021

Turun yliopiston kieli- ja käännöstieteiden laitoksessa on erityisaloillaan kansallisesti ja kansainvälisesti ainutlaatuisia kieliaineistoja, joilla on jo entuudestaan oma kotimainen ja kansainvälinen käyttäjäkuntansa. Laitoksessa on koostettu, kehitetty ja ylläpidetty digitaalisia aineistoja tutkimuksen tarpeisiin vuodesta 1967, jolloin suomen kielen oppiaineen yhteyteen perustettiin Lauseopin arkisto (LA). Viime vuosikymmenten aikana on laitoksessa muodostettu yhä useampia korpuksia.

Yliopiston rehtori myönsi viime keväänä laitoksessa toimivalle Digilang-hankkeelle yli 580 000 euroa aineistojen kehitystyöhön vuosille 2018–2021. Tavoitteena on, että tulevaisuudessa nämä aineistot tavoittavat yhä laajemman käyttäjäkunnan, kun aineistoja kehitetään, niiden näkyvyyttä parannetaan ja ne kootaan samaan portaaliin. Näin vahvistetaan samalla Turun yliopiston ja laitoksen brändiä kieliaineistojen tuottajana.

Digilang-hankkeessa parannetaan nykyisten aineistojen käytettävyyttä kehittämällä niiden ns. metatietoja, kun esimerkiksi kunkin sanan, lauseen, virkkeen, intonaatiojakson ja diskurssin rakenteesta ja visualisoinnista lisätään tietoja. Näin aineiston käyttäjät pystyvät löytämään helpommin yhä useammasta laajasta puhe- tai tekstimassasta tarvitsemansa tapaukset. Kieliaineistojen näkyvyyttä lisätään keräämällä ne yhteen ja luomalla yhteinen käyttäjäportaali, jonka avulla tutkijat ja opiskelijat löytävät entistäkin paremmin tarvitsemiaan aineistoja ja saattavat samalla löytää heille entuudestaan tuntemattomia mutta hyödyllisiä aineistoja. Osa laitoksen kieliaineistoista on jo aiemmin liitetty osaksi kansallista Kielipankkia. Myös näistä korpuksista liitetään tiedot portaaliin, ja portaalin käyttäjät löytävät nämäkin aineistot helposti. Laitoksen omasta portaalista ei tule siis kilpailijaa Kielipankille, vaan se täydentää sitä.

Digilang-hankkeessa mukana on kuusi laitoksessa eri tahoilla kehitettyä kieliaineistoa: Satakuntalaisuus puheessa -korpus, Suomen kielen prosodian alueellisen ja sosiaalisen variaation korpus, erilaisia fennougristisia korpuksia (mm. Mormula ja marin ja mordvalaiskielten kirjakielen historian korpukset), Akateemisen suomen korpus, Universal Parsebanks -korpus (joka sisältää mm. suomenkielisen Finnish Internet Parsebank -korpuksen) sekä ranska–suomi- ja englanti–suomi-kirjoitus- ja kääntämisprosessien LOG-korpus.

Tommi Kurki on suomen kielen dosentti.