Avoimia aineistoja ikkunoina menneisyyteemme
Maaliskuussa julkaistiin kolme Turun yliopiston Human Diversity -profiiliin liittyvää, avointa tiedettä edistävää artikkelia Digital Humanities in the Nordic and Baltic Countries Publications -lehdessä: Santaharju et al. (2025) on aineistonjulkaisuartikkeli 100 vuotta vanhasta Suomen murreaineistosta, Roose et al. (2025) on kuvaus URHIA-karttaikkunasta, jonka avulla paikkatietoisia aineistojamme voi tarkastella ja ladata ilman teknistä osaamistakin, ja Vesakoski et al. (2025) vetää yhteen laariin, UraLaariin, kaikki kahdeksan eri tietokantaamme.
Tietokannat käsittelevät ihmisen menneisyyttä Suomessa ja Pohjois-Euraasiassa, tarkasti ottaen uralilaisten kielten puhuma-alueilla (kuva 1). Tietokannat sisältävät tietoa mm. kielistä, murteista, väestöstä, ympäristöstä ja kulttuuriperimästä.
Kuva 1. Uralilaisten kielten puhuma-alueet (Rantanen ym. 2022). Paikkatietomuotoinen aineisto on vapaasti saatavilla Zenodossa sekä URHIA-käyttöliittymässä (Uralilainen Historiallinen Atlas).
Tietokannat avattiin tai avataan kaikkien käyttöön avoimen tieteen FAIR-periaatteita noudattaen, mikä tarkoittaa, että ne ovat löydettäviä (Findable), saavutettavia (Accessible), yhteentoimivia (Interoperable) sekä uudelleen käytettäviä (Re-usable).
Tietokannat tallennetaan avoimiin data-arkistoihin ja niille suoritetaan lisäksi jatkuvaa versionhallintaa. Tietokantojen aineistoista osa on numeromuotoista ja osa paikkatietomuotoista. Mukana on varsinaisen aineistojen lisäksi niiden metatiedot. Saavutettavuuden lisäämiseksi olemme laittaneet osan aineistosta kahteen käyttöliittymään, joista toinen on tehty Turun yliopistossa ja toinen Max Planck -instituutissa Saksassa.
Tietokannat:
Uralilaisten kielten perussanaston tietokanta (UraLex) https://github.com/lexibank/uralex
Uralilaisten kielten typologinen tietokanta (UraTyp) https://doi.org/10.5281/zenodo.5236365
Uralilaisten kielten puhuma-alueiden karttatietokanta https://zenodo.org/records/4784188
Luoteis-Euraasian monitieteiset kartat https://zenodo.org/records/10376207
Suomen murrekartasto https://doi.org/10.5281/zenodo.10078078
Suomen arkeologisten esineiden tietokanta (AADA) https://zenodo.org/records/10081902
Suomen historiallinen kustannusetäisyysmalli https://zenodo.org/records/10554593
Suomen historiallinen kulttuuri-, ekonomia-, demografia- ja ekologiatietokanta (CEDEDA) https://doi.org/10.5281/zenodo.13975170
Käyttöliittymät:
Uralilainen Historiallinen Atlas (URHIA) https://sites.utu.fi/urhia/fi/uralilainen-historiallinen-atlas/
Uralic Areal Typology Online https://uralic.clld.org/
Suomen 100 vuoden takainen murremaisema digitaalisena
Human Diversity -konsortiolla on käytössään eri asteisesti avoimia aineistoja Suomesta, joista yksi on nyt julkaistu Lauri Kettusen Suomen murrekartasto (Kettunen 1930a,b; 1940a,b). 1800- ja erityisesti 1900-luvuilla alkoi kansainvälinen kiinnostus kansankulttuurin ja kielen dokumentointiin. Sittemmin Helsingistä itämerensuomalaisten kielten professuurin saanut Lauri Kettunen oli todennäköisesti osa tätä tieteellisten aineistojen keruun aaltoa kerätessään 1920- ja 1930-luvuilla murrekartaston aineiston Suomen kielen alueellisesta vaihtelusta (ks. Vesakoski ym. 2024).
Suomen murrekartasto koostuu karttalehdistä, joissa kuvataan 525 suomea puhuvan pitäjän kielellistä vaihtelua. Karttalehtiä on 213, joista jokainen kuvaa yhtä kielellistä piirrettä: Sanotaanko pitäjässä vasta vai vihta ja onko ‘metsä‘ mehtä, mettä, messä vai metsä, ja miten sana taipuu mettä:metän vai mettä:mettän.
Uuden nosteen kartasto sai, kun Kotimaisten Kielten Keskus ja Yorkin yliopisto Sheila Embletonin ja Eric Wheelerin (Kanada) johdolla digitoivat aineiston ensimmäisen version (Embleton & Wheeler 1997, 2000). Sittemmin saimme Koneen säätiön rahoituksen BEDLAN-työryhmälle (Biological Evolution and Diversification of Languages), ja kävimme aineiston läpi uudestaan. Aineiston alkuperäinen versio vuodelta 2010 löytyy täältä ja uudistettu aineisto vuodelta 2015 Fair-data palvelusta. Kumpikin aineisto on muodoltaan varsin vaikeasti lähestyttävä, ja metatietojen puuttuessa vaikeasti käytettäviä.
Santaharju ym. (2025) julkaisema uusi digitaalinen versio Suomen murrekartastosta on täydennetty versio, joka tarjotaan aiempaa helppokäyttöisemmissä tiedostomuodoissa. Kielipiirteiden vaihtelun saa nyt myös kartalle, sillä aineiston ohessa tarjotaan historiallisten pitäjien polygonit paikkatietomuodossa. Aineisto hyödyttää nykyisellään lähinnä teknisesti orientoituneita tutkijoita, mutta olemme hakeneet rahoitusta siihen, että saisimme aineiston siirrettyä karttapalveluumme uutena Suomen murteiden ikkunana.
Uralilainen Historiallinen Atlas, URHIA
Karttapalvelumme on nimeltään Uralilainen Historiallinen Atlas, URHIA, jonka Meeli Roose on tehnyt osana väitöskirjaansa ja Suomen Akatemian URKO-hanketta. BEDLAN-työryhmän maantieteen jatko-opiskelijan Timo Rantasen väitöskirjatyön osana tehtiin uralilaisten kielten kartasto (kuva 1), jonka yleisölle avaamiseksi Roose teki URHIA-käyttöliittymän.
Interaktiivinen käyttöliittymä URHIA sisältää tällä hetkellä uralilaisten kielten puhuma-alueet paikkatietona ja PDF-muodossa. Nyt julkaistussa artikkelissa kuvasimme URHIA-käyttöliittymän teknisen puolen: URHIA on rakennettu avoimen lähdekoodin GeoNode-alustalle, joka on osa Turun yliopiston paikkatietoinfrastruktuuria. GeoNode-pohja mahdollistaa skaalautuvan, tietoturvallisen ja pitkäikäisen ympäristön tieteelliselle tiedonhallinnalle.
URHIAn rakentamisen taustalla on avoimen tieteen vaikuttavuuden lisääminen. Aineistoja voidaan toki avata vaikkapa CSV-muodossa, mutta niiden käyttäjäkunta pysyy tällöin varsin pienenä. URHIA-käyttöliittymän kautta uralilaisten kielten kartastot ovat suuren yleisön saatavilla, ja karttaikkunassa käyttäjä voi jopa tehdä oman karttansa ja ladata valitsemansa aineiston.
Haemme rahoitusta siihen, että saisimme rakennettua URHIAan lisää ikkunoita erityyppisille aineistoille. Tällä hetkellä alustettuna – mutta ei rahoitettuna – on Suomen Arkeologisen Esinetietokannan, AADAn, karttaikkuna. Päämääränämme on tehdä URHIAsta työkalu, jossa voi tarkastella visuaalisesti kielitieteellisiä, ekologisia, geneettisiä, arkeologisia ja historiallisia paikkatietoaineistoja, tehdä omia karttoja ja ladata aineistoja.
Viitteet:
- Sheila Embleton and Eric S. Wheeler. 1997. “Finnish dialect atlas for quantitative studies.” Journal of Quantitative Linguistics 4.99-102. https://doi.org/10.1080/09296179708590082.
- Sheila M. Embleton, and Eric S. Wheeler. 2000. “Computerized dialect atlas of Finnish: Dealing with ambiguity.” Journal of Quantitative Linguistics 7.227-31. https://doi.org/10.1076/jqul.7.3.227.4109.
- Lauri Kettunen. 1930a. “Suomen murteet I. Murrenäytteitä.” Helsinki: Suomalaisen Kirjallisuuden Seuran Kirjapainon osakeyhtiö.
- Lauri Kettunen. 1930b. “Suomen Murteet II. Murrealueet.” Helsinki: Suomalaisen Kirjallisuuden Seura.
- Lauri Kettunen. 1940. “Suomen Murteet III A. Murrekartasto.” Helsinki: Suomalaisen Kirjallisuuden Seura.
- Lauri Kettunen. 1940b. “Suomen Murteet III B. Selityksiä Murrekartastoon.” Helsinki: Suomalaisen Kirjallisuuden Seura.
- Rantanen Timo; Harri Tolvanen; Meeli Roose; Jussi Ylikoski and Outi Vesakoski. 2022. “Best practices for spatial language data harmonization, sharing and map creation—A case study of Uralic.” PLoS ONE 17(6): e0269648. https://doi.org/10.1371/journal.pone.0269648
- Meeli Roose, Tua Nylén, Petro Pesonen, Harri Tolvanen, and Outi Vesakoski. 2025. “Uralic Historical Atlas (URHIA): Interactive Web App for Spatial Data”. Digital Humanities in the Nordic and Baltic Countries Publications 7 (3). https://doi.org/10.5617/dhnbpub.12261.
- Jenni Santaharju, Kaj Syrjänen, Terhi Honkola, Perttu Seppä, Outi Vesakoski, and Unni Leino. 2025. “Data Release: Digitized Dialect Atlas of Finnish by Lauri Kettunen”. Digital Humanities inhe Nordic and Baltic Countries Publications 7 (3). https://doi.org/10.5617/dhnbpub.12270.
- Outi Vesakoski, Michael Dunn, Meeli Roose, and Jenni Santaharju. 2025. “The Uralic Trove (UraLaari) – The Digital Data Infrastructure of Speaker Areas of Uralic Languages and Finnish Dialects”. Digital Humanities in the Nordic and Baltic Countries Publications 7 (3). https://doi.org/10.5617/dhnbpub.12266.
- Outi Vesakoski; Lotta Aarikka and Jenni Santaharju. 2024. “Tieteen matkamiehen siivellä – Lauri Kettusen Suomen murteet tutkimusaineistona ennen ja nyt.” Saarte keeled. Ellen Niidi juubeliraamat. Tallin: Eesti Teaduste Akadeemia Emakeele Seltsi. 83. 142–165.
Kuvassa vasemmalta oikealle Outi Vesakoski, Meeli Roose ja Jenni Santaharju. Etualalla Tähti. Kuva Human Diversity -konsortion kokouksesta Seilistä 2024.
Kirjoittajat työskentelevät Turun yliopistossa Human Diversity -konsortiossa BEDLAN-työryhmässä. Outi Vesakoski on apulaisprofessori (Kieli- ja käännöstieteiden laitos), Meeli Roose on tohtorikoulutettava (Maantieteen ja geologian laitos) ja Jenni Santaharju on tutkijatohtori (Kieli- ja käännöstieteiden laitos).
Julkaisun tiedot: 1/2025, Open Up!-blogi, ISSN 2814-8967