Jospa jakaisin tutkimusaineistoni
Tutkimusprojekteissa kerätyn ja tuotetun digitaalisen tutkimusaineiston eli tutkimusdatan avoin jakaminen ja uudelleenkäytön mahdollistaminen on tavoitteena Turun yliopiston datapolitiikassa, kansallisissa ja kv. linjauksissa ja ehtona tai suosituksena useiden suurten rahoittajien ehdoissa (esim. Horizon Europe, European Research Council, Wellcome Trust, National Science Found, National Institutes of Health, Suomen Akatemia).
Käytännöt vaihtelevat
Datan jakamisessa ja jaetun datan uudelleenkäytössä voi olla suuria eroja johtuen mm. tieteenalakohtaisista eroista ja datan luonteesta.
Jotta hyvät, standardit datanhallinnan käytännöt ja niiden mahdollistama datan jakaminen yleistyisi, tarvitaan kannustimia ja taitoja sekä helppokäyttöisiä, tutkimusprosesseihin linkittyviä prosesseja ja infrastruktuureja (ks. esim. Key Perspectives, 2010).
Jakamisen esteet ja edistäjät
Tutkijat voivat kokea datan jakamisen ongelmalliseksi erilaisista syistä. Alla muutamia koettuja esteitä sekä keinoja niiden ylittämiseksi.
Este 1: Epävarmuus datan jakamisen hyödyistä
Edistäjä 1: Tutkimusartikkeliin linkitetyn avoimen datan on todettu kasvattavan artikkelin viittausmääriä tyypillisesti n. 20-30%, vaihdellen eri tutkimuksissa 0:n (Thelwall, 2017) ja 69 prosentin (Piwowar, 2007) välillä (ks. Drachen et al., 2016; Fu et al., 2023; Gleditsch et al., 2003; Piwowar et al., 2007; Piwowar & Vision, 2013; Sears, 2011; Thelwall, 2017; Zhang & Ma, 2021). Viittausmäärän kasvun eroihin eri tutkimuksissa voi vaikuttaa se, missä määrin niissä on huomioitu vaikuttavia tekijöitä kuten tieteenala ja sen käytännöt, artikkelin kirjoittajien tausta ja lukumäärä, lehden impact factor ja rahoittajan vaatimukset.
Edistäjä 2: Avoin data voi avata yhteistyömahdollisuuksia ja johtaa uusiin tutkimuskysymyksiin, menetelmiin ja tuloksiin (esim. Borgman; 2008; Van den Eynden et al., 2016).
”Monet akateemikot ja tutkijat huolehtivat siitä, että heidän tutkimuksensa julkaistaan “arvostetuissa” tieteellisissä julkaisuissa. Sen sijaan, että huolehtisimme arvostuksesta, meidän tulisi yrittää saada työmme julki mahdollisimman nopeasti, kuten (Nobel-voittaja Katalin) Karikó teki. Kun julkaiset työsi välittämättä arvostuksesta, tapahtuu kaksi hyvää asiaa: 1. Työsi avaa uusia mahdollisuuksia. 2. Alat saada palautetta tieteelliseltä yhteisöltä, jonka avulla voit tehdä iterointia ja parantaa työtäsi.”
Edistäjä 3: Dokumentoimalla datan käsittelyn vaiheet osoitat, miten olet edennyt kerätystä tai tuotetusta raakadatasta prosessoinnin ja analysoinnin kautta tutkimusjulkaisuun. Samalla se varmistaa datan yhtenäisyyden ja toimii tutkimuksen ja sen tulosten oikeellisuuden ja laadunvarmistuksen välineenä. Avaamalla lisäksi raakadatan niiltä osin kuin se on mahdollista, varmistat ja osoitat arvioijille ja muille lukijoille, että tutkimustuloksiin on päädytty noudattaen hyviä tieteellisiä toimintatapoja (esim. Chiarelli et al., 2021; Ioannidis et al., 2014)
“Alexandrian suuren kirjaston tuho johti antiikin teosten katastrofaaliseen hävittämiseen. Silti tieteellisen datan asteittainen katoaminen modernissa ajassa on laajalti hyväksyttyä. (…) Tässä raportoidut tulokset viittaavat siihen, että paljon viitattujen tutkimusten dataa on haastavaa hankkia jälkikäteen. Tämä tarkoittaa, että vaikka nämä tutkimukset ovat joitakin alansa vaikutusvaltaisimpia ja monet muut tutkijat ovat käyttäneet niitä laajasti, niiden väitteet on hyväksyttävä sellaisenaan, eikä kyseistä dataa voi enää tarkistaa itsenäisesti tai käyttää vapaasti. (…) Onneksi tietoisuus datan jakamisen ja tutkimuksen läpinäkyvyyden tärkeydestä eri tieteissä on kasvussa.”
Edistäjä 4: Jaettu data voi vähentää päällekkäistä työtä ja nopeuttaa tutkimuslöydösten hyödyntämistä esim. ilmastonmuutoksen torjunnassa, vesiensuojelussa, pandemioiden ehkäisemisessä (ks. esim. Nobel-voittaja Katalin Karikón tarina).
Edistäjä 5: Jos datasi ei ole jaettavissa, voit yleensä kuitenkin jakaa metadatan (=datan kuvailutiedot ja halutessasi tiedot tutkimuksen muuttujista) Turun yliopiston datakatalogissa. Avoimen datakatalogin kautta muut tutkijat meillä ja muualla näkevät, millaista tutkimusta teet/olet tehnyt, joka voi avata yhteistyömahdollisuuksia joko kuvaavamasi aineiston pohjalta tai jatkotutkimuksen näkökulmasta.
”Meillä on hankkeessa aivan uniikkia dataa ja todella hyviä aineistoja, joilla voidaan tehdä ainutlaatuisia tarkasteluita. Datakatalogia voidaan hyödyntää esimerkiksi pohdittaessa uusia tutkimusasetelmia, mutta lisäksi laadukkaiden aineistojen näkyväksi tekeminen on meille myös tärkeä houkutustekijä esimerkiksi kansainvälisten tutkijoiden rekrytoinnissa sekä laajemman yhteistyön kehittämisessä.”
Simo Arhippainen, INVEST-lippulaivahanke
Este 2: Huoli mahdollisesta datan väärinymmärryksestä
Edistäjä: Jaettu data on ulkopuolisellekin ymmärrettävää ja uudelleenkäytettävissä vain, jos se on hyvin kuvailtu ja kontekstoitu. Tätä voit edistää datan hyvällä dokumentoinnilla ja metadatoituksella. Mikäli tieteenalalla ei ole yleisesti käytettyä metadatastandardia, kannattaa tehdä selkeä lukuohje (esim. readme.txt -tiedosto) jaettujen datasettien yhteyteen.
Este 3: Osaamisen ja/tai ajan puute
Edistäjä: Dokumentoimalla datan käsittelyn eri vaiheet sitä mukaa kuin tutkimusprosessi etenee, voit vähentää tähän kuluvaa aikaa. Kirjaston data-asiantuntijat opastavat, tukevat ja kouluttavat hyviä dokumentointi- ja kuvailukäytäntöjä.
Este 4: Epävarmuus riittävästä tietosuojasta ja immateriaalioikeuksista eli eettiset ja lailliset kysymykset
Edistäjä: Ensiapua voit saada kirjaston dataoppaan tietosuoja– ja immateriaaliluvuista. Kirjasto-, tietosuoja- ja lakipalvelut myös opastavat ja neuvovat mielellään.
Este 5: Datan ”kaappaaminen” tai väärinkäyttö
Edistäjä: Harkitse, miltä osin ja missä vaiheessa voit jakaa dataa – ennen artikkelin julkaisemista, julkaisemisen yhteydessä, vai julkaisemisen jälkeen. Valitsemalla datallesi oikeanlaisen lisenssin, ehkäiset datan väärinkäyttöä.
Este 6: Puuttuvat helppokäyttöiset infrastruktuurit
Edistäjä: Turun yliopisto tai suosittelemamme yhteistyökumppanit tarjoavat tutkimuksen ideointiin, suunnitteluun ja valmisteluun, datan keruuseen, käsittelyyn, tallennukseen, laskentaan, analysointiin, jakamiseen ja säilytykseen useita ratkaisuja. Ks. myös dataopas tai kysy lisää osoitteesta data@utu.fi.
Este 7: Kannusteiden puuttuminen
Edistäjä: On totta, että tehokkaimmat kannustimet on suunnattu tällä hetkellä tutkimusjulkaisujen tuottamiseen. Voit kuitenkin ansioitua myös jakamalla hyvin dokumentoitua, lisensoitua ja pysyvällä tunnisteella (esim. DOI) varustettua tutkimusdataa. Muista liittää tutkimusjulkaisusi lähdeluetteloon asianmukainen lähdemerkintä, ks. viittausohje.
Jukka Rantasaari
ORCID 0000-0001-5927-3781
Kirjoittaja on kirjaston palvelupäällikkö, joka valmistelee parhaillaan väitöskirjaa nuorten tutkijoiden tutkimusdatanhallinnan käytännöistä, osaamisesta ja osaamistarpeista.
Julkaisun tiedot: 5/2023, Open Up! -blogi, ISSN 2814-8967