Avoimen ja vastuullisen tieteen opas: Tutkimusaineistot

Tutkimusdatanhallinta - mitä ja miksi?

Tutkimusaineistolla tarkoitetaan tässä oppaassa (digitaalista) dataa, jolla tutkimuskysymyksiin pyritään vastaamaan ja johon tutkimuksen tulokset perustuvat. Tutkimusaineistot voivat koostua erityyppisistä tiedostoista, jotka voivat olla esimerkiksi tekstiä, kuvia, videoita, numeerisia taulukoita mittaustuloksista tai vaikkapa tietokantoja. Tutkimusaineistoksi ei tässä lueta datasta johdettuja kaavioita, raportteja tai julkaisuja mikäli ne eivät sellaisenaan ole toimineet varsinaisen tutkimuksen aineistona, kuten esimerkiksi kirjallisuuskatsauksessa tai meta-analyysissä.

Tutkimusaineistojen hallinta on tutkimusaineistosta huolehtimista. Siihen kuuluu myös tietoturvaan, tietosuojaan, tutkimusetiikkaan ja lakiin liittyvien näkökulmien huomioiminen kaikissa vaiheissa.

Datanhallinnan vaiheet: suunnittelu, kerääminen, tallentaminen, järjestäminen, käsittely, arkistointi ja julkaiseminen, säilytys tai tuhoaminen

Oulun yliopisto on vastuullisen tutkimuksen julistuksellaan sitoutunut edistämään myös vastuullista tutkimusaineistojen hallintaa. Myös useilla tutkimusrahoittajilla ja tiedekustantajilla on tutkimusaineistojen hallintaan liittyviä vaatimuksia. Tarkemmat tiedot löydät rahoittajien hakukuulutuksista sekä tiedekustantajien ohjeista.

Tutkimusaineistojen hallinnan hyvät käytännöt tiivistyvät niin sanottuihin FAIR-periaatteisiin, joiden mukaan tutkimusaineiston tulisi olla löydettävää, saavutettavaa, yhteentoimivaa ja uudelleenkäytettävää. Tällöin

  • tutkimustulosten perustana olevaa aineistoa tai sen kuvailutietoja on helppo päästä tarkastelemaan
  • aineistoa voidaan paremmin ymmärtää ja mahdollisuuksien mukaan hyödyntää uudelleen
  • kaikkien tutkimusaineistoon liittyvien tahojen oikeudet on huomioitu asianmukaisesti

Tieteen tietotekniikan keskus CSC tarjoaa FAIR-periaatteita tukevan Fairdata palvelukokonaisuuden maksutta tutkijoiden käyttöön kotimaisissa korkeakouluissa ja tutkimuslaitoksissa tietyin rajoituksin (lisätietoa täällä).

FAIR-periaatteiden toteutumista käytännössä edistää tutkimusaineistoon viittaaminen pysyvää tunnistetta hyödyntäen, joka voi olla esimerkiksi DOI.  Viittaukset kirjataan lisäksi tieteellisessä julkaisussa sekä tekstiin että lähdeluetteloon, mikäli mahdollista. Viittausten tarkka formaatti määräytyy julkaisukanavan mukaan, mutta tutkimusaineistoon voi viitata esimerkiksi näin: 

         Meikäläinen, M. & Tekijä, T. (2020). Aineisto, jonka keräsimme. [Data set]. Zenodo. doi:10.5284/1234567.

Tutkimusjulkaisun Data Availability Statement (DAS) kertoo julkaisussa hyödynnettyjen tutkimusaineistojen tiedot, missä ne ovat saatavilla ja mikäli niihin kohdistuu saatavuusrajoituksia. Muista mainita tutkimusaineiston tai ohjelmistokoodin pysyvä tunniste. Kustantajalla voi olla tekstille tarkempia ohjeita, mutta sen voi muotoilla esimerkiksi näin:

         Data availability:

         The following dataset created for this work can be found in [name of the repository] at [persistent identifier of the data].

Datanhallinta pähkinänkuoressa

Suunnittelu

Tee aineistonhallintasuunnitelma ja päivitä sitä myöhemmin tarvittaessa. Apua saat yliopiston datatuelta (researchdata@oulu.fi). 

Henkilötiedot ja muu salassa pidettävä tieto

Selvitä jo mahdollisimman aikaisessa vaiheessa sisältääkö tutkimusaineistosi henkilötietoja tai muuta salassa pidettävää tietoa. Huomioithan että tutkittavia henkilöitä on informoitava henkilötietojen käsittelystä jo ennen aineiston keräämistä ja aineisto on säilytettävä tietoturvallisessa ympäristössä tutkimuksen kaikissa vaiheissa. Lisätietoja saat tiedekuntasi tietosuojatukihenkilöltä, Oulun yliopiston tietoturvatiimiltä (tietoturva@oulu.fi) ja Campus ICT:ltä (ict@oulu.fi).

Oikeudet

Sovi aineistosi omistajuudesta, uudelleenkäytöstä ja muista oikeuksista. Ota oikeudet huomioon asianmukaisesti, jos hyödynnät muiden tuottamaa dataa tarkastamalla uudelleenkäyttöä määrittelevän lisenssin ehdot ja viittaa aineistoon.

Tallennuspaikka

Varmista että tutkimusaineistosi on tallennettu turvalliseen paikkaan rajaamalla pääsyoikeuksia tarvittaessa. Tallennuspaikan valinnassa auttaa tarvittaessa Campus ICT (ict@oulu.fi). Tieteen tietotekniikan keskus CSC tarjoaa suomalaisten korkeakoulujen tutkijoille maksuttomia säilytysratkaisuja, joihin kannattaa tutustua.

Tiedostot ja kansiot

Käytä loogista kansiorakennetta, nimeä tiedostot informatiivisesti sekä pyri hyödyntämään standardeja ja yleisesti käytettyjä tiedostomuotoja.

Käsittely

Ennen tutkimusaineiston käsittelyä varmista, että säilytät alkuperäisen ns. raakaversion aineistostasi, jotta voit tarvittaessa palata siihen. Kirjaa muistiin kaikki aineistoon tehdyt muokkaukset. Aineiston muokkaamisen on aina oltava tarkoituksenmukaista, eikä se saa vääristää alkuperäistä aineistoa. Henkilötietoja sisältävää aineistoa voidaan tarpeen mukaan anonymisoida (henkilöä ei voi tunnistaa) tai pseudonymisoida (henkilöä ei voi tunnistaa ilman lisätietoja).

Kuvailutiedot

Kirjaa muistiin tutkimusaineistoa kuvailevia tietoja (metadataa), jota syntyy jatkuvasti tutkimustyön edetessä. Yksinkertaisimmillaan metadataa voit tallentaa niin sanottuun "read me"-tekstitiedostoon ja sitä voi saada myös esim. suoraan tutkimuslaitteesta. Mikäli metadataa on paljon tai aiot julkaista sen, on suositeltavaa tallentaa kuvailutiedot datarepositorioon. Julkaisemalla kuvailutiedot avoimesti tiedot tutkimusaineiston olemassa olosta välittyvät sekä tiedeyhteisölle että sen ulkopuolelle. Kuvailutietoja on mahdollista useimmiten julkaista myös silloin, kun varsinaista tutkimusaineistoa ei voi jakaa. Kuvailutietojen tallentamisessa ja julkaisemisessa voit hyödyntää esimerkiksi Tieteen tietotekniikan keskuksen CSC:n Qvain-palvelua (ohjevideo suomeksi), jonka kautta aineisto saa pysyvän tunnisteen (DOI tai URN) yksiselitteistä viittaamista varten. Lue myös tutkijoille suunnattu suomenkielinen ohje tutkimusaineistojen kuvailuun.

Arkistointi ja avoin saatavuus

Tutkimusaineistoasi voidaan tarvita myöhemmin tai saatat haluta jakaa sen muille. Tällöin tutkimusaineisto kannattaa arkistoida tai tallentaa muiden saataville datarepositorioon. Liitä mukaan kuvailutietoja sekä riittävästi aineistoa selittävää dokumentaatiota, jotta aineistoasi voidaan ymmärtää. Tutkimusaineiston tai sen osien avoin saatavuus on suositeltavaa, mikäli sille ei ole esteitä. Voit määritellä uudelleenkäyttöehdot kuvailutiedoissa ilmoitetulla lisenssillä. Tutkimusaineistoja voit jakaa esimerkiksi Tieteen tietotekniikan keskuksen CSC:n IDA-palvelun tai muun luotettavan repositorion kautta.

Aineistonhallintasuunnitelman (DMP) laatiminen

Aineistonhallintasuunnitelmassa kuvataan:

  • millaista tutkimusaineistoa tullaan käyttämään
  • miten tutkimusaineisto saadaan (tuotetaanko uutta, hyödynnetäänkö olemassa olevaa)
  • miten tutkimusaineistoa aiotaan säilyttää
  • miltä osin tutkimusaineiston tietoja voidaan saattaa avoimesti saataville esimerkiksi jakamalla repositorion kautta
  • liittyykö aineistoon mahdollisia eettisiä tai lakiin (esim. GDPR) liittyviä kysymyksiä ja miten ne huomioidaan 

Tekemällä aineistonhallintasuunnitelman voi etukäteen varautua mahdollisiin ongelmiin ja riskeihin, joita tutkimusprojektin aikana voi tulla vastaan. Suunnitelmaa voi myös päivittää projektin edetessä. Aineistonhallintasuunnitelmassa ei käsitellä aineiston tieteelliseen analysointiin liittyviä menetelmiä, jotka kuuluvat tutkimussuunnitelmaan.

Tarkemmat ohjeet aineistonhallintasuunnitelman laadintaan saat rahoitushakukuulutuksen ohjeista. Suunnitelman laatimiseen saat tarvittaessa apua yliopiston datatuesta (researchdata@oulu.fi).

TÄRKEÄÄ: joillekin tutkimusrahoittajille hyväksytty aineistonhallintasuunnitelma on rahoituksen saamisen ehtona. Mikäli sinulle myönnetään rahoitusta joka vaatii data-asiantuntijan hyväksymän aineistonhallintasuunnitelman, ole yhteydessä datatukeen: researchdata@oulu.fi.

DMP:ssä suunnitellaan dataan liittyvät oikeudet ja omistajuus, avoin jakaminen, salassapito ja pääsyoikeudet, eettiset kysymykset, uudelleenkäyttöehdot, säilyttäminen, arkistointi, hävittäminen, datan koko ja tyyppi, kuvailu ja dokumentointi.

Tutkimusaineistojen tuottamiseen osallistuvilla on monenlaisia oikeuksia ja velvollisuuksia, joiden huomioiminen on tärkeää jo tutkimuksen suunnitteluvaiheessa. Tähän sisältyvät kaikki tutkimusaineiston tuottamiseen osallistuneet tahot. Aineiston omistajuudesta, käyttöoikeudesta ja aineiston mahdollisesta jakamisesta jatkokäyttöön on myös hyvä sopia mahdollisuuksien mukaan jo ennen aineiston keräämistä. Tutkimusaineistoille mm. määritellään tekijät, samoin kuin tutkimusjulkaisuille joten datan tuottamiseen osallistuvat tahot on mainittava asianmukaisesti. Rooleista voi tarvittaessa sopia tarkemmin jo suunnitteluvaiheessa.

Tutkimusaineistoihin liittyviin oikeuksiin ja velvollisuuksiin liittyen on huomioitava erityisesti esimerkiksi:

  • tietosuoja
  • tutkimuksen kohteena olevien henkilöiden informointi
  • muut alakohtaiset eettiset vaatimukset esimerkiksi lääketieteellisessä tutkimuksessa ja ihmistieteissä
  • alkuperäiskansojen oikeudet ja CARE-periaatteet
  • uhanalaisten lajien paikkatiedot
  • yrityssalaisuudet ym.

Mikäli suunnittelet käyttäväsi uudelleen muiden keräämää aineistoa, huomioithan sille määrittelyt uudelleenkäytön ehdot (lisenssin) ja asianmukaisen viittaamisen aineistoon. Saatavilla olevia tutkimusaineistoja voi etsiä datarepositorioista.

Tutkimusaineistoja voidaan myös julkaista vertaisarvioituna artikkelina eli datajulkaisuna, jossa tutkimusaineiston sisältö sekä sen tuottamisen ja käsittelyn vaiheet kuvataan perusteellisesti. Datajulkaisun tekeminen vaatii tarkat muistiinpanot, joten aineiston käsittelyn dokumentointia varten on hyvä valmistautua jo tutkimusta suunniteltaessa ja aineistonhallintasuunnitelmaa laadittaessa. Tarkka ja perusteellinen kuvaus lisää tutkimusaineiston uudelleenkäyttöarvoa ja ymmärrettävyyttä. Datajulkaisuun ei sisällytetä aineiston tieteellistä analyysiä eikä johtopäätöksiä, vaan ne voidaan mahdollisuuksien mukaan julkaista erikseen tavanomaisena tutkimusjulkaisuna. Tällöin tutkimusjulkaisuun ei tarvitse sisällyttää aineiston seikkaperäistä kuvausta vaan voidaan viitata datajulkaisuun. Vaatimukset vaihtelevat kustantajien välillä, joten tarkemmat ohjeet kannattaa tarkistaa julkaisun verkkosivulta.

Tallennuspaikan valinta, tiedostojen järjestäminen ja nimeäminen

Tutkimusaineiston säilytyspaikka kannattaa valita huolella:

  • vältä tallennusvälineitä, jotka voivat helposti kadota tai rikkoontua, kuten USB-tikut tai kannettavan tietokoneen kiintolevyt
  • huolehdi, että aineistosi on myös varmuuskopioitu
  • mikäli siirrät aineistoasi säilytyspaikkojen välillä, voit hyödyntää tarkistussummia aineiston eheyden varmistamiseksi
  • jos aineistosi sisältää henkilötietoja tai muutoin salassapidettäviä tietoja, huomioi se säilytysratkaisun valinnassa ja rajoita pääsyä aineistoon tarvittaessa
  • hyödynnä mahdollisuuksien mukaan yleisesti käytössä olevia avoimia tiedostomuotoja, jolloin niiden avaamiseen ei vaadita tiettyä laitetta tai ohjelmistoa

Täältä voit ladata tarkemman tietoaineistojen käsittelyohjeen koskien Oulun yliopistoa.

Säilytettävät kansiot ja tiedostot on hyvä nimetä ja järjestää loogisesti. Tässä muutamia perusohjeita:

  • hyödynnä tiedostojen järjestämistä kansioihin mutta ota huomioon tiedostoja nimetessä, että tiedostojen paikka voi myöhemmin vaihtua (älä esim. käytä samaa tiedostonimeä erinimisten kansioiden sisällä)
  • vältä erikoismerkkejä ja välilyöntejä kansioiden ja tiedostojen nimissä (esim. välilyönnin voi korvata _-merkillä)
  • mikäli käytät päivämääriä, on suositeltavaa käyttää muotoa vuosi-kuukausi-päivämäärä (YYYY-MM-DD), koska tällöin tiedot järjestyvät oikein
  • vältä salassa pidettävää tietoa tiedostojen tai kansioiden nimissä
  • säilytä aina aineiston ns. raakamuotoinen versio ja tallenna muokattu aineisto erikseen (nimeä versiot informatiivisesti tai käytä apunasi  versionhallintatyökalua)

Tutkimusaineistojen kuvailutiedot (metadata) ja lisädokumentaatio

Jotta tutkimusaineistoa voidaan ymmärtää, siihen on liitettävä aineistoa kuvaavia tietoja eli metadataa. Tutkimusaineistoista on suositeltavaa julkaista datarepositoriossa mahdollisuuksien mukaan ainakin nämä tiedot, myös siinä tapauksessa, että varsinaiseen aineistoon ei voida tarjota pääsyä:

  • pysyvä tunniste tutkimusaineistolle (esim. DOI tai URN)
  • otsikko ja kuvaus (Huom! Mikäli julkaiset aineistostasi vain kuvailutiedot, panosta kuvaukseen, jossa voit vapaamuotoisemmin kertoa datastasi!)
  • tiedot tekijöistä (myös ORCID-tunnisteet suositeltavia)
  • tutkimusaineiston tai kuvailutietojen julkaisemisen ajankohta

      Suositeltavaa on liittää mukaan myös:

  • sisältöä kuvaavia asia- ja avainsanoja
  • uudelleenkäyttöehdot eli lisenssi (avoimelle datalle suositellaan CC BY-lisenssiä)
  • tieto siitä onko aineistoon avoin vai rajattu pääsy

Mikäli varsinainen tutkimusaineisto poistetaan myöhemmin, kuvailutiedot jäävät näkyviin repositorioon koska aineistoon on saatettu viitata.

Aineiston ymmärrettävyyttä voi parantaa liittämällä mukaan myös muita aineistoa selittäviä lisätietoja. Lisädokumentaation julkaiseminen parantaa tutkimuksen toistettavuutta ja tutkimuksen vaiheiden läpinäkyvyyttä. Tietoja voi liittää varsinaisten datatiedostojen oheen esim. "readme"-tyyppisenä tekstitiedostona ja niihin voi sisällyttää esim.

  • kuvauksen tiedostojen järjestystä ja kansiorakenteesta
  • muuttujien selityksiä (esim. käytetyt lyhenteet), mittayksiköitä, miten puuttuvaa tietoa tulisi tulkita jne.
  • laboratorio- tai kenttätyöpäiväkirjoja

Lisädokumentaation jakamisen suhteen on tärkeää huomioida, että dokumentaatiokin voi sisältää salassa pidettävää tietoa.

Datarepositoriot ja pitkäaikaissäilytys

Tutkimusaineiston kuvailutietojen ja mahdollisuuksien mukaan varsinaisen tutkimusaineiston tai sen osien avoin saatavuus on tärkeää tutkimuksen toistettavuuden ja läpinäkyvyyden kannalta. Tutkimusaineiston uudelleenkäyttöehdot voi määritellä ilmoittamalla lisenssitiedon kuvailutietojen yhteydessä. Kuvailutiedot ovat avainasemassa tutkimusaineiston löydettävyyden kannalta. Julkaistut kuvailutiedot myös kertovat tutkimusaineiston olemassa olosta sekä voivat antaa arvokasta tietoa tutkimustyön toteutuksesta vaikka varsinainen aineisto olisi salassa pidettävää. 

Tutkimusaineistoja voi julkaista esimerkiksi Tieteen tietotekniikan keskuksen CSC:n IDA-palvelun tai muun luotettavan repositorion kautta. On tärkeää, että repositorio voi luoda tutkimusaineistolle oman yksilöivän pysyvän tunnisteen (esim. DOI:n). Pysyvää tunnistetta käytetään viittaamiseen ja jotta tiedot aineistosta ovat muiden löydettävissä helposti. Jotkut datarepositoriot mahdollistavat pysyvän tunnisteen varaamisen etukäteen jo ennen kuin aineisto on saatavilla. Tällöin tunnisteen saa sisällytettyä tutkimusjulkaisuun käsikirjoitusvaiheessa. Myös ohjelmistokoodille on suositeltavaa käyttää pysyvää tunnistetta. Esimerkiksi GitHubissa jaetulle ohjelmistokoodille on mahdollista saada pysyvä tunniste Zenodo-repositorion kautta (ks. ohje).

Pelkkien kuvailutietojen julkaisemiseen voi käyttää esimerkiksi CSC:n Qvain-palvelua. Palvelun kautta voi myös tallentaa kuvailutiedot CSC:n IDA-palveluun tallennetulle aineistolle tai muualla sijaitsevalle aineistolle (mukaan lukien aineistot, joihin ei voi tarjota pääsyä). Graafisen käyttöliittymän sijaan voit myös halutessasi tallentaa metatiedot Metax-metatietovarannon rajapintaa käyttämällä.

Sekä Qvain-palvelun että rajapinnan kautta syötetyt metatiedot tallentuvat samaan paikkaan, josta ne on mahdollista linkittää kansalliseen tutkijaprofiiliin.

Repositorioiden välillä on mm. seuraavanlaisia eroja:

  • monitieteinen tai alakohtainen
  • tutkimusaineiston tallennuspaikan maantieteellinen sijainti
  • versioinnin tuki
  • varmuuskopiointi
  • aineistoon pääsyn rajaamisen vaihtoehdot
  • kuvailutietojen rakenne

Datarepositorioissa tutkimusaineistoja voidaan etsiä hakutoimintojen avulla kuvailutietoja (metadataa) hyödyntämällä. Kuvailutiedot tallennetaan useimmiten syöttölomakkeen avulla (joissain tapauksissa mahdollista myös suoraan rajapinnan kautta), jolloin ne tallentuvat rakenteelliseen, tietokoneelle ymmärrettävään muotoon. Tämä muoto on ns. metadatastandardi eli skeema. 

Mikäli tutkimusaineistoon liittyy alakohtaisia kuvailutietoja, joita monitieteisen repositorion metadatastandardi ei tue, kannattaa etsiä k.o. tutkimusalaan erikoistunut repositorio. Niitä voi selata esim. re3data.org-palvelun kautta. Alakohtaisen repositorion luotettavuudesta todistaa esimerkiksi Core Trust Seal-sertifikaatti. vaihtoehtoisesti alakohtaisen metadatan voi tallentaa dataan liitettävään lisädokumentaatioon, mutta tällöin se ei ole hakutoimintojen löydettävissä.

Esimerkkejä kansainvälisistä monitieteisistä repositoriopalveluista:

Tutkimusaineistoilla voi myös olla uudelleenkäyttöarvoa pitkälle tulevaisuuteen, jopa kymmenien tai satojen vuosien ajan. Tällöin aineistojen käytettävyydestä ja säilyvyydestä on pidettävä huolta, jotta mm. tiedostomuodot säilyvät käyttökelpoisina ja tutkimusaineiston eheys varmistetaan.

Opetus- ja kulttuuriministeriö (OKM) ja Tieteen tietotekniikan keskus CSC tarjoavat kotimaisten korkeakoulujen ja tutkimuslaitosten tutkijoiden käyttöön maksutta tutkimusaineistojen pitkäaikaissäilytyspalvelua (PAS). Tällöin tutkijan kotiorganisaatiolle on annettava tutkimusaineiston hallinnointioikeudet pitkän aikavälin säilytystä varten. Tutkimusaineistoon on liitettävä riittävästi kuvailutietoa ja muuta aineistoa selittävää dokumentaatiota. Aineiston voi halutessaan avata muiden saataville mutta se ei ole välttämätöntä.

Aineistojen soveltuvuus palveluun selvitetään yhdessä datatuen kanssa (researchdata@oulu.fi).