Tutkimusaineistojen hallinta: Tutkimusaineistot

Oulun yliopiston kirjaston opas tutkimusaineistojen hallintaan

Mitä tutkimusaineistonhallinta on?


Tutkimusaineistolla tarkoitetaan tässä oppaassa (digitaalista) dataa, jolla tutkimuskysymyksiin pyritään vastaamaan ja johon tutkimuksen tulokset perustuvat. Tutkimusaineistot voivat koostua erityyppisistä tiedostoista, jotka voivat olla esimerkiksi tekstiä, kuvia, videoita, numeerisia taulukoita mittaustuloksista tai vaikkapa tietokantoja. Tutkimusaineistoksi ei tässä lueta datasta johdettuja kaavioita, raportteja tai julkaisuja mikäli ne eivät sellaisenaan ole toimineet varsinaisen tutkimuksen aineistona, kuten esimerkiksi kirjallisuuskatsauksessa tai meta-analyysissä.

Tutkimusaineistojen hallinta on tutkimusaineistosta huolehtimista. Siihen kuuluvat:

  • suunnittelu
  • uuden tutkimusaineiston tuottaminen, kerääminen tai aiemmin tuotetun hyödyntäminen
  • säilyttäminen, järjestäminen ja nimeäminen
  • käsittely analysointia varten
  • tutkimusaineiston ja siihen liittyvien kuvailutietojen eli metadatan arkistoiminen ja jakaminen
  • päätös siitä, onko tutkimusaineistoa tarpeen säilyttää ja kuinka pitkään
  • tutkimusetiikkaan ja lakiin liittyvien näkökulmien huomioiminen kaikissa vaiheissa

Miksi tutkimusaineistojen hallintaan kannattaa panostaa?


Oulun yliopisto on vastuullisen tutkimuksen julistuksellaan sitoutunut edistämään myös vastuullista tutkimusaineistojen hallintaa. Myös useilla tutkimusrahoittajilla ja tiedekustantajilla on tutkimusaineistojen hallintaan liittyviä vaatimuksia. Tarkemmat tiedot löydät rahoittajien hakukuulutuksista sekä tiedekustantajien ohjeista.

Tutkimusaineistojen hallinnan hyvät käytännöt tiivistyvät niin sanottuihin FAIR-periaatteisiin, joiden mukaan tutkimusaineiston tulisi olla löydettävää, saavutettavaa, yhteentoimivaa ja uudelleenkäytettävää.

Kaavio, jossa kirjoitettuna käsitteet, joista FAIR-periaatteet muodostuvat: F Findable eli löydettävää, A Accessible eli saavutettavaa, I Interoperable eli yhteentoimivaa, R Re-usable eli uudelleenkäytettävää

Tällöin

  • tutkimustulosten perustana olevaa aineistoa tai sen kuvailutietoja helppo päästä tarkastelemaan
  • aineistoa voidaan paremmin ymmärtää ja mahdollisuuksien mukaan hyödyntää uudelleen
  • kaikkien tutkimusaineistoon liittyvien tahojen oikeudet on huomioitu asianmukaisesti

Tieteen tietotekniikan keskus CSC tarjoaa FAIR-periaatteisiin perustuvan Fairdata palvelukokonaisuuden maksutta tutkijoiden käyttöön kotimaisissa korkeakouluissa ja tutkimuslaitoksissa tietyin rajoituksin (lisätietoa täällä).

Tutkimusaineistonhallinta pähkinänkuoressa:


Suunnittelu

Tee aineistonhallintasuunnitelma ja päivitä sitä myöhemmin tarvittaessa. Apua saat yliopiston datatuelta (researchdata@oulu.fi).

Henkilötiedot ja muu salassa pidettävä tieto

Selvitä jo mahdollisimman aikaisessa vaiheessa sisältääkö tutkimusaineistosi henkilötietoja tai muuta salassa pidettävää tietoa. Huomioithan että tutkittavia henkilöitä on informoitava henkilötietojen käsittelystä jo ennen aineiston keräämistä ja aineisto on säilytettävä tietoturvallisessa ympäristössä tutkimuksen kaikissa vaiheissa. Lisätietoja saat tiedekuntasi tietosuojatukihenkilöltä, Oulun yliopiston tietoturvatiimiltä (tietoturva@oulu.fi) ja Campus ICT:ltä (ict@oulu.fi).

Oikeudet

Sovi aineistosi omistajuudesta, uudelleenkäytöstä ja muista oikeuksista. Ota oikeudet huomioon asianmukaisesti, jos hyödynnät muiden tuottamaa dataa tarkastamalla uudelleenkäyttöä määrittelevän lisenssin ehdot ja viittaa aineistoon.

Tallennuspaikka

Varmista että tutkimusaineistosi on tallennettu turvalliseen paikkaan rajaamalla pääsyoikeuksia tarvittaessa. Tallennuspaikan valinnassa auttaa tarvittaessa Campus ICT (ict@oulu.fi). Tieteen tietotekniikan keskus CSC tarjoaa suomalaisten korkeakoulujen tutkijoille maksuttomia säilytysratkaisuja, joihin kannattaa tutustua.

Tiedostot ja kansiot

Käytä loogista kansiorakennetta, nimeä tiedostot informatiivisesti sekä pyri hyödyntämään standardeja ja yleisesti käytettyjä tiedostomuotoja.

Käsittely

Ennen tutkimusaineiston käsittelyä varmista, että säilytät alkuperäisen ns. raakaversion aineistostasi, jotta voit tarvittaessa palata siihen. Kirjaa muistiin kaikki aineistoon tehdyt muokkaukset. Aineiston muokkaamisen on aina oltava tarkoituksenmukaista, eikä se saa vääristää alkuperäistä aineistoa. Henkilötietoja sisältävää aineistoa voidaan tarpeen mukaan anonymisoida (henkilöä ei voi tunnistaa) tai pseudonymisoida (henkilöä ei voi tunnistaa ilman lisätietoja).

Kuvailutiedot

Kirjaa muistiin tutkimusaineistoa kuvailevia tietoja (metadataa), jota syntyy jatkuvasti tutkimustyön edetessä. Yksinkertaisimmillaan metadataa voit tallentaa niin sanottuun "read me"-tekstitiedostoon ja sitä voi saada myös esim. suoraan tutkimuslaitteesta. Mikäli metadataa on paljon tai aiot julkaista sen, on suositeltavaa tallentaa kuvailutiedot datarepositorioon. Julkaisemalla kuvailutiedot avoimesti tiedot tutkimusaineiston olemassa olosta välittyvät sekä tiedeyhteisölle että sen ulkopuolelle. Kuvailutietoja on mahdollista useimmiten julkaista myös silloin, kun varsinaista tutkimusaineistoa ei voi jakaa. Kuvailutietojen tallentamisessa ja julkaisemisessa voit hyödyntää esimerkiksi Tieteen tietotekniikan keskuksen CSC:n Qvain-palvelua, jonka kautta aineisto saa pysyvän tunnisteen (DOI tai URN) yksiselitteistä viittaamista varten.

Arkistointi ja avoin saatavuus

Tutkimusaineistoasi voidaan tarvita myöhemmin tai saatat haluta jakaa sen muille. Tällöin tutkimusaineisto kannattaa tallentaa data-arkistoon eli repositorioon. Liitä mukaan kuvailutietoja sekä riittävästi aineistoa selittävää dokumentaatiota, jotta aineistoasi voidaan ymmärtää. Tutkimusaineiston tai sen osien avoin saatavuus on suositeltavaa, mikäli sille ei ole esteitä. Voit määritellä uudelleenkäyttöehdot kuvailutiedoissa ilmoitetulla lisenssillä. Tutkimusaineistoja voit arkistoida esimerkiksi Tieteen tietotekniikan keskuksen CSC:n IDA-palveluun tai muuhun luotettavaan repositorioon.

Aineistonhallintasuunnitelman (DMP) laatiminen


Aineistonhallintasuunnitelmassa kuvataan:

  • millaista tutkimusaineistoa tullaan käyttämään
  • miten tutkimusaineisto saadaan (tuotetaanko uutta, hyödynnetäänkö olemassa olevaa)
  • miten tutkimusaineistoa aiotaan säilyttää
  • miltä osin tutkimusaineiston tietoja voidaan saattaa avoimesti saataville esimerkiksi jakamalla repositorion kautta
  • liittyykö aineistoon mahdollisia eettisiä tai lakiin (esim. GDPR) liittyviä kysymyksiä ja miten ne huomioidaan 

Tekemällä aineistonhallintasuunnitelman voi etukäteen varautua mahdollisiin ongelmiin ja riskeihin, joita tutkimusprojektin aikana voi tulla vastaan. Suunnitelmaa voi myös päivittää projektin edetessä. Aineistonhallintasuunnitelmassa ei käsitellä aineiston tieteelliseen analysointiin liittyviä menetelmiä, jotka kuuluvat tutkimussuunnitelmaan.

Tarkemmat ohjeet aineistonhallintasuunnitelman laadintaan saat rahoitushakukuulutuksen ohjeista. Suunnitelman laatimiseen saat tarvittaessa apua yliopiston datatuesta (researchdata@oulu.fi).

TÄRKEÄÄ: joillekin tutkimusrahoittajille hyväksytty aineistonhallintasuunnitelma on rahoituksen saamisen ehtona. Mikäli sinulle myönnetään rahoitusta joka vaatii data-asiantuntijan hyväksymän aineistonhallintasuunnitelman, ole yhteydessä datatukeen: researchdata@oulu.fi.

 

Tutkimusaineistoihin liittyvät oikeudet ja eettiset vaatimukset


Tutkimusaineistojen tuottamiseen osallistuvilla on monenlaisia oikeuksia joiden huomioiminen on tärkeää jo tutkimuksen suunnitteluvaiheessa. Tähän sisältyvät kaikki tutkimusaineiston tuottamiseen osallistuneet tahot. Aineiston omistajuudesta, käyttöoikeudesta ja aineiston mahdollisesta jakamisesta jatkokäyttöön on myös hyvä sopia mahdollisuuksien mukaan jo ennen aineiston keräämistä. Tutkimusaineistoille mm. määritellään tekijät, samoin kuin tutkimusjulkaisuille. Huomaa kuitenkin, että tutkimusaineiston ja tutkimusjulkaisun tekijät eivät välttämättä ole täysin samat.

Tutkimusaineistoihin liittyviin oikeuksiin ja velvollisuuksiin liittyen on huomioitava erityisesti esimerkiksi:

  • tietosuoja
  • tutkimuksen kohteena olevien henkilöiden informointi
  • muut alakohtaiset eettiset vaatimukset esimerkiksi lääketieteellisessä tutkimuksessa ja ihmistieteissä
  • alkuperäiskansojen oikeudet
  • uhanalaisten lajien paikkatiedot
  • yrityssalaisuudet ym.

Tallennuspaikan valinta


Tutkimusaineiston säilytyspaikka kannattaa valita huolella:

  • vältä tallennusvälineitä, jotka voivat helposti kadota tai rikkoontua, kuten USB-tikut tai kannettavan tietokoneen kiintolevyt
  • huolehdi, että aineistosi on myös varmuuskopioitu
  • mikäli siirrät aineistoasi säilytyspaikkojen välillä, voit hyödyntää tarkistussummia aineiston eheyden varmistamiseksi
  • jos aineistosi sisältää henkilötietoja tai muutoin salassapidettäviä tietoja, huomioi se säilytysratkaisun valinnassa ja rajoita pääsyä aineistoon tarvittaessa
  • hyödynnä mahdollisuuksien mukaan yleisesti käytössä olevia avoimia tiedostomuotoja, jolloin niiden avaamiseen ei vaadita tiettyä laitetta tai ohjelmistoa

Täältä voit ladata tarkemman tietoaineistojen käsittelyohjeen koskien Oulun yliopistoa.

Tiedostojen järjestäminen ja nimeäminen


Nimeä ja järjestä kansiot ja tiedostot loogisesti. Tässä muutamia perusohjeita:

  • hyödynnä tiedostojen järjestämistä kansioihin mutta ota huomioon tiedostoja nimetessä, että tiedostojen paikka voi myöhemmin vaihtua (älä esim. käytä samaa tiedostonimeä erinimisten kansioiden sisällä)
  • vältä erikoismerkkejä ja välilyöntejä kansioiden ja tiedostojen nimissä (esim. välilyönnin voi korvata _-merkillä)
  • mikäli käytät päivämääriä, on suositeltavaa käyttää muotoa vuosi-kuukausi-päivämäärä (YYYY-MM-DD), koska tällöin tiedot järjestyvät oikein
  • vältä salassa pidettävää tietoa tiedostojen tai kansioiden nimissä
  • säilytä aina aineiston ns. raakamuotoinen versio ja tallenna muokattu aineisto erikseen (nimeä versiot informatiivisesti tai käytä versionhallintatyökalua apunasi)

Tutkimusaineistojen uudelleenkäyttö ja lisensointi


Saatavilla olevia tutkimusaineistoja voi etsiä data-arkistoista ja esimerkiksi Tieteen tietotekniikan keskuksen CSC:n Etsin-palvelun avulla. Palvelun kautta on löydettävissä tietoja myös mm. kielipankin ja tietoarkiston tutkimusaineistoista. Mikäli suunnittelet käyttäväsi muiden keräämää aineistoa, huomioithan sille määrittelyt uudelleenkäytön ehdot (lisenssin) ja asianmukaisen viittaamisen aineistoon. Tutkimusaineistoille suositellaan käytettäväksi  CC BY -lisenssiä avoimen tieteen suositusten mukaisesti ja lisenssitieto tulee liittää aineiston kuvailutietoihin, joista se on nähtävissä.

Tutkimusaineiston kuvailutiedot eli metadata ja dokumentaatio


Jotta tutkimusaineistoa voidaan ymmärtää, siihen on liitettävä aineistoa kuvaavia tietoja eli metadataa. Tutkimusaineistoista on suositeltavaa julkaista data-arkistossa mahdollisuuksien mukaan ainakin nämä tiedot, myös siinä tapauksessa, että varsinaiseen aineistoon ei voida tarjota pääsyä:

  • pysyvä tunniste tutkimusaineistolle (esim. DOI tai URN)
  • otsikko ja kuvaus
  • tiedot tekijöistä (myös ORCID-tunnisteet suositeltavia)
  • tutkimusaineiston tai kuvailutietojen julkaisemisen ajankohta

      Suositeltavaa on liittää mukaan myös:

  • sisältöä kuvaavia asia- ja avainsanoja
  • uudelleenkäyttöehdot eli lisenssi
  • tieto siitä onko aineistoon avoin vai rajattu pääsy

Mikäli varsinainen tutkimusaineisto poistetaan myöhemmin, kuvailutiedot jäävät näkyviin data-arkistoon koska aineistoon on saatettu viitata.

Aineiston ymmärrettävyyttä voi parantaa liittämällä mukaan myös muita aineistoa selittäviä lisätietoja. Tietoja voi liittää varsinaisten datatiedostojen oheen esim. "readme"-tyyppisenä tekstitiedostona ja niihin voi sisällyttää esim.

  • tiedostojen järjestystä ja kansiorakennetta
  • muuttujien selityksiä (esim. käytetyt lyhenteet), mittayksiköitä, miten puuttuvaa tietoa tulisi tulkita jne.
  • laboratorio- tai kenttätyöpäiväkirjoja

Tutkimusaineistojen ja niiden kuvailutietojen jakaminen ja tallentaminen repositorioon


Tutkimusaineiston kuvailutietojen ja mahdollisuuksien mukaan varsinaisen tutkimusaineiston tai sen osien avoin saatavuus on tärkeää tutkimuksen toistettavuuden ja läpinäkyvyyden kannalta. Tutkimusaineiston uudelleenkäyttöehdot voi määritellä ilmoittamalla lisenssitiedon kuvailutietojen yhteydessä. Kuvailutiedot ovat avainasemassa tutkimusaineiston löydettävyyden kannalta. Julkaistut kuvailutiedot myös kertovat tutkimusaineiston olemassa olosta sekä voivat antaa arvokasta tietoa tutkimustyön toteutuksesta vaikka varsinainen aineisto olisi salassa pidettävää. 

Tutkimusaineistoja voi arkistoida esimerkiksi Tieteen tietotekniikan keskuksen CSC:n IDA-palveluun tai muuhun luotettavaan repositorioon. On tärkeää, että repositorio voi luoda tutkimusaineistolle oman yksilöivän pysyvän tunnisteen (esim. DOI:n). Kuvailutietojen tallentamisella repositorioon aineisto voi saada pysyvän tunnisteen (esim. DOI tai URN) viittaamista varten ja tiedot aineistosta ovat muiden löydettävissä. Kuvailutietojen tallentamisessa ja julkaisemisessa voi hyödyntää esimerkiksi CSC:n Qvain-palvelua. Palvelun kautta voi tallentaa kuvailutiedot CSC:n IDA-palveluun tallennetulle aineistolle tai muualla sijaitsevalle aineistolle (mukaan lukien aineistot, joihin ei voi tarjota pääsyä). Graafisen käyttöliittymän sijaan voit myös halutessasi tallentaa metatiedot Metax-metatietovarannon rajapintaa käyttämällä.

Sekä Qvain-palvelun että rajapinnan kautta syötetyt metatiedot tallentuvat samaan paikkaan, josta ne on mahdollista linkittää kansalliseen tutkijaprofiiliin.

 

Repositorion valinta


Repositorioiden välillä on mm. seuraavanlaisia eroja:

  • monitieteinen tai alakohtainen
  • tutkimusaineiston tallennuspaikan maantieteellinen sijainti
  • versioinnin tuki
  • varmuuskopiointi
  • aineistoon pääsyn rajaamisen vaihtoehdot
  • kuvailutietojen rakenne

Datarepositorioissa tutkimusaineistoja voidaan etsiä hakutoimintojen avulla kuvailutietoja (metadataa) hyödyntämällä. Kuvailutiedot tallennetaan useimmiten syöttölomakkeen avulla (joissain tapauksissa mahdollista myös suoraan rajapinnan kautta), jolloin ne tallentuvat rakenteelliseen, tietokoneelle ymmärrettävään muotoon. Tämä muoto on ns. metadatastandardi eli skeema. 

Mikäli tutkimusaineistoon liittyy alakohtaisia kuvailutietoja, joita monitieteisen repositorion metadatastandardi ei tue, kannattaa etsiä k.o. tutkimusalaan erikoistunut repositorio. Niitä voi selata esim. re3data.org-palvelun kautta. Alakohtaisen repositorion luotettavuudesta todistaa esimerkiksi Core Trust Seal-sertifikaatti. vaihtoehtoisesti alakohtaisen metadatan voi tallentaa dataan liitettävään lisädokumentaatioon, mutta tällöin se ei ole hakutoimintojen löydettävissä.

Esimerkkejä kansainvälisistä monitieteisistä repositoriopalveluista:

 

Lisädokumentaation julkaiseminen


Tutkimusaineiston keruuseen liittyvän lisädokumentaation julkaiseminen parantaa tutkimuksen toistettavuutta ja tutkimuksen vaiheiden läpinäkyvyyttä. Aineistoa selittäviä lisätietoja voi usein julkaista data-arkistoissa liittämällä datatiedostoihin ns. "readme"-tiedosto, jossa tutkimusaineistoa on mahdollista kuvata vapaamuotoisemmin. Lisädokumentaation jakamisen suhteen on tärkeää huomioida, että dokumentaatiokin voi sisältää salassa pidettävää tietoa.

Digitaalisten tutkimusaineistojen pitkäaikaissäilytyspalvelu (PAS)


Tutkimusaineistoilla voi olla uudelleenkäyttöarvoa pitkälle tulevaisuuteen, jopa kymmenien tai satojen vuosien ajan. Tällöin aineistojen käytettävyydestä ja säilyvyydestä on pidettävä huolta, jotta mm. tiedostomuodot säilyvät käyttökelpoisina ja tutkimusaineiston eheys varmistetaan.

Opetus- ja kulttuuriministeriö (OKM) ja Tieteen tietotekniikan keskus CSC tarjoavat kotimaisten korkeakoulujen ja tutkimuslaitosten tutkijoiden käyttöön maksutta tutkimusaineistojen pitkäaikaissäilytyspalvelua (PAS). Tällöin tutkijan kotiorganisaatiolle on annettava tutkimusaineiston hallinnointioikeudet pitkän aikavälin säilytystä varten. Tutkimusaineistoon on liitettävä riittävästi kuvailutietoa ja muuta aineistoa selittävää dokumentaatiota.

Aineistojen soveltuvuus palveluun selvitetään yhdessä datatuen kanssa (researchdata@oulu.fi).

Datajulkaisut (data-artikkelit)


Tutkimusaineistoja voidaan myös julkaista vertaisarvioituna artikkelina eli datajulkaisuna, jossa tutkimusaineiston sisältö sekä sen tuottamisen ja käsittelyn vaiheet kuvataan perusteellisesti. Datajulkaisun tekeminen vaatii tarkat muistiinpanot, joten aineiston käsittelyn dokumentointia varten on hyvä valmistautua jo tutkimusta suunniteltaessa ja aineistonhallintasuunnitelmaa laadittaessa. Tarkka ja perusteellinen kuvaus lisää tutkimusaineiston uudelleenkäyttöarvoa ja ymmärrettävyyttä. Datajulkaisuun ei sisällytetä aineiston tieteellistä analyysiä eikä johtopäätöksiä, vaan ne voidaan mahdollisuuksien mukaan julkaista erikseen tavanomaisena tutkimusjulkaisuna. Tällöin tutkimusjulkaisuun ei tarvitse sisällyttää aineiston seikkaperäistä kuvausta vaan voidaan viitata datajulkaisuun. Vaatimukset vaihtelevat kustantajien välillä, joten tarkemmat ohjeet kannattaa tarkistaa julkaisun verkkosivulta.

Tutkimusaineistoon viittaaminen ja pysyvät tunnisteet


Tutkimusaineistoa (tai ohjelmistokoodia) hyödynnettäessä siihen kuuluu viitata asianmukaisesti. Viittaamista varten aineistolle on suositeltavaa hankkia pysyvä tunniste (PID), joka voi olla esimerkiksi DOI. Tätä tunnistetta on suositeltavaa käyttää dataan viitatessa, koska tällöin juuri kyseinen aineisto ja sen käytetty versio on helpommin saavutettavissa. Jotkut data-arkistot mahdollistavat pysyvän tunnisteen varaamisen etukäteen jo ennen kuin aineisto on saatavilla. Tällöin tunnisteen saa sisällytettyä tutkimusjulkaisuun käsikirjoitusvaiheessa.

Myös ohjelmistokoodiin viitatessa on suositeltavaa käyttää pysyvää tunnistetta. Esimerkiksi GitHubissa jaetulle ohjelmistokoodille on mahdollista saada pysyvä tunniste Zenodo-repositorion kautta (ks. ohje).

Viittaukset kirjataan lisäksi tieteellisessä julkaisussa sekä tekstiin että lähdeluetteloon, mikäli mahdollista. Viittausten tarkka formaatti määräytyy julkaisukanavan mukaan, mutta tutkimusaineistoon voi viitata esimerkiksi näin: 

         Meikäläinen, M. & Tekijä, T. (2020). Aineisto, jonka keräsimme. [Data set]. Zenodo. doi:10.5284/1234567.

Tutkimusjulkaisun Data Availability Statement (DAS) kertoo julkaisussa hyödynnettyjen tutkimusaineistojen tiedot, missä ne ovat saatavilla ja mikäli niihin kohdistuu saatavuusrajoituksia. Muista mainita tutkimusaineiston tai ohjelmistokoodin pysyvä tunniste Data Availability Statementissa. Kustantajalla voi ollatekstille tarkempia ohjeita, mutta sen voi muotoilla esimerkiksi näin:

         Data availability:

         The following dataset created for this work can be found in [name of the repository] at [persistent identifier of the data].