Datatuki: researchdata@oulu.fi
Tiedekuntien data-asiantuntijat.
Tutkimusaineistolla tarkoitetaan tässä oppaassa (digitaalista) dataa, jolla tutkimuskysymyksiin pyritään vastaamaan ja johon tutkimuksen tulokset perustuvat. Tutkimusaineistot voivat koostua erityyppisistä tiedostoista, jotka voivat olla esimerkiksi tekstiä, kuvia, videoita, numeerisia taulukoita mittaustuloksista tai vaikkapa tietokantoja. Tutkimusaineistoksi ei tässä lueta datasta johdettuja kaavioita, raportteja tai julkaisuja mikäli ne eivät sellaisenaan ole toimineet varsinaisen tutkimuksen aineistona, kuten esimerkiksi kirjallisuuskatsauksessa tai meta-analyysissä.
Tutkimusaineistojen hallinta on tutkimusaineistosta huolehtimista. Siihen kuuluvat:
Oulun yliopisto on vastuullisen tutkimuksen julistuksellaan sitoutunut edistämään myös vastuullista tutkimusaineistojen hallintaa. Myös useilla tutkimusrahoittajilla ja tiedekustantajilla on tutkimusaineistojen hallintaan liittyviä vaatimuksia. Tarkemmat tiedot löydät rahoittajien hakukuulutuksista sekä tiedekustantajien ohjeista.
Tutkimusaineistojen hallinnan hyvät käytännöt tiivistyvät niin sanottuihin FAIR-periaatteisiin, joiden mukaan tutkimusaineiston tulisi olla löydettävää, saavutettavaa, yhteentoimivaa ja uudelleenkäytettävää.
Tällöin
Tieteen tietotekniikan keskus CSC tarjoaa FAIR-periaatteisiin perustuvan Fairdata palvelukokonaisuuden maksutta tutkijoiden käyttöön kotimaisissa korkeakouluissa ja tutkimuslaitoksissa tietyin rajoituksin (lisätietoa täällä).
Tietoarkiston aineistonhallinnan käsikirja (suomeksi)
Laatua ja vaikuttavuutta tutkijan työhön - miten teet datastasi FAIR? (suomeksi, ruotsiksi ja englanniksi)
CSC:n palvelut tutkijoille (suomeksi)
CSC:n Fairdata-palvelut tutkijoille (suomeksi)
CSC:n kokoama datanhallinnan muistilista (suomeksi)
CSC:n datanhallinnan itseopiskelukurssi (suomeksi)
CSC:n video FAIR-periaatteista (suomeksi)
Tutkimusaineistojen ja -menetelmien avoimuus: Korkeakoulu- ja tutkimusyhteisön kansallinen linjaus. (suomeksi)
Tee aineistonhallintasuunnitelma ja päivitä sitä myöhemmin tarvittaessa. Apua saat yliopiston datatuelta (researchdata@oulu.fi).
Selvitä jo mahdollisimman aikaisessa vaiheessa sisältääkö tutkimusaineistosi henkilötietoja tai muuta salassa pidettävää tietoa. Huomioithan että tutkittavia henkilöitä on informoitava henkilötietojen käsittelystä jo ennen aineiston keräämistä ja aineisto on säilytettävä tietoturvallisessa ympäristössä tutkimuksen kaikissa vaiheissa. Lisätietoja saat tiedekuntasi tietosuojatukihenkilöltä, Oulun yliopiston tietoturvatiimiltä (tietoturva@oulu.fi) ja Campus ICT:ltä (ict@oulu.fi).
Sovi aineistosi omistajuudesta, uudelleenkäytöstä ja muista oikeuksista. Ota oikeudet huomioon asianmukaisesti, jos hyödynnät muiden tuottamaa dataa tarkastamalla uudelleenkäyttöä määrittelevän lisenssin ehdot ja viittaa aineistoon.
Varmista että tutkimusaineistosi on tallennettu turvalliseen paikkaan rajaamalla pääsyoikeuksia tarvittaessa. Tallennuspaikan valinnassa auttaa tarvittaessa Campus ICT (ict@oulu.fi). Tieteen tietotekniikan keskus CSC tarjoaa suomalaisten korkeakoulujen tutkijoille maksuttomia säilytysratkaisuja, joihin kannattaa tutustua.
Käytä loogista kansiorakennetta, nimeä tiedostot informatiivisesti sekä pyri hyödyntämään standardeja ja yleisesti käytettyjä tiedostomuotoja.
Ennen tutkimusaineiston käsittelyä varmista, että säilytät alkuperäisen ns. raakaversion aineistostasi, jotta voit tarvittaessa palata siihen. Kirjaa muistiin kaikki aineistoon tehdyt muokkaukset. Aineiston muokkaamisen on aina oltava tarkoituksenmukaista, eikä se saa vääristää alkuperäistä aineistoa. Henkilötietoja sisältävää aineistoa voidaan tarpeen mukaan anonymisoida (henkilöä ei voi tunnistaa) tai pseudonymisoida (henkilöä ei voi tunnistaa ilman lisätietoja).
Kirjaa muistiin tutkimusaineistoa kuvailevia tietoja (metadataa), jota syntyy jatkuvasti tutkimustyön edetessä. Yksinkertaisimmillaan metadataa voit tallentaa niin sanottuun "read me"-tekstitiedostoon ja sitä voi saada myös esim. suoraan tutkimuslaitteesta. Mikäli metadataa on paljon tai aiot julkaista sen, on suositeltavaa tallentaa kuvailutiedot datarepositorioon. Julkaisemalla kuvailutiedot avoimesti tiedot tutkimusaineiston olemassa olosta välittyvät sekä tiedeyhteisölle että sen ulkopuolelle. Kuvailutietoja on mahdollista useimmiten julkaista myös silloin, kun varsinaista tutkimusaineistoa ei voi jakaa. Kuvailutietojen tallentamisessa ja julkaisemisessa voit hyödyntää esimerkiksi Tieteen tietotekniikan keskuksen CSC:n Qvain-palvelua (ohjevideo suomeksi), jonka kautta aineisto saa pysyvän tunnisteen (DOI tai URN) yksiselitteistä viittaamista varten. Lue myös tutkijoille suunnattu suomenkielinen ohje tutkimusaineistojen kuvailuun.
Tutkimusaineistoasi voidaan tarvita myöhemmin tai saatat haluta jakaa sen muille. Tällöin tutkimusaineisto kannattaa tallentaa data-arkistoon eli repositorioon. Liitä mukaan kuvailutietoja sekä riittävästi aineistoa selittävää dokumentaatiota, jotta aineistoasi voidaan ymmärtää. Tutkimusaineiston tai sen osien avoin saatavuus on suositeltavaa, mikäli sille ei ole esteitä. Voit määritellä uudelleenkäyttöehdot kuvailutiedoissa ilmoitetulla lisenssillä. Tutkimusaineistoja voit arkistoida esimerkiksi Tieteen tietotekniikan keskuksen CSC:n IDA-palveluun tai muuhun luotettavaan repositorioon.
Aineistonhallintasuunnitelmassa kuvataan:
Tekemällä aineistonhallintasuunnitelman voi etukäteen varautua mahdollisiin ongelmiin ja riskeihin, joita tutkimusprojektin aikana voi tulla vastaan. Suunnitelmaa voi myös päivittää projektin edetessä. Aineistonhallintasuunnitelmassa ei käsitellä aineiston tieteelliseen analysointiin liittyviä menetelmiä, jotka kuuluvat tutkimussuunnitelmaan.
Tarkemmat ohjeet aineistonhallintasuunnitelman laadintaan saat rahoitushakukuulutuksen ohjeista. Suunnitelman laatimiseen saat tarvittaessa apua yliopiston datatuesta (researchdata@oulu.fi).
TÄRKEÄÄ: joillekin tutkimusrahoittajille hyväksytty aineistonhallintasuunnitelma on rahoituksen saamisen ehtona. Mikäli sinulle myönnetään rahoitusta joka vaatii data-asiantuntijan hyväksymän aineistonhallintasuunnitelman, ole yhteydessä datatukeen: researchdata@oulu.fi.
Tutkimusaineistojen tuottamiseen osallistuvilla on monenlaisia oikeuksia joiden huomioiminen on tärkeää jo tutkimuksen suunnitteluvaiheessa. Tähän sisältyvät kaikki tutkimusaineiston tuottamiseen osallistuneet tahot. Aineiston omistajuudesta, käyttöoikeudesta ja aineiston mahdollisesta jakamisesta jatkokäyttöön on myös hyvä sopia mahdollisuuksien mukaan jo ennen aineiston keräämistä. Tutkimusaineistoille mm. määritellään tekijät, samoin kuin tutkimusjulkaisuille. Huomaa kuitenkin, että tutkimusaineiston ja tutkimusjulkaisun tekijät eivät välttämättä ole täysin samat.
Tutkimusaineistoihin liittyviin oikeuksiin ja velvollisuuksiin liittyen on huomioitava erityisesti esimerkiksi:
Tietosuojavaltuutetun toimiston ohje tietosuojasta (suomeksi)
Tietoarkiston käsikirja: Informointi henkilötietojen käsittelystä (suomeksi)
Tietosuoja tutkimuksessa (Patio intranet) (suomeksi)
Tutkimusetiikka Oulun yliopistossa (suomeksi)
Saamelaisia koskevan tutkimuksen eettiset ohjeet Suomessa (suomeksi, englanniksi ja saamen kielillä)
Tietoarkiston aineistonhallinnan käsikirja: sopimukset ja oikeudet (suomeksi)
Tutkimuseettisen neuvottelukunnan ohjeet (suomeksi)
Sosiaali- ja terveyslupaviranomainen Findata (suomeksi)
Tutkimusaineiston säilytyspaikka kannattaa valita huolella:
Täältä voit ladata tarkemman tietoaineistojen käsittelyohjeen koskien Oulun yliopistoa.
Nimeä ja järjestä kansiot ja tiedostot loogisesti. Tässä muutamia perusohjeita:
Tietoarkiston aineistonhallinnan käsikirja: Tiedostoformaatit ja ohjelmistot (suomeksi)
Tietoarkiston aineistonhallinnan käsikirja: Fyysinen säilytys (suomeksi)
CSC:n PAS-palvelun ohje tarkistussummien käyttöön (suomeksi)
Oulun yliopiston ohje tallennustilan valintaan (suomeksi; Patio-intranet)
Saatavilla olevia tutkimusaineistoja voi etsiä data-arkistoista ja esimerkiksi Tieteen tietotekniikan keskuksen CSC:n Etsin-palvelun avulla. Palvelun kautta on löydettävissä tietoja myös mm. kielipankin ja tietoarkiston tutkimusaineistoista. Mikäli suunnittelet käyttäväsi muiden keräämää aineistoa, huomioithan sille määrittelyt uudelleenkäytön ehdot (lisenssin) ja asianmukaisen viittaamisen aineistoon. Tutkimusaineistoille suositellaan käytettäväksi CC BY -lisenssiä avoimen tieteen suositusten mukaisesti ja lisenssitieto tulee liittää aineiston kuvailutietoihin, joista se on nähtävissä.
OpenAIRE:n ohje Tutkimusaineiston lisensointiin (englanniksi)
OpenAIRE:n ohje tutkimusaineiston uudelleenkäyttöön (englanniksi)
Jotta tutkimusaineistoa voidaan ymmärtää, siihen on liitettävä aineistoa kuvaavia tietoja eli metadataa. Tutkimusaineistoista on suositeltavaa julkaista data-arkistossa mahdollisuuksien mukaan ainakin nämä tiedot, myös siinä tapauksessa, että varsinaiseen aineistoon ei voida tarjota pääsyä:
Suositeltavaa on liittää mukaan myös:
Mikäli varsinainen tutkimusaineisto poistetaan myöhemmin, kuvailutiedot jäävät näkyviin data-arkistoon koska aineistoon on saatettu viitata.
Aineiston ymmärrettävyyttä voi parantaa liittämällä mukaan myös muita aineistoa selittäviä lisätietoja. Tietoja voi liittää varsinaisten datatiedostojen oheen esim. "readme"-tyyppisenä tekstitiedostona ja niihin voi sisällyttää esim.
Ohje tutkimusaineiston kuvailuun (suomeksi ja englanniksi)
Tietoarkiston aineistonhallinnan käsikirja: Aineiston kuvailu ja metadata (suomeksi)
Jyväskylän yliopiston datan dokumentointiopas (suomeksi)
Tutkimusaineistojen dokumentointiopas "Making a research project understandable: guide for data documentation" (englanniksi)
Research Data Alliance:n tieteenalakohtaisten metadatastandardien luettelo. (englanniksi)
Finto (keskitetty palvelu eri alojen yhteentoimiville sanastoille, ontologioille ja luokituksille) (suomeksi)
BARTOC (Basic Register of Thesauri, Ontologies & Classification) (englanniksi)
ELSST (European Language Social Science Thesaurus) (englanniksi)
LOV (Linked Open Vocabularies) (englanniksi)
OLS (Ontology Lookup Service) biolääketieteen ontologiat (englanniksi)
Tutkimusaineiston kuvailutietojen ja mahdollisuuksien mukaan varsinaisen tutkimusaineiston tai sen osien avoin saatavuus on tärkeää tutkimuksen toistettavuuden ja läpinäkyvyyden kannalta. Tutkimusaineiston uudelleenkäyttöehdot voi määritellä ilmoittamalla lisenssitiedon kuvailutietojen yhteydessä. Kuvailutiedot ovat avainasemassa tutkimusaineiston löydettävyyden kannalta. Julkaistut kuvailutiedot myös kertovat tutkimusaineiston olemassa olosta sekä voivat antaa arvokasta tietoa tutkimustyön toteutuksesta vaikka varsinainen aineisto olisi salassa pidettävää.
Tutkimusaineistoja voi arkistoida esimerkiksi Tieteen tietotekniikan keskuksen CSC:n IDA-palveluun tai muuhun luotettavaan repositorioon. On tärkeää, että repositorio voi luoda tutkimusaineistolle oman yksilöivän pysyvän tunnisteen (esim. DOI:n). Kuvailutietojen tallentamisella repositorioon aineisto voi saada pysyvän tunnisteen (esim. DOI tai URN) viittaamista varten ja tiedot aineistosta ovat muiden löydettävissä. Kuvailutietojen tallentamisessa ja julkaisemisessa voi hyödyntää esimerkiksi CSC:n Qvain-palvelua. Palvelun kautta voi tallentaa kuvailutiedot CSC:n IDA-palveluun tallennetulle aineistolle tai muualla sijaitsevalle aineistolle (mukaan lukien aineistot, joihin ei voi tarjota pääsyä). Graafisen käyttöliittymän sijaan voit myös halutessasi tallentaa metatiedot Metax-metatietovarannon rajapintaa käyttämällä.
Sekä Qvain-palvelun että rajapinnan kautta syötetyt metatiedot tallentuvat samaan paikkaan, josta ne on mahdollista linkittää kansalliseen tutkijaprofiiliin.
Repositorioiden välillä on mm. seuraavanlaisia eroja:
Datarepositorioissa tutkimusaineistoja voidaan etsiä hakutoimintojen avulla kuvailutietoja (metadataa) hyödyntämällä. Kuvailutiedot tallennetaan useimmiten syöttölomakkeen avulla (joissain tapauksissa mahdollista myös suoraan rajapinnan kautta), jolloin ne tallentuvat rakenteelliseen, tietokoneelle ymmärrettävään muotoon. Tämä muoto on ns. metadatastandardi eli skeema.
Mikäli tutkimusaineistoon liittyy alakohtaisia kuvailutietoja, joita monitieteisen repositorion metadatastandardi ei tue, kannattaa etsiä k.o. tutkimusalaan erikoistunut repositorio. Niitä voi selata esim. re3data.org-palvelun kautta. Alakohtaisen repositorion luotettavuudesta todistaa esimerkiksi Core Trust Seal-sertifikaatti. vaihtoehtoisesti alakohtaisen metadatan voi tallentaa dataan liitettävään lisädokumentaatioon, mutta tällöin se ei ole hakutoimintojen löydettävissä.
Esimerkkejä kansainvälisistä monitieteisistä repositoriopalveluista:
Tutkimusaineiston keruuseen liittyvän lisädokumentaation julkaiseminen parantaa tutkimuksen toistettavuutta ja tutkimuksen vaiheiden läpinäkyvyyttä. Aineistoa selittäviä lisätietoja voi usein julkaista data-arkistoissa liittämällä datatiedostoihin ns. "readme"-tiedosto, jossa tutkimusaineistoa on mahdollista kuvata vapaamuotoisemmin. Lisädokumentaation jakamisen suhteen on tärkeää huomioida, että dokumentaatiokin voi sisältää salassa pidettävää tietoa.
Tutkimusaineistoilla voi olla uudelleenkäyttöarvoa pitkälle tulevaisuuteen, jopa kymmenien tai satojen vuosien ajan. Tällöin aineistojen käytettävyydestä ja säilyvyydestä on pidettävä huolta, jotta mm. tiedostomuodot säilyvät käyttökelpoisina ja tutkimusaineiston eheys varmistetaan.
Opetus- ja kulttuuriministeriö (OKM) ja Tieteen tietotekniikan keskus CSC tarjoavat kotimaisten korkeakoulujen ja tutkimuslaitosten tutkijoiden käyttöön maksutta tutkimusaineistojen pitkäaikaissäilytyspalvelua (PAS). Tällöin tutkijan kotiorganisaatiolle on annettava tutkimusaineiston hallinnointioikeudet pitkän aikavälin säilytystä varten. Tutkimusaineistoon on liitettävä riittävästi kuvailutietoa ja muuta aineistoa selittävää dokumentaatiota.
Aineistojen soveltuvuus palveluun selvitetään yhdessä datatuen kanssa (researchdata@oulu.fi).
Tutkimusaineistoja voidaan myös julkaista vertaisarvioituna artikkelina eli datajulkaisuna, jossa tutkimusaineiston sisältö sekä sen tuottamisen ja käsittelyn vaiheet kuvataan perusteellisesti. Datajulkaisun tekeminen vaatii tarkat muistiinpanot, joten aineiston käsittelyn dokumentointia varten on hyvä valmistautua jo tutkimusta suunniteltaessa ja aineistonhallintasuunnitelmaa laadittaessa. Tarkka ja perusteellinen kuvaus lisää tutkimusaineiston uudelleenkäyttöarvoa ja ymmärrettävyyttä. Datajulkaisuun ei sisällytetä aineiston tieteellistä analyysiä eikä johtopäätöksiä, vaan ne voidaan mahdollisuuksien mukaan julkaista erikseen tavanomaisena tutkimusjulkaisuna. Tällöin tutkimusjulkaisuun ei tarvitse sisällyttää aineiston seikkaperäistä kuvausta vaan voidaan viitata datajulkaisuun. Vaatimukset vaihtelevat kustantajien välillä, joten tarkemmat ohjeet kannattaa tarkistaa julkaisun verkkosivulta.
Tutkimusaineistoa (tai ohjelmistokoodia) hyödynnettäessä siihen kuuluu viitata asianmukaisesti. Viittaamista varten aineistolle on suositeltavaa hankkia pysyvä tunniste (PID), joka voi olla esimerkiksi DOI. Tätä tunnistetta on suositeltavaa käyttää dataan viitatessa, koska tällöin juuri kyseinen aineisto ja sen käytetty versio on helpommin saavutettavissa. Jotkut data-arkistot mahdollistavat pysyvän tunnisteen varaamisen etukäteen jo ennen kuin aineisto on saatavilla. Tällöin tunnisteen saa sisällytettyä tutkimusjulkaisuun käsikirjoitusvaiheessa.
Myös ohjelmistokoodiin viitatessa on suositeltavaa käyttää pysyvää tunnistetta. Esimerkiksi GitHubissa jaetulle ohjelmistokoodille on mahdollista saada pysyvä tunniste Zenodo-repositorion kautta (ks. ohje).
Viittaukset kirjataan lisäksi tieteellisessä julkaisussa sekä tekstiin että lähdeluetteloon, mikäli mahdollista. Viittausten tarkka formaatti määräytyy julkaisukanavan mukaan, mutta tutkimusaineistoon voi viitata esimerkiksi näin:
Meikäläinen, M. & Tekijä, T. (2020). Aineisto, jonka keräsimme. [Data set]. Zenodo. doi:10.5284/1234567.
Tutkimusjulkaisun Data Availability Statement (DAS) kertoo julkaisussa hyödynnettyjen tutkimusaineistojen tiedot, missä ne ovat saatavilla ja mikäli niihin kohdistuu saatavuusrajoituksia. Muista mainita tutkimusaineiston tai ohjelmistokoodin pysyvä tunniste Data Availability Statementissa. Kustantajalla voi ollatekstille tarkempia ohjeita, mutta sen voi muotoilla esimerkiksi näin:
Data availability:
The following dataset created for this work can be found in [name of the repository] at [persistent identifier of the data].
Tietoarkiston ohje tutkimusaineistoihin viittaamisesta (suomeksi)
DCC:n ohje tutkimusaineistoihin viittaamisesta (englanniksi)