researchdata@oulu.fi
Tutkimusaineistolla tarkoitetaan tässä oppaassa (digitaalista) dataa, jolla tutkimuskysymyksiin pyritään vastaamaan ja johon tutkimuksen tulokset perustuvat. Tutkimusaineistot voivat koostua erityyppisistä tiedostoista, jotka voivat olla esimerkiksi tekstiä, kuvia, videoita, numeerisia taulukoita mittaustuloksista tai vaikkapa tietokantoja. Tutkimusaineistoksi ei tässä lueta datasta johdettuja kaavioita, raportteja tai julkaisuja mikäli ne eivät sellaisenaan ole toimineet varsinaisen tutkimuksen aineistona, kuten esimerkiksi kirjallisuuskatsauksessa tai meta-analyysissä.
Tutkimusaineistojen hallinta on tutkimusaineistosta huolehtimista. Siihen kuuluu myös tietoturvaan, tietosuojaan, tutkimusetiikkaan ja lakiin liittyvien näkökulmien huomioiminen kaikissa vaiheissa.

Oulun yliopisto on vastuullisen tutkimuksen julistuksellaan sitoutunut edistämään myös vastuullista tutkimusaineistojen hallintaa. Myös useilla tutkimusrahoittajilla ja tiedekustantajilla on tutkimusaineistojen hallintaan liittyviä vaatimuksia. Tarkemmat tiedot löydät rahoittajien hakukuulutuksista sekä tiedekustantajien ohjeista.
Tutkimusaineistojen hallinnan hyvät käytännöt tiivistyvät niin sanottuihin FAIR-periaatteisiin, joiden mukaan tutkimusaineiston tulisi olla löydettävää, saavutettavaa, yhteentoimivaa ja uudelleenkäytettävää. Tällöin
Tieteen tietotekniikan keskus CSC tarjoaa FAIR-periaatteita tukevan Fairdata palvelukokonaisuuden maksutta tutkijoiden käyttöön kotimaisissa korkeakouluissa ja tutkimuslaitoksissa tietyin rajoituksin (lisätietoa täällä).
FAIR-periaatteiden toteutumista käytännössä edistää tutkimusaineistoon viittaaminen pysyvää tunnistetta hyödyntäen, joka voi olla esimerkiksi DOI. Viittaukset kirjataan lisäksi tieteellisessä julkaisussa sekä tekstiin että lähdeluetteloon, mikäli mahdollista. Viittausten tarkka formaatti määräytyy julkaisukanavan mukaan, mutta tutkimusaineistoon voi viitata esimerkiksi näin:
Meikäläinen, M. & Tekijä, T. (2020). Aineisto, jonka keräsimme. [Data set]. Zenodo. doi:10.5284/1234567.
Tutkimusjulkaisun Data Availability Statement (DAS) kertoo julkaisussa hyödynnettyjen tutkimusaineistojen tiedot, missä ne ovat saatavilla ja mikäli niihin kohdistuu saatavuusrajoituksia. Muista mainita tutkimusaineiston tai ohjelmistokoodin pysyvä tunniste. Kustantajalla voi olla tekstille tarkempia ohjeita, mutta sen voi muotoilla esimerkiksi näin:
Data availability:
The following dataset created for this work can be found in [name of the repository] at [persistent identifier of the data].
Tee aineistonhallintasuunnitelma ja päivitä sitä myöhemmin tarvittaessa. Apua saat yliopiston datatuelta (researchdata@oulu.fi).
Selvitä jo mahdollisimman aikaisessa vaiheessa sisältääkö tutkimusaineistosi henkilötietoja tai muuta salassa pidettävää tietoa. Huomioithan että tutkittavia henkilöitä on informoitava henkilötietojen käsittelystä jo ennen aineiston keräämistä ja aineisto on säilytettävä tietoturvallisessa ympäristössä tutkimuksen kaikissa vaiheissa. Lisätietoja saat tiedekuntasi tietosuojatukihenkilöltä, Oulun yliopiston tietoturvatiimiltä (tietoturva@oulu.fi) ja Campus ICT:ltä (ict@oulu.fi).
Sovi aineistosi omistajuudesta, uudelleenkäytöstä ja muista oikeuksista. Ota oikeudet huomioon asianmukaisesti, jos hyödynnät muiden tuottamaa dataa tarkastamalla uudelleenkäyttöä määrittelevän lisenssin ehdot ja viittaa aineistoon.
Varmista että tutkimusaineistosi on tallennettu turvalliseen paikkaan rajaamalla pääsyoikeuksia tarvittaessa. Tallennuspaikan valinnassa auttaa tarvittaessa Campus ICT (ict@oulu.fi). Tieteen tietotekniikan keskus CSC tarjoaa suomalaisten korkeakoulujen tutkijoille maksuttomia säilytysratkaisuja, joihin kannattaa tutustua.
Käytä loogista kansiorakennetta, nimeä tiedostot informatiivisesti sekä pyri hyödyntämään standardeja ja yleisesti käytettyjä tiedostomuotoja.
Ennen tutkimusaineiston käsittelyä varmista, että säilytät alkuperäisen ns. raakaversion aineistostasi, jotta voit tarvittaessa palata siihen. Kirjaa muistiin kaikki aineistoon tehdyt muokkaukset. Aineiston muokkaamisen on aina oltava tarkoituksenmukaista, eikä se saa vääristää alkuperäistä aineistoa. Henkilötietoja sisältävää aineistoa voidaan tarpeen mukaan anonymisoida (henkilöä ei voi tunnistaa) tai pseudonymisoida (henkilöä ei voi tunnistaa ilman lisätietoja).
Kirjaa muistiin tutkimusaineistoa kuvailevia tietoja (metadataa), jota syntyy jatkuvasti tutkimustyön edetessä. Yksinkertaisimmillaan metadataa voit tallentaa niin sanottuun "read me"-tekstitiedostoon ja sitä voi saada myös esim. suoraan tutkimuslaitteesta. Mikäli metadataa on paljon tai aiot julkaista sen, on suositeltavaa tallentaa kuvailutiedot datarepositorioon. Julkaisemalla kuvailutiedot avoimesti tiedot tutkimusaineiston olemassa olosta välittyvät sekä tiedeyhteisölle että sen ulkopuolelle. Kuvailutietoja on mahdollista useimmiten julkaista myös silloin, kun varsinaista tutkimusaineistoa ei voi jakaa. Kuvailutietojen tallentamisessa ja julkaisemisessa voit hyödyntää esimerkiksi Tieteen tietotekniikan keskuksen CSC:n Qvain-palvelua (ohjevideo suomeksi), jonka kautta aineisto saa pysyvän tunnisteen (DOI tai URN) yksiselitteistä viittaamista varten. Lue myös tutkijoille suunnattu suomenkielinen ohje tutkimusaineistojen kuvailuun.
Tutkimusaineistoasi voidaan tarvita myöhemmin tai saatat haluta jakaa sen muille. Tällöin tutkimusaineisto kannattaa arkistoida tai tallentaa muiden saataville datarepositorioon. Liitä mukaan kuvailutietoja sekä riittävästi aineistoa selittävää dokumentaatiota, jotta aineistoasi voidaan ymmärtää. Tutkimusaineiston tai sen osien avoin saatavuus on suositeltavaa, mikäli sille ei ole esteitä. Voit määritellä uudelleenkäyttöehdot kuvailutiedoissa ilmoitetulla lisenssillä. Tutkimusaineistoja voit jakaa esimerkiksi Tieteen tietotekniikan keskuksen CSC:n IDA-palvelun tai muun luotettavan repositorion kautta.
Tietoarkiston aineistonhallinnan käsikirja (suomeksi)
Laatua ja vaikuttavuutta tutkijan työhön - miten teet datastasi FAIR? (suomeksi, ruotsiksi ja englanniksi)
CSC:n palvelut tutkijoille (suomeksi)
CSC:n Fairdata-palvelut tutkijoille (suomeksi)
CSC:n kokoama datanhallinnan muistilista (suomeksi)
CSC:n datanhallinnan itseopiskelukurssi (suomeksi)
CSC:n video FAIR-periaatteista (suomeksi)
Tutkimusaineistojen ja -menetelmien avoimuus: Korkeakoulu- ja tutkimusyhteisön kansallinen linjaus. (suomeksi)
Tietoarkiston ohje tutkimusaineistoihin viittaamisesta (suomeksi)
DCC:n ohje tutkimusaineistoihin viittaamisesta (englanniksi)
Aineistonhallintasuunnitelmassa kuvataan:
Tekemällä aineistonhallintasuunnitelman voi etukäteen varautua mahdollisiin ongelmiin ja riskeihin, joita tutkimusprojektin aikana voi tulla vastaan. Suunnitelmaa voi myös päivittää projektin edetessä. Aineistonhallintasuunnitelmassa ei käsitellä aineiston tieteelliseen analysointiin liittyviä menetelmiä, jotka kuuluvat tutkimussuunnitelmaan.
Tarkemmat ohjeet aineistonhallintasuunnitelman laadintaan saat rahoitushakukuulutuksen ohjeista. Suunnitelman laatimiseen saat tarvittaessa apua yliopiston datatuesta (researchdata@oulu.fi).
TÄRKEÄÄ: joillekin tutkimusrahoittajille hyväksytty aineistonhallintasuunnitelma on rahoituksen saamisen ehtona. Mikäli sinulle myönnetään rahoitusta joka vaatii data-asiantuntijan hyväksymän aineistonhallintasuunnitelman, ole yhteydessä datatukeen: researchdata@oulu.fi.

Tutkimusaineistojen tuottamiseen osallistuvilla on monenlaisia oikeuksia ja velvollisuuksia, joiden huomioiminen on tärkeää jo tutkimuksen suunnitteluvaiheessa. Tähän sisältyvät kaikki tutkimusaineiston tuottamiseen osallistuneet tahot. Aineiston omistajuudesta, käyttöoikeudesta ja aineiston mahdollisesta jakamisesta jatkokäyttöön on myös hyvä sopia mahdollisuuksien mukaan jo ennen aineiston keräämistä. Tutkimusaineistoille mm. määritellään tekijät, samoin kuin tutkimusjulkaisuille joten datan tuottamiseen osallistuvat tahot on mainittava asianmukaisesti. Rooleista voi tarvittaessa sopia tarkemmin jo suunnitteluvaiheessa.
Tutkimusaineistoihin liittyviin oikeuksiin ja velvollisuuksiin liittyen on huomioitava erityisesti esimerkiksi:
Mikäli suunnittelet käyttäväsi uudelleen muiden keräämää aineistoa, huomioithan sille määrittelyt uudelleenkäytön ehdot (lisenssin) ja asianmukaisen viittaamisen aineistoon. Saatavilla olevia tutkimusaineistoja voi etsiä datarepositorioista.
Tutkimusaineistoja voidaan myös julkaista vertaisarvioituna artikkelina eli datajulkaisuna, jossa tutkimusaineiston sisältö sekä sen tuottamisen ja käsittelyn vaiheet kuvataan perusteellisesti. Datajulkaisun tekeminen vaatii tarkat muistiinpanot, joten aineiston käsittelyn dokumentointia varten on hyvä valmistautua jo tutkimusta suunniteltaessa ja aineistonhallintasuunnitelmaa laadittaessa. Tarkka ja perusteellinen kuvaus lisää tutkimusaineiston uudelleenkäyttöarvoa ja ymmärrettävyyttä. Datajulkaisuun ei sisällytetä aineiston tieteellistä analyysiä eikä johtopäätöksiä, vaan ne voidaan mahdollisuuksien mukaan julkaista erikseen tavanomaisena tutkimusjulkaisuna. Tällöin tutkimusjulkaisuun ei tarvitse sisällyttää aineiston seikkaperäistä kuvausta vaan voidaan viitata datajulkaisuun. Vaatimukset vaihtelevat kustantajien välillä, joten tarkemmat ohjeet kannattaa tarkistaa julkaisun verkkosivulta.
Tietoarkiston aineistonhallinnan käsikirja: aineistonhallinnan suunnittelu (suomeksi)
Tietosuojavaltuutetun toimiston ohje tietosuojasta (suomeksi)
Tietoarkiston käsikirja: Informointi henkilötietojen käsittelystä (suomeksi)
Tietosuoja tutkimuksessa (Patio intranet) (suomeksi)
Oulun yliopiston tietosuojapolitiikka (suomeksi)
Tutkimusetiikka Oulun yliopistossa (suomeksi)
Saamelaisia koskevan tutkimuksen eettiset ohjeet Suomessa (suomeksi, englanniksi ja saamen kielillä)
Tietoarkiston aineistonhallinnan käsikirja: sopimukset ja oikeudet (suomeksi)
Tutkimuseettisen neuvottelukunnan ohjeet (suomeksi)
Sosiaali- ja terveyslupaviranomainen Findata (suomeksi)
Henkilötietoja sisältävän tutkimusaineiston säilyttäminen ja jatkokäyttö (suomeksi; Patio-intranet)
OpenAIRE:n ohje tutkimusaineiston uudelleenkäyttöön (englanniksi)
Tutkimusaineiston säilytyspaikka kannattaa valita huolella:
Täältä voit ladata tarkemman tietoaineistojen käsittelyohjeen koskien Oulun yliopistoa.
Säilytettävät kansiot ja tiedostot on hyvä nimetä ja järjestää loogisesti. Tässä muutamia perusohjeita:
Tietoarkiston aineistonhallinnan käsikirja: Tiedostoformaatit ja ohjelmistot (suomeksi)
Tietoarkiston aineistonhallinnan käsikirja: Fyysinen säilytys (suomeksi)
CSC:n PAS-palvelun ohje tarkistussummien käyttöön (suomeksi)
Oulun yliopiston ohje tallennustilan valintaan (suomeksi; Patio-intranet)
Jotta tutkimusaineistoa voidaan ymmärtää, siihen on liitettävä aineistoa kuvaavia tietoja eli metadataa. Tutkimusaineistoista on suositeltavaa julkaista datarepositoriossa mahdollisuuksien mukaan ainakin nämä tiedot, myös siinä tapauksessa, että varsinaiseen aineistoon ei voida tarjota pääsyä:
Suositeltavaa on liittää mukaan myös:
Mikäli varsinainen tutkimusaineisto poistetaan myöhemmin, kuvailutiedot jäävät näkyviin repositorioon koska aineistoon on saatettu viitata.
Aineiston ymmärrettävyyttä voi parantaa liittämällä mukaan myös muita aineistoa selittäviä lisätietoja. Lisädokumentaation julkaiseminen parantaa tutkimuksen toistettavuutta ja tutkimuksen vaiheiden läpinäkyvyyttä. Tietoja voi liittää varsinaisten datatiedostojen oheen esim. "readme"-tyyppisenä tekstitiedostona ja niihin voi sisällyttää esim.
Lisädokumentaation jakamisen suhteen on tärkeää huomioida, että dokumentaatiokin voi sisältää salassa pidettävää tietoa.
Ohje tutkimusaineiston kuvailuun (suomeksi ja englanniksi)
Tietoarkiston aineistonhallinnan käsikirja: Aineiston kuvailu ja metadata (suomeksi)
OpenAIRE:n ohje Tutkimusaineiston lisensointiin (englanniksi)
Research Data Alliance:n tieteenalakohtaisten metadatastandardien luettelo. (englanniksi)
Finto (keskitetty palvelu eri alojen yhteentoimiville sanastoille, ontologioille ja luokituksille) (suomeksi)
BARTOC (Basic Register of Thesauri, Ontologies & Classification) (englanniksi)
ELSST (European Language Social Science Thesaurus) (englanniksi)
LOV (Linked Open Vocabularies) (englanniksi)
OLS (Ontology Lookup Service) biolääketieteen ontologiat (englanniksi)
Jyväskylän yliopiston datan dokumentointiopas (suomeksi)
Tutkimusaineistojen dokumentointiopas "Making a research project understandable: guide for data documentation" (englanniksi)
Tutkimusaineiston kuvailutietojen ja mahdollisuuksien mukaan varsinaisen tutkimusaineiston tai sen osien avoin saatavuus on tärkeää tutkimuksen toistettavuuden ja läpinäkyvyyden kannalta. Tutkimusaineiston uudelleenkäyttöehdot voi määritellä ilmoittamalla lisenssitiedon kuvailutietojen yhteydessä. Kuvailutiedot ovat avainasemassa tutkimusaineiston löydettävyyden kannalta. Julkaistut kuvailutiedot myös kertovat tutkimusaineiston olemassa olosta sekä voivat antaa arvokasta tietoa tutkimustyön toteutuksesta vaikka varsinainen aineisto olisi salassa pidettävää.
Tutkimusaineistoja voi julkaista esimerkiksi Tieteen tietotekniikan keskuksen CSC:n IDA-palvelun tai muun luotettavan repositorion kautta. On tärkeää, että repositorio voi luoda tutkimusaineistolle oman yksilöivän pysyvän tunnisteen (esim. DOI:n). Pysyvää tunnistetta käytetään viittaamiseen ja jotta tiedot aineistosta ovat muiden löydettävissä helposti. Jotkut datarepositoriot mahdollistavat pysyvän tunnisteen varaamisen etukäteen jo ennen kuin aineisto on saatavilla. Tällöin tunnisteen saa sisällytettyä tutkimusjulkaisuun käsikirjoitusvaiheessa. Myös ohjelmistokoodille on suositeltavaa käyttää pysyvää tunnistetta. Esimerkiksi GitHubissa jaetulle ohjelmistokoodille on mahdollista saada pysyvä tunniste Zenodo-repositorion kautta (ks. ohje).
Pelkkien kuvailutietojen julkaisemiseen voi käyttää esimerkiksi CSC:n Qvain-palvelua. Palvelun kautta voi myös tallentaa kuvailutiedot CSC:n IDA-palveluun tallennetulle aineistolle tai muualla sijaitsevalle aineistolle (mukaan lukien aineistot, joihin ei voi tarjota pääsyä). Graafisen käyttöliittymän sijaan voit myös halutessasi tallentaa metatiedot Metax-metatietovarannon rajapintaa käyttämällä.
Sekä Qvain-palvelun että rajapinnan kautta syötetyt metatiedot tallentuvat samaan paikkaan, josta ne on mahdollista linkittää kansalliseen tutkijaprofiiliin.
Repositorioiden välillä on mm. seuraavanlaisia eroja:
Datarepositorioissa tutkimusaineistoja voidaan etsiä hakutoimintojen avulla kuvailutietoja (metadataa) hyödyntämällä. Kuvailutiedot tallennetaan useimmiten syöttölomakkeen avulla (joissain tapauksissa mahdollista myös suoraan rajapinnan kautta), jolloin ne tallentuvat rakenteelliseen, tietokoneelle ymmärrettävään muotoon. Tämä muoto on ns. metadatastandardi eli skeema.
Mikäli tutkimusaineistoon liittyy alakohtaisia kuvailutietoja, joita monitieteisen repositorion metadatastandardi ei tue, kannattaa etsiä k.o. tutkimusalaan erikoistunut repositorio. Niitä voi selata esim. re3data.org-palvelun kautta. Alakohtaisen repositorion luotettavuudesta todistaa esimerkiksi Core Trust Seal-sertifikaatti. vaihtoehtoisesti alakohtaisen metadatan voi tallentaa dataan liitettävään lisädokumentaatioon, mutta tällöin se ei ole hakutoimintojen löydettävissä.
Esimerkkejä kansainvälisistä monitieteisistä repositoriopalveluista:
Tutkimusaineistoilla voi myös olla uudelleenkäyttöarvoa pitkälle tulevaisuuteen, jopa kymmenien tai satojen vuosien ajan. Tällöin aineistojen käytettävyydestä ja säilyvyydestä on pidettävä huolta, jotta mm. tiedostomuodot säilyvät käyttökelpoisina ja tutkimusaineiston eheys varmistetaan.
Opetus- ja kulttuuriministeriö (OKM) ja Tieteen tietotekniikan keskus CSC tarjoavat kotimaisten korkeakoulujen ja tutkimuslaitosten tutkijoiden käyttöön maksutta tutkimusaineistojen pitkäaikaissäilytyspalvelua (PAS). Tällöin tutkijan kotiorganisaatiolle on annettava tutkimusaineiston hallinnointioikeudet pitkän aikavälin säilytystä varten. Tutkimusaineistoon on liitettävä riittävästi kuvailutietoa ja muuta aineistoa selittävää dokumentaatiota. Aineiston voi halutessaan avata muiden saataville mutta se ei ole välttämätöntä.
Aineistojen soveltuvuus palveluun selvitetään yhdessä datatuen kanssa (researchdata@oulu.fi).