Ja Tev ir kādi jautājumi, tad raksti mums
Mēs ar Tevi sazināsimies tuvākajā laikā!
Paldies, Tavs pieteikums nosūtīts veiksmīgi!
Skip to content

Pētniecības datu pārvaldība

Pētniecības datu pārvaldība (PDP) ir process, kurā sistemātiski tiek plānota, organizēta, uzglabāta, koplietota un saglabāta pētniecības laikā iegūtā informācija jeb dati. PDP mērķis ir nodrošināt, lai dati būtu droši, atkārtoti izmantojami, pārskatāmi un atbilstu gan ētikas, gan juridiskajām prasībām.

PDP attiecas uz darbībām, kas saistītas ar pētniecības datiem visā pētījuma dzīves ciklā — sākot no pētījuma plānošanas, datu ievākšanas, drošas saglabāšanas, apstrādes un analīzes līdz datu koplietošanai pētījuma noslēgumā.

Pētījuma plānošana

Labas pētniecības prakses ietvaros ietilpst pētījumu projektu agrīna plānošana. Tā ir būtiska, lai nodrošinātu, ka aktivitātes tiek rūpīgi organizētas un īstenotas, tādējādi garantējot efektivitāti un veiksmīgu darba pabeigšanu. Īpaša uzmanība jāpievērš tam, kā pētījuma gaitā un pēc tā pabeigšanas tiks pārvaldīti ar pētniecību saistītie dati. Šajā sadaļā apkopoti svarīgākie datu pārvaldības aspekti, kas jāņem vērā, plānojot pētījumu.

Plānošanas posmā būtiski jau sākotnēji pētījuma plānā jeb protokolā skaidri definēt ne tikai metodoloģiskos aspektus, bet arī datu pārvaldības stratēģiju, kas tiek aprakstīta datu pārvaldības plānā. Ja plānots darboties ar sensitīviem datiem, īpaša rūpība jāpievērš pētījuma ētikas aspektiem.

Temati pētījuma plānošanas sadaļā:

  • Pētījuma plāns vai protokols
  • Pētniecības dati
  • FAIR principi
  • Pētniecības datu pārvaldība
  • Datu pārvaldības plāns
  • Pētījumu ētikas komitejas atzinums

PĒTĪJUMA PLĀNS JEB PROTOKOLS

Pirms pētījuma uzsākšanas ieteicams izveidot pētījuma plānu (sauktu arī par pētījuma protokolu vai pētījuma programmu).

Tas ir detalizēts plāns, kas apraksta ar pētījumu saistīto informāciju. Tā ir sekojoša:

  • Pētījuma mērķi, jautājumi un hipotēzes
  • Pētījuma dizains, piemēram, kvantitatīvs vai kvalitatīvs, izmantojot eksperimentus, aptaujas utt.
  • Izvēlētās metodes un instrumenti, piemēram, mērījumu rīki, iekārtas utt.
  • Datu ievākšanas stratēģija
  • Plānotā analīze, piemēram, kādas statistikas metodes un/vai testi tiks lietoti

Pētījuma protokols palīdz skaidri formulēt, kas tieši tiks darīts pētījuma ietvaros, līdz ar to nodrošinot, ka pētījums noritēs saskaņā ar zinātniskajiem un ētikas standartiem. No datu pārvaldības viedokļa pētījuma plāns palīdz saprast, kāda veida dati pētījuma laikā tiks radīti un/vai apstrādāti. Pētniecības dati tiek plašāk aprakstīti datu pārvaldības plānā.

PĒTNIECĪBAS DATI

Kas ir pētniecības dati?

Pētniecības dati ir jebkura informācija, kas savākta, novērota vai izveidota pētniecības projekta gaitā un tiek izmantota kā pamats pētniecības rezultātu iegūšanai un secinājumu izdarīšanai.

Tabulas papildu saturs

Pētniecības datu veidi

Piemēri

Skaitliski mērījumi

Temperatūras mērījumi laboratorijas eksperimentos

Teksts

Literatūras analīzes piezīmes

Attēli

Mikroskopijas attēli

Video

Eksperimentu ieraksti

Audioieraksti

Interviju ieraksti

Programmu kodi

Datus analizējošas programmatūras kods

Citi datu formāti

Ģeogrāfisko informācijas sistēmu dati

Tabulas papildu saturs

Kas nav pētniecības dati?

Dati, kas nav tieši saistīti ar zinātniskajiem pētījumiem un neveicina pētniecības projekta zinātnisko analīzi vai pierādījumu bāzi, nav uzskatāmi par pētniecības datiem.

Tabulas papildu saturs

Pētniecības dati nav

Piemēri

Pētījuma administratīvie ieraksti

Finanšu pārskati vai personāla dokumenti

Komerciāla vai privāta saziņa

E-pasti vai sarakstes dokumenti

Juridiskie dokumenti

Darba līgumi vai sadarbības līgumi

Mārketinga materiāli

Reklāmas bukleti

Tabulas papildu saturs

Kas ir datu kopa?

Datu kopa (angliski: dataset) ir sistemātiski strukturēts datu kopums, kas parasti sakārtots tabulās vai citās strukturētās formās un sastāv no vairākiem datu elementiem vai vērtībām, kuras ir savāktas un sagatavotas analīzei.

Sarunvalodā jēdzienus “dati” un “datu kopa” bieži lieto kā sinonīmus. Lai gan “dati” un “datu kopa” ir cieši saistīti jēdzieni, tiem ir mazliet atšķirīga nozīme. Vienkāršoti sakot, datu kopa ir sistemātiski sakārtots datu kopumus.

Piemērs:

  • Dati: “25”, “Latvija”, “Sieviete”
  • Datu kopa: tabula ar datiem, kas ievākti no vairākiem pētījuma dalībniekiem; katra tabulas rinda atbilst konkrētam dalībniekam, un kolonnās norādīts to vecums, piederības valsts un dzimums.

FAIR DATU PRINCIPI

FAIR principi (findable, accessible, interoperable, reusable) ir starptautiski atzīts vadlīniju kopums, kas izstrādāts, lai veicinātu augstas kvalitātes pētniecības datu pārvaldību un izmantošanu. Tie veido pamatu atvērtajai zinātnei, sekmējot datu caurspīdīgumu, uzticamību un ilgtspējīgu izmantošanu gan akadēmiskajā vidē, gan plašākā sabiedrībā.

1. Atrodami (findable)

Lai dati būtu viegli atrodami gan cilvēkiem, gan automatizētām sistēmām, tiem jābūt:

  • aprakstītiem ar bagātīgiem un strukturētiem metadatiem;
  • reģistrētiem starptautiski atzītos repozitorijos (piemēram, Zenodo, Dataverse);
  • piešķirtiem unikālam un noturīgam identifikatoram (piemēram, DOI).

Piemērs: Klimata pētījuma dati ar DOI un aprakstošiem metadatiem, kas pieejami OpenAIRE vai Google Dataset Search.

2. Pieejami (accessible)

Pētniecības dati jāpadara pieejami skaidri definētos nosacījumos:

  • izmantojot drošus, standartizētus protokolus (HTTPS, API);
  • piemērojot licences (piemēram, Creative Commons), kas nosaka izmantošanas noteikumus;
  • saglabājot metadatu pieejamību arī tad, ja paši dati ir aizsargāti (piemēram, sensitīvos pētījumos).

Piemērs: Atvērtie statistikas dati ar CC-BY licenci, kas ļauj tos brīvi analizēt.

3. Savietojami (interoperable)

Datiem jābūt tehniski un semantiski savietojamiem ar citām sistēmām:

  • izmantojot atvērtus datu formātus (CSV, JSON, RDF);
  • ievērojot starptautiski atzītas metadatu shēmas (Dublin Core, Schema.org);
  • sasaistot datus ar citiem resursiem, izmantojot hipersaites un atsauces.

Piemērs: Veselības aprūpes dati dažādās valstīs, strukturēti vienoti un sasaistīti ar ontoloģijām, ļauj veikt salīdzinošus pētījumus.

4. Atkārtoti izmantojami (reusable)

Datiem jābūt dokumentētiem un sagatavotiem atkārtotai izmantošanai:

  • iekļaujot pilnu dokumentāciju (datu izcelsme, metodoloģija, ierobežojumi);
  • nodrošinot reproducējamību (publicēti analīzes kodi, skripti);
  • ievērojot juridiskās un ētiskās normas (piemēram, GDPR prasības).

Piemērs: COVID-19 vakcīnu pētījumu dati ar analīzes skriptiem un README failiem.

FAIR principu nozīme un ieguvumi augstākajai izglītībai

FAIR principi:

  • veicina atvērtu, uzticamu un reproducējamu zinātni;
  • samazina datu dublēšanos, optimizē resursu izmantošanu;
  • atvieglo sadarbību starpdisciplināros pētījumos un sadarbību ar industriju;
  • palielina pētniecības rezultātu ietekmi uz sabiedrību un tautsaimniecību.

FAIR ieviešanu Latvijā atbalsta tādas iniciatīvas kā EOSC (Eiropas atvērtās zinātnes mākonis) un GO FAIR.

FAIR principi ir būtiska atvērtās zinātnes sastāvdaļa, kas veicina ilgtspējīgu, efektīvu un uzticamu pētniecības datu apriti. Augstskolu spēja tos ievērot ir ne tikai kvalitātes rādītājs, bet arī priekšnosacījums starptautiskai konkurētspējai un sadarbībai.

Ieviešot FAIR principus, augstskola iegūst:

  • lielāku datu redzamību un ietekmi;
  • spēcīgāku sadarbību ar industriju un sabiedrību;
  • augstāku reputāciju starptautiskajā zinātniskajā vidē.

Papildu resursi:

PĒTNIECĪBAS DATU PĀRVALDĪBA

Pētniecības datu pārvaldība (PDP) ir process, kurā sistemātiski tiek plānota, organizēta, uzglabāta, koplietota un saglabāta pētniecības laikā iegūtā informācija jeb dati. PDP mērķis ir nodrošināt, lai dati būtu droši, atkārtoti izmantojami, pārskatāmi un atbilstu gan ētikas, gan juridiskajām prasībām.

PDP attiecas uz darbībām, kas saistītas ar pētniecības datiem visā pētījuma dzīves ciklā — sākot no pētījuma plānošanas, datu ievākšanas, drošas saglabāšanas, apstrādes un analīzes līdz datu koplietošanai pētījuma noslēgumā.

Ieguvumi no labas pētniecības datu pārvaldības

Laba un skaidri saprotama pētniecības datu pārvaldība ir būtiska atbildīgai, augstas kvalitātes pētniecībai. Laba datu pārvaldības prakse sniedz ieguvumus gan pētniekiem, gan institūcijām un plašākai sabiedrībai.

  • Uzlabota datu drošība un samazināts datu zudumu risks
  • Uzlabota pētījumu kvalitāte un reproducējamība
  • Nodrošināta atbilstība finansētāju prasībām
  • Veicināta dalīšanās ar datiem un sadarbība ar citiem pētniekiem
  • Datu atkārtota izmantošana
  • Efektīvs laika un resursu izlietojums

Datu pārvaldības plāns (DPP)

Datu pārvaldības plāns (DPP) apraksta, kā pētījuma dati tiks pārvaldīti visā pētniecības projekta laikā un pēc tā pabeigšanas. DPP ietver informāciju par to, kā dati tiks savākti, saglabāti, aizsargāti un kopīgoti. Datu pārvaldības plānā tiek apkopotas ziņas par datu formātiem, versiju kontroli, drošību un datu iesniegšanu repozitorijā, kā arī nepieciešamajiem rīkiem to atkārtotai izmantošanai.

DPP ir svarīgs elements, kas jāizstrādā pirms pētījuma uzsākšanas un ko ieteicams papildināt pētījuma gaitā. Kvalitatīvi aizpildīts DPP veicina pētniecības integritāti, jo datu kopa ir saprotama ne tikai pētnieku grupai, kas ar to strādā, bet arī citām iesaistītajām pusēm — finansētājiem, pētniecības atbalsta personālam, institūcijas informācijas sistēmu pārvaldniekiem u. c.

DPP aizpildīšanas prasības var noteikt finansētāju nolikums, un tās var tikt regulētas arī pētnieciskās institūcijas normatīvajos aktos. Līdz ar to ir svarīgi pārliecināties, kādas ir prasības saistībā ar DPP no pētnieka pārstāvētās institūcijas un finansētāja puses. Nereti finansētāji un pētniecības institūcijas piedāvā DPP veidnes, kurās jau iekļauti galvenie datu pārvaldības aspekti, līdz ar to pētniekiem ir labāks priekšstats par darba gaitu.

Lai uzsāktu darbu pie DPP, nepieciešams iepazīties ar galvenajiem aspektiem, ko aprakstīt plānā, kā arī izvēlēties platformu, kurā to aizpildīt, un pārliecināties, ka tas ir saskaņā ar finansētāju prasībām.

DPP sadaļas

DPP iekļautās sadaļas var atšķirties atkarībā no institucionālajām vai finansējuma prasībām, tomēr lielākā daļa datu pārvaldības plānu ietver zemāk norādīto informāciju.

  • Kādi dati tiks ģenerēti un/vai lietoti pētījuma laikā?
    • Apraksti datu avotu, veidu, formātu, paredzamo apjomu.
  • Vai ir sakārtoti ētikas un intelektuālā īpašuma jautājumi?
    • Norādi, kā tiks ievēroti ētikas principi.
  • Kā dati tiks organizēti, droši uzglabāti un aizsargāti projekta laikā?
    • Apraksti datu uzglabāšanas vietas, datu organizācijas principus un drošības pasākumus datu aizsardzībai.
  • Kā tiks dokumentētas pētījuma datu kopas?
    • Norādi, kādi metadati tiks aprakstīti, kāda dokumentācija tiks veidota, piemēram, ReadMe datnes vai kodu grāmatas, kur iekļautas mainīgo definīcijas un apraksti.
  • Kā dati tiks apstrādāti?
    • Norādi, kāda programmatūra nepieciešama, lai ar šiem datiem darbotos.
  • Kā dati tiks ilgtermiņā saglabāti un pēc kādiem nosacījumiem tie tiks koplietoti ar citiem?
    • Apraksti pētniecības datu repozitorija vai platformu izvēli, datu kopas saglabāšanas ilgumu, risinājumus datu piekļuvei (atvērtā piekļuve, ierobežota piekļuve, slēgti dati). Pievieno datu izmantošanas nosacījumus, piešķirot licenci.
  • Kurš ir atbildīgs par dažādiem datu pārvaldības uzdevumiem?
    • Apraksti lomas darbam ar datiem — datu pārvaldnieki, datu lietotāji u. c.
  • Kādi budžeta un resursu apsvērumi jāņem vērā, īstenojot projektu?
    • Norādi izdevumus, kas saistīti ar datu pārvaldību — datu uzglabāšanas, dublēšanas risinājumu, programmatūru un personāla izmaksas. Norādi, kā šīs izmaksas tiks segtas.

Pētījumu ētikas komitejas atzinums

Pētījumu ētikas komiteja ir neatkarīga institūcija, kas izvērtē pētījuma ētikas problēmas un norāda uz nepilnībām, kas novēršamas, lai pētījums noritētu atbilstoši ētikas standartiem. Pētniekiem pirms datu vākšanas sākuma jāiesniedz ētikas komitejai pētījuma plāns un jāsaņem apstiprinājums. Komiteja pārbauda, vai pētījums nodrošina dalībnieku drošību, privātumu un brīvprātību, kā arī vai tiek ievērotas citas ētikas prasības, piemēram, iegūta informētā piekrišana un nodrošināta atbilstoša datu apstrāde.

Iesniegums pētniecības ētikas komitejā nepieciešams gadījumos, kad pētniecības projekts ietver ētiski sensitīvus jautājumus, īpaši attiecībā uz cilvēkiem, dzīvniekiem vai vidi. Galvenās situācijas un pētniecības nozares, kurās tas nepieciešams:

  • Pētījumi ar cilvēkiem
    • Medicīniskie un klīniskie pētījumi (klīniskie izmēģinājumi, psiholoģiskie eksperimenti u. tml.)
    • Socioloģiskie un antropoloģiskie pētījumi, kuros tiek iegūti dati no cilvēkiem (intervijas, anketas, fokusgrupas u. tml.)
    • Pētījumi, kas ietver personas sensitīvos vai privātos datus (veselības informācija, etniskā piederība, politiskie uzskati u. tml.)
    • Pētījumi ar neaizsargātām grupām (bērni, vecāka gadagājuma cilvēki, cilvēki ar invaliditāti, ieslodzītie u. tml.)
  • Pētījumi ar dzīvniekiem
    • Biomedicīniskie eksperimenti ar dzīvniekiem
    • Pētījumi, kas var radīt dzīvniekiem sāpes, stresu vai ciešanas
    • Pētījumi, kas ietver dzīvnieku ģenētisku modificēšanu
  • Pētījumi ar vidi un ekosistēmām
    • Eksperimenti, kas var ietekmēt bioloģisko daudzveidību vai ekosistēmas
    • Pētījumi, kas saistīti ar toksiskām vielām vai piesārņojumu
    • Ģenētiski modificētu organismu (ĢMO) izpēte dabiskā vidē
  • Jaunās tehnoloģijas un datu apstrāde
    • Mākslīgā intelekta un mašīnmācīšanās pētījumi, kas analizē cilvēku uzvedību vai veselību
    • Biometrisko datu vākšana un apstrāde
    • DNS analīze un ģenētiskie pētījumi

Ja pētnieks strādā kādā no šīm jomām vai viņa pētījumam ir potenciāls ētiskais risks, iesniegums pētniecības ētikas komitejā ir obligāts.

PĒTĪJUMU ĒTIKAS KOMITEJA

Biznesa augstskolas Pētījumu ētikas komiteja palīdz BAT docētājiem un studentiem, konsultējot un izvērtējot pētījumu ētiskos aspektus. Pētījumu ētikas komiteja ievēro tās nolikumu, Latvijas Republikas un starptautisko likumu normas pētījumos un pieņemtajos lēmumos ir patstāvīga un neatkarīga.

Komitejas sastāvs:

Dr. Evija Kļave, Uzņēmējdarbības vadības fakultātes dekāne;

Dr. Agita Doniņa, Tūrisma un viesmīlības katedras vadītāja;

Dr. Jānis Pekša, Informācijas tehnoloģijas nodaļas vadītājs;

Dr. Ingrīda Veikša, Tiesību zinātņu katedras profesore;

Dr. Vitālijs Romanovs, Veselības aprūpes katedras docents.

DATU VĀKŠANA

Pētniecības datu vākšana ir sistemātisks process, kurā pētnieks iegūst informāciju, lai atbildētu uz izvirzītajiem pētījuma jautājumiem vai pārbaudītu hipotēzes.

Ir svarīgi izvēlēties piemērotu datu vākšanas metodi, kas atbilst pētījuma mērķiem un datu veidam. Savlaicīga plānošana un datu kvalitātes kontrole šajā posmā būtiski ietekmē visa pētījuma rezultātus, to precizitāti un uzticamību.

Lai nodrošinātu pētījuma integritāti un datu kopas kvalitāti, ieteicams jau laikus apsvērt datu glabāšanas risinājumus un organizēšanas principus, kā arī dokumentēt datu ieguves metodes datu pārvaldības plānā.

Ja pētījumā tiek vākti sensitīvi dati, jāņem vērā papildus ētiskie aspekti un jāievēro atbilstoši datu drošības pasākumi.


DATU VEIDI

Uzsākot datu vākšanu, būtiski saprast, kāda veida dati tiks iegūti pētījuma laikā, lai tos jau savlaicīgi būtu iespējams labi pārvaldīt. Pētniecības datus iespējams iedalīt dažādās grupās. Katram datu veidam var būt specifiski labas pārvaldības principi.

Kvantitatīvie vai kvalitatīvie dati

Viens no biežāk sastopamajiem datu dalījumiem ir pēc informācijas veida, ko tie atspoguļo — kvantitatīvi vai kvalitatīvi dati.

Kvantitatīvie pētniecības dati ir skaitliskā veidā izteikti dati, kas tiek iegūti, izmantojot sistemātiskas metodes, piemēram, aptaujas, eksperimentus, mērījumus, novērojumus vai sekundāro datu analīzi. Šie dati tiek analizēti, izmantojot statistiskās metodes, lai identificētu tendences, sakarības un modeļus.

Kvalitatīvie pētniecības dati parasti tiek izteikti vārdiskā, vizuālā vai citā ar skaitļiem nesaistītā formātā un tiek analizēti, lai izprastu nozīmes, pieredzes, attieksmes un sociālās parādības. Kvalitatīvie dati tiek iegūti, izmantojot kvalitatīvās pētniecības metodes, piemēram, padziļinātās intervijas, diskusijas fokusgrupās, novērojumus un dokumentu analīzi.

Primārie vai sekundārie dati

Datu veidus iespējams nošķirt arī pēc to ieguves avota  — primārie dati vai sekundārie dati.

Primārie dati ir oriģināli dati jeb informācija, ko ievāc pats pētnieks (vai pētnieku grupa) tieši konkrētajam pētījumam. Primārie dati var tikt ievākti ar dažādām metodēm, piemēram, aptaujām, intervijām, eksperimentiem, novērojumiem u. c.

Sekundārie dati ir jau iepriekš ievākti un saglabāti dati, kurus pētnieks izmanto, bet pats tieši neievāc pētījuma laikā. Sekundāro datu avoti var būt publiski vai privāti datu repozitoriji, dažādu iestāžu un organizāciju (piemēram, statistikas pārvaldes, monitoringa programmu, valsts pārvaldes, komercuzņēmumu vai veselības aprūpes sistēmas) krātie dati. Šādu datu ieguves procesā ietilpst dažādu datu avotu izpēte un piekļuves nodrošināšana atbilstošām datu kopām.

DATU APSTRĀDE UN ANALĪZE

Datu apstrāde un analīze ir viens no būtiskākajiem posmiem pētnieciskajā darbā, jo tieši šajā etapā tiek iegūtas atziņas un secinājumi, kas veido pētījuma rezultātus.

Lai nodrošinātu rezultātu ticamību un reproducējamību, apstrādājot un analizējot datus, pētniekiem jāpievērš uzmanība labas datu pārvaldības principu īstenošanai. Šajā ceļveža sadaļā apkopoti dažādi principi un labās prakses piemēri, kas palīdzēs datu apstrādi un analīzi veikt reproducējamā veidā.

Pētniekiem jānodrošina, ka pieeja datu apstrādei un analīzei ir strukturēta, saprotama un saskaņā ar noteiktajiem normatīvajiem aktiem un ētikas principiem. Tas sevī ietver datu apstrādes un analīzes dokumentēšanu, lai ikviens varētu skaidri saprast un izsekot, kādas darbības ar datiem veiktas no brīža, kad tie tika ievākti, līdz rezultātu iegūšanai un interpretācijai.

Īpaša uzmanība jāvelta sensitīvo datu apstrādei un pārvaldībai, jo sensitīvo datu drošība nav tikai juridisks jautājums, bet arī ētisks pienākums, kas veido uzticību starp pētniekiem un pētījuma dalībniekiem, no kuriem sensitīvie dati ievākti. Pētniekiem jāapstrādā šādi dati saskaņā ar Vispārīgās datu aizsardzības regulas (GDPR) prasībām.

DATU APSTRĀDES UN ANALĪZES DOKUMENTĒŠANA

Lai veicinātu pētījuma reproducējamību jeb atkārtojamību, īpaša rūpība jāpievērš tam, kā datu apstrādes un analīzes soļi tiek dokumentēti. Tas ietver visu procesu un darbību, kas saistīti ar datu apstrādi un analīzi, detalizētu fiksēšanu un pierakstīšanu. Pienācīgi aprakstīti un dokumentēti dati nodrošina, ka datu kopas spēj saprast un izmantot gan paši pētnieki, gan citi, kas vēlēsies atkārtot pētījumu vai izmantot datus turpmākajai analīzei.

Pētniecības datu apstrāde ir process, kurā jēldati (angliski: raw data) tiek strukturēti, pārveidoti un sagatavoti analīzei.

Bieži vien, ievācot datus, tie nav piemērotā formātā vai sakārtoti tā, lai uzreiz varētu uzsākt analīzi. Līdz ar to datu apstrāde ir neatņemams un svarīgs posms pētniecībā. Tas ietver dažādas darbības ar datiem, kas var atšķirties atkarībā no datu veida un sarežģītības pakāpes.

Piemēri:

Kvantitatīvā datu apstrāde: aptaujas mainīgie tiek pārkodēti (piemēram, atbildes skalā no “pilnīgi nepiekrītu” līdz “pilnīgi piekrītu” tiek pārvērstas skaitļos no 1 līdz 5); trūkstošās vērtības tiek aizstātas ar “NA”

Kvalitatīvā datu apstrāde: interviju ierakstu transkripcija — audio vai video ieraksti tiek pārveidoti teksta formātā; analogie izpētes materiāli tiek digitalizēti

Pētniecības datu analīze ir posms, kurā apstrādātie dati tiek analizēti, lai atbildētu uz pētījuma jautājumiem un/ vai pārbaudītu izvirzītās hipotēzes. Šajā posmā pētnieks izmanto savai pētniecības nozarei un pētījuma mērķiem atbilstošas metodes un analīzes tehnikas. Datu analīzei tiek izmantoti dažādi rīki un datorprogrammas.

Ieteikumi reproducējamai datu apstrādei un analīzei

Reproducējama pētniecības datu apstrāde un analīze nozīmē to, ka cits pētnieks, izmantojot tos pašus datus un skaidri dokumentētas darbības, var atkārtot veiktos soļus un iegūt identiskus rezultātus. Reproducējamība ir būtiska zinātnes caurspīdīgumam un uzticamībai, — tā palīdz novērst nejaušas kļūdas, ļauj pārbaudīt rezultātu pamatotību un veicina sadarbību starp pētniekiem.

Ieteikumi pētījuma reproducējamības veicināšanai

Veidot detalizētu dokumentāciju: veido skaidras piezīmes par katru datu apstrādes un analīzes soli. Apraksti, kā dati tika pārveidoti no jēldatiem par datu analīzei gatavu datu kopu un kādas metodes, parametri un programmatūras tika izmantotas

Uzturēt kārtību mapēs, kur glabājas dati: organizē mapes un datnes skaidrā, loģiskā veidā un nodrošini versiju kontroli saskaņā ar datu pārvaldības plānu

Izmantot rīkus, kas veicina reproducējamību: ja iespējams, datu apstrādei un analīzei izvēlies rīkus, kas nodrošina skriptu veidošanu, lai dokumentētu visu apstrādes un analīzes procesu

Ieviest reproducējamības pārbaudi: aicini kolēģus pārbaudīt, vai viņi spēj atkārtot rezultātus, izmantojot izveidoto dokumentāciju par datu apstrādes un analīzes soļiem

Kvantitatīvo datu apstrāde un analīze

Datu pārskatīšana un sagatavošana: apraksti visus veiktos datu pārskatīšanas, tīrīšanas, pārveides un sistematizēšanas soļus. Šo procesu var veikt dažādos veidos. Piemēram, ja datu apstrādei tiek izmantota programmēšanas valoda, tad var saglabāt kodu jeb skriptu ar aprakstošiem komentāriem. Ja datu apstrāde tiek veikta tā sauktajās point and click programmās, piemēram, Excel, SPSS un Stata, tad apstrādes soļus vēlams dokumentēt kodu grāmatās, datu vārdnīcās, ReadMe datnēs vai cita veida dokumentācijā.

Procesi, ko ir svarīgi piefiksēt:

  • Trūkstošo vērtību (angliski: missing values) apstrāde: kā rīkojies ar trūkstošajām vērtībām, piemēram, vai aizpildīji ar vidējo vērtību vai NA u. tml.?
  • Neraksturīgo vērtību jeb izlēcēju (angliski: outliers) apstrāde: kā identificēji un apstrādāji vērtības, kas ir neloģiskas vai ievērojami atšķiras no pārējām vērtībām, piemēram, tās izlaidi, transformēji u.tml.?
  • Datu transformācijas: vai veici datu transformācijas, piemēram, normalizāciju, logaritmisko transformāciju? Kāpēc un kā?
  • Kodēšana un kategorizācija: apraksti, kā kodēji vai kategorizēji datus, piemēram, vai izveidoji vecuma grupas?

Datu analīzes metodes: detalizēti apraksti visas izmantotās statistiskās metodes un testus.

  • Aprakstošā statistika (angliski: descriptive statistics): norādi, kādus aprakstošos statistikas rādītājus aprēķināji, piemēram, aritmētiskais vidējais, mediāna, standartnovirze, biežums
  • Secinošā statistika (angliski: inferential statistics): ja izmantoji secinošās statistikas metodes, piemēram, t-testu, ANOVA, regresijas analīzi, jānorāda sīkākas detaļas.
    • Konkrētie testi: precīzi nosauc testus, piemēram, divu neatkarīgu izlašu t-tests, Pīrsona korelācijas koeficients
    • Pieņēmumi (angliski: assumptions): pārbaudi un dokumentē, vai dati atbilst izmantoto testu pieņēmumiem, piemēram, normālsadalījumam, homogenitātei
    • Statistiskais nozīmīgums: norādi P vērtības un nozīmīguma līmeni, piemēram, p < 0.05

Programmatūra un rīki: datu pārvaldības plānā norādi programmatūru un rīkus, ko izmantoji datu apstrādei un analīzei. Kvantitatīvo datu apstrādē un analīzē ieteicams izmantot rīkus, kuros skripta veidā iespējams secīgi dokumentēt datu apstrādi, pārveidošanu un analīzi. Arvien biežāk šim nolūkam izmanto tādas programmēšanas valodas kā R un Python, kā arī uz tām bāzētās datu analīzes programmas, RStudio un JupyterLab, kas piedāvā daudzas un dažādas pakotnes datu apstrādei, analīzei un vizualizācijai. Saglabā izveidotos skriptus, lai datu apstrādes un analīzes soļus ir viegli atkārtot, ja nepieciešams. Lai veicinātu atvērtās zinātnes principu ieviešanu praksē, skriptus ieteicams publicēt kopā ar datu kopu.

Pētnieku vidū populāri ir tādi datu apstrādes un analīzes rīki kā Excel, SPSS un Stata. Ja darbs ar datiem notiek šajās programmās, un netiek veidoti sintakses faili, kur saglabāti apstrādes un analīzes skripti, tad īpaša uzmanība jāpievērš tam, kā dokumentēt ar datiem veiktās darbības. To var darīt ReadMe datnē, kodu grāmatā vai cita veida dokumentācijā.

Rezultātu vizualizācija un interpretācija: skaidri un kodolīgi apraksti statistiskās analīzes rezultātus. Iekļauj tabulas, grafikus un diagrammas, lai vizualizētu datus. Interpretē rezultātus un izskaidro, ko tie nozīmē pētījuma kontekstā.

Kvalitatīvo datu apstrāde un analīze

Datu sagatavošana – transkripcija (ja nepieciešams): bieži vien, ja dati ievākti audio vai video formātā, tos ieteicams transkribēt teksta formātā, lai veiktu analīzi. Transkripciju var veikt pētnieks pats vai kāds ārpakalpojuma sniedzējs. Arvien biežāk transkripcija tiek veikta automātiski ar dažādu rīku palīdzību, tomēr ne vienmēr šie rīki spējīgi transkripciju latviešu valodā veikt bez kļūdām. Līdz ar to pētniekiem nākas automātiski transkribētos tekstus vēlāk pārskatīt un labot.

Transkripcijas procesu vēlams dokumentēt datu pārvaldības plānā. Ieteicams norādīt, vai transkripcija ir burtiska vai rediģēta (t. i., vai ir izlabotas kādas konkrētas valodas nepilnības).

Īpaša uzmanība jāpievērš, transkribējot ierakstus, kas satur sensitīvu informāciju. Šajā gadījumā ieteicams izvairīties no audio vai video datņu augšupielādes tiešsaistes rīkos, kuros nav skaidri norādīta datu pārvaldības politika. Ja transkribēšanu veic kāds ārpakalpojuma sniedzējs, tad vēlams noslēgt datu apstrādes līgumu, kurā reglamentēti konfidencialitātes un privātuma jautājumi.

Transkripcijas procesā bieži vien dalībnieku (un citu pieminēto cilvēku) personas dati tiek aizvietoti ar pseidonīmiem vai citu informāciju, kas neatklāj personas datus. No personas datu aizsardzības viedokļa šādi transkripti (audio vai video ierakstu atšifrējumi) uzskatāmi par mazāk sensitīviem nekā audio vai video ieraksti, kuros dalībniekus iespējams identificēt pēc viņu balss vai izskata.

Programmatūra un rīki: norādi programmatūru un rīkus, ko izmantoji kvalitatīvo datu apstrādei, piemēram, Atlas.ti, MAXQDA, NVivo. Tās ir kvalitatīvo datu analīzes programmatūras, kas palīdz pētniekiem kodēt, strukturēt, interpretēt kvalitatīvus datus.

Tāpat darbs ar datiem var tikt veikts manuāli, tos kodējot un analizējot Word/Excel dokumentos. Ieteicams izvēlēties rīkus, kas pieejami visai pētnieku komandai un no kuriem datus iespējams viegli izgūt sadarbspējīgos formātos.

Dokumentē darbības, kas veiktas ar datiem – ReadMe datnē, kodu grāmatā vai cita veida dokumentācijā.

Analīzes process: detalizēti apraksti analīzes procesu.

  • Norādi, kuru kvalitatīvās analīzes metodi izmantoji, piemēram, tematisko, diskursa, fenomenoloģisko vai naratīva analīzi, un apraksti konkrētus analīzes soļus un principus, kas tika ievēroti
  • Apraksti kodēšanas shēmu vai kategorijas, ko izmantoji datu analīzei, un izskaidro, kā kodi, kategorijas vai tēmas tika identificētas (piemēram, induktīvi no datiem vai deduktīvi, balstoties uz teoriju)

Analīzes uzticamība: lieto izvēlētajai kvalitatīvas datu analīzes metodei atbilstošas stratēģijas analīzes uzticamības veicināšanai.

  • Veic refleksivitātes pierakstus, lai kritiski izvērtētu, kā pētnieka personīgā pieredze, vērtības, priekšstati un sociokulturālā piederība var ietekmēt pētījuma gaitu, rezultātu interpretāciju un secinājumus
  • Ja datus kodēja vairāki cilvēki, apraksti, vai un kā tika nodrošināta starpkodētāju uzticamība, piemēram, vai tika aprēķināts Koena kappa koeficients, vai notika diskusijas par kodu nesakritībām utt.

Rezultāti un interpretācija: svarīgi atcerēties, ka, prezentējot rezultātus ar citātiem, nepieciešams vēlreiz pārliecināties, ka dalībniekus nav iespējams identificēt.

DATU ILGTERMIŅA GLABĀŠANA UN KOPĪGOŠANA

Pētniecības projekta beigu posmā ir svarīgi nodrošināt datu kopu ilgtermiņa saglabāšanu jeb arhivēšanu uzticamā vidē, kā arī pēc iespējas to kopīgošanu jeb publicēšanu pētniecības datu repozitorijā.

Datu publicēšana repozitorijā nozīmē, ka datu kopai tiek izveidots apraksts (metadatu ieraksts) datu katalogā un pievienoti paši dati – faili ar pētījuma datiem vai, atsevišķos gadījumos, saite uz vietni, kur tie atrodas. Šis metadatu ieraksts ļauj citiem lietotājiem viegli atrast datu kopu, iegūt koncentrētu informāciju par to, uzzināt piekļuves nosacījumus, kā arī dod iespēju atkārtoti izmantot datus arī pēc pētniecības projekta beigām.

Dati repozitorijā, norādot atbilstošu informāciju metadatu ierakstā, var tikt publicēti dažādos veidos, piemēram, kā:

  • Atvērtie dati: dati, kas ir brīvi pieejami ikvienam bez ierobežojumiem. Tos var uzreiz lejupielādēt, izmantot un izplatīt bez maksas, ievērojot norādītos licenču nosacījumus.
  • Daļēji slēgtie dati: dati, kuriem iespējams piekļūt ar īpašiem nosacījumiem, piemēram, reģistrējoties vai pieprasot piekļuves atļauju, sazinoties ar datu kopas īpašnieku vai pārvaldnieku.
  • Slēgtie dati: dati, kuri nav publiski pieejami un ir pieejami tikai ierobežotam personu lokam, piemēram, organizācijas iekšējai lietošanai vai sensitīvas informācijas aizsardzībai. Ar slēgtiem datiem var veidot metadatu ierakstu repozitorijā.

Dažkārt pētnieki izvēlas padarīt datus atvērti pieejamus pēc embargo perioda. Tas nozīmē, ka kādu noteiktu laika posmu dati nav publiski pieejami, lai gan nākotnē tie tiks atvērti. Šāds ierobežojums var būt saistīts ar autortiesībām, intelektuālā īpašuma aizsardzību, publikāciju prasībām vai komerciāliem apsvērumiem.

Embargo periodā metadati tiek padarīti pieejami, lai informētu par datiem un to pieejamību nākotnē. Tas palīdz pētniekiem un interesentiem uzzināt par datu kopu, tās saturu un iespējamo piekļuves laiku pēc embargo perioda beigām. Tomēr metadatu pieejamība var atšķirties atkarībā no repozitorija politikas un datu veida

Kāpēc pētniecības datu arhivēšana ir svarīga?

  • Datu kopas iespējams pārbaudīt arī pēc projekta noslēguma
  • Datu kopas var tikt atkārtoti izmantotas nākotnē (piemēram, mācību nolūkos vai jauniem pētījumiem)
  • Tiek nodrošināta atbilstība prasībām no finansētāju, izdevēju, institūciju vai organizāciju puses par noteiktu datu saglabāšanas periodu
  • Tiek ilgtermiņā saglabāti dati, kuriem ir nozīmīga vērtība organizācijas, valstiskā vai sabiedrības līmenī

Avots: Pētniecības datu pārvaldības ceļvedis. https://dataverse.lv/par-celvedi/