Werkplan voor het maken van datasets

datum: 23-08-2024 Status: VASTGESTELD

Dit artikel beschrijft werkprocessen om te komen tot geschikte datasets die in het Health-RI ecosysteem een plaats kunnen krijgen in de catalogus.

Definitie

In de Health-RI wiki (V2.0) staat voor de definitie van een dataset:

Een dataset is een collectie van vergelijkbare gegevens die betrekking hebben op een groep datasubjecten. De collectie heeft een zekere uniformiteit, zoals de aanwezigheid van bepaalde data-items of datatypen, en vergelijkbare data-acquisitie en verwerkingstechnieken, zodat het zin heeft de dataset als groep te zien waaruit voor hergebruik kan worden geput.

Een dataset kan statisch zijn, dwz dat de dataset na oplevering niet meer verandert. Aan de andere kant kan een dataset ook dynamisch zijn: de dataset is dan aan verandering onderhevig en/of kan worden aangevuld. In dat geval kan de lijst van datasubjecten die door de dataset wordt beschreven ook veranderen.

Een dataset is een collectie van vergelijkbare gegevens die betrekking hebben op een groep datasubjecten. De collectie heeft een zekere uniformiteit, zoals de aanwezigheid van bepaalde data-items of datatypen, en vergelijkbare data-acquisitie en verwerkingstechnieken, zodat het zin heeft de dataset als groep te zien waaruit voor hergebruik kan worden geput.

Een dataset kan statisch zijn, dwz dat de dataset na oplevering niet meer verandert. Aan de andere kant kan een dataset ook dynamisch zijn: de dataset is dan aan verandering onderhevig en/of kan worden aangevuld. In dat geval kan de lijst van datasubjecten die door de dataset wordt beschreven ook veranderen.

Eigenschappen van een goede dataset in de catalogus

Een goede dataset voor in de catalogus is geschikt om op dataset-niveau een behoorlijke selectie te kunnen uitvoeren van kandidaat-datasets voor hergebruik, zodat slechts een klein aantal datasets op subject-niveau verder hoeft te worden doorzocht. Het proces wordt beschreven in de Verhaallijn: Data zoeken in metadata.

Uiteindelijk zullen van de geselecteerde datasubjecten specifieke gegevens voor het hergebruik worden opgevraagd. Die aangevraagde gegevens samen noemen we een virtueel cohort.

Het is voor het zoek- en aanvraagproces belangrijk:

Dat de dataset niet te klein is:
- Als de dataset te klein is kan informatie over individuen uit de geaggregeerde metadata worden afgeleid.
- Een hergebruiker ziet zich niet graag in een positie waarin hij een groot aantal datasets met elk een klein aantal datarecords moet combineren. Hoezeer we ook ons best doen, er zal altijd werk in zitten om de data uit verschillende sets te harmoniseren.

Dat de dataset niet te groot is:
- Als een dataset een te diverse set aan subjecten beschrijft zal deze voor bijna elke redelijk te stellen vraag aan de catalogus in de zoekresultaten zitten. Elke keer opnieuw moet deze dan op subject-niveau worden doorzocht op de werkelijk interessante data-subjects. Voor een dataset die de juiste maat heeft geldt dat de geaggregeerde metadata goed representatief is voor de data.
Dat de dataset een relatief homogene set datasubjecten beschrijft:
- De data-subjecten hebben één of meer essentiële eigenschappen gemeenschappelijk.
- De informatie voor elk data-subject zou moeten bestaan uit vrijwel dezelfde variabelen.
- De data voor de verschillende data-subjecten is verzameld op vergelijkbare manier, en ook op dezelfde manier behandeld.

Datasets kunnen in de loop van tijd veranderen

Een dataset kan een statisch geheel zijn (bijvoorbeeld gerelateerd aan een afgesloten onderzoek) maar ook in de loop van de tijd veranderen (bijvoorbeeld als de bron een zorgafdeling in een ziekenhuis is). Verschillende typen veranderingen kunnen optreden:

Er kunnen datasubjecten bijkomen.
Per datasubject kan er (longitudinaal) data worden toegevoegd.
Er kunnen datasubjecten worden uitgesloten (door exclusie, het maken van bezwaar.of het intrekken van toestemming)

Om met dynamische datasets te kunnen werken in de catalogus is het belangrijk dat de metadata regelmatig wordt bijgewerkt, liefst met een geautomatiseerd proces. Ook is het essentieel dat er een mogelijkheid is tot versionering: het moet voor reproduceerbaarheid van onderzoeken mogelijk zijn om te achterhalen wat de dataset is geweest op een eerder tijdstip. Hiervoor heeft de RDA een nuttige set richtlijnen:

Citing dynamic data: Data Citation of Evolving Data: Recommendations of the Working Group on Data Citation (WGDC)
Data Versioning: Versioning Data Is About More than Revisions: A Conceptual Framework and Proposed Principles | Data Science Journal. .

Het moet onmogelijk zijn om uit de evolutie van een dataset in de catalogus persoonsgegevens af te leiden van toegevoegde subjecten! Als een dataset gisteren 42 en vandaag 43 subjects heeft en er zijn geen maatregelen genomen, dan kunnen de gegevens van het 43e subject in te veel detail lekken uit de verschillen. Geschikte werkprocessen hiervoor (bijvoorbeeld door kleine variaties in de metadata aan te brengen) moeten worden opgesteld.

Bronnen van datasets

Datasets voor Health-RI kunnen afkomstig zijn uit verschillende bronnen: op dit ogenblik werken we aan het includeren van onderzoeksgegevens, gegevens uit de primaire zorg, en biobanken of collecties. Voor elk van deze wordt hieronder een methode uitgewerkt om tot geschikte datasets te komen.

Datasets uit onderzoeksgegevens

Gegevens die zijn verzameld voor onderzoek zijn al geselecteerd op een eerdere onderzoeksvraag, en voldoende homogeen. Voor het maken van datasets is daardoor geen gedetailleerde procesbeschrijving nodig. Uit een enkel onderzoek kunnen wel meerdere datasets worden afgeleid:

Het is mogelijk dat data uit verschillende stadia van de analyse (ruwe data, bewerkte data, verwerkte data, en resultaten) tot verschillende datasets leiden.

Het is mogelijk dat verschillende datamodaliteiten (klinische gegevens, verschillende soorten beeldvormende analyse, en verschillende soorten moleculaire gegevens [omics]) tot verschillende datasets leiden.
Datasets die voor onderzoek als zijn verkregen als virtual cohort uit de health-RI catalogus of andere soortgelijke bronnen kunnen ook weer als bron-dataset voor andere onderzoeken worden klaargezet.

Verschillende datasets die afkomstig zijn uit hetzelfde onderzoek moeten als zodanig te herkennen zijn. Dit kan later helpen om de gegevens opnieuw te koppelen voor hergebruik. Hiervoor is het nuttig als onderzoeksprojecten worden voorzien van persistent identifiers (e.g. in een “studiecatalogus”) die kunnen worden gebruikt om vanuit de datasets naar te verwijzen.

Datasets uit de zorg

Gegevens die zijn verzameld gedurende een zorgproces zijn vaak verzameld in een systeem zoals een elektronisch patiëntendossier, dat voor hergebruik een heterogene databron kan vormen. Zo’n databron is vaak te heterogeen om als een enkele dataset te worden aangeboden (hij is “te groot”, zie boven). Is dat het geval, dan is het verstandig om de data te segmenteren.

We kunnen dit zien als het “prospectief samenstellen van datasets voor retrospectief onderzoek”: het vereist dat we een idee hebben van welke aspecten van de data belangrijke dimensies zijn voor het segmenteren van de data voor eventuele toekomstige aanvragers. Met de juiste onderverdeling maken we de data zichtbaarder en vindbaarder.

Dit kan op verschillende manieren:

Per specialisme: Wanneer er bijvoorbeeld binnen een EPD alleen naar cardiologie-patiënten wordt gekeken zal de dataset veel homogener zijn.
Per ziektebeeld: Als een specialisme nog te breed wordt gevonden, kan hetzelfde worden gedaan voor ziektebeelden die een deel van een specialisme vormen (e.g. “cardiomyopathie”)
Eventueel kan verder worden uitgesplitst per behandelmethode; dit is vooral nuttig als dataverzameling mede plaats vindt in het kader van de behandeling.
Soms zijn onderzoekers (of registraties) op zoek naar patiënten met een specifiek behandelresultaat. Voor zulke gevallen kan het handig zijn hierop te hebben gesegmenteerd.
Verdere uitsplitsingsmogelijkheden kunnen hier in de toekomst worden toegevoegd gebaseerd op praktische ervaring met de catalogus.

Een mogelijke manier om de segmentatie van een databron als een EPD beschikbaar te maken is niet om de eigenlijke data uit het EPD te halen, maar uitsluitend periodiek een script te draaien dat de beschrijving maakt van zo’n subset (i.e. de metadata) op basis van een scan van het EPD.

DCAT-metadata stelt ons in staat om aan te geven dat een dataset in de catalogus een subset is van een andere dataset. Het is daarom niet nodig om de segmentatie “precies op het juiste niveau” te doen: men kan meerdere segmentaties van een bron maken en de datasets door “subset”-declaraties aan elkaar linken. Wel moet de functionaliteit voor de catalogus voor het gebruik maken van deze functionaliteit nog worden ontwikkeld (status maart 2024).

Datasets uit biobanken / collecties

Voor gegevens uit biobanken en collecties geldt vaak dat hun eigenschappen inzitten tussen die van gegevens uit onderzoek en gegevens uit de zorg in. Er is een grotere homogeniteit in de data dan in databronnen in de zorg, maar nog steeds kan het nuttig zijn om datasets samen te stellen die een subset vormen van de gegevens in een biobank. Dit kan langs dezelfde dimensies als aangegeven voor datasets uit de zorg.