Minimale (meta)dataset

datum: 23-08-2024 Status: VASTGESTELD

Dit artikel zal in volgende versies aangevuld worden.

De minimale (meta)dataset is opgebouwd volgens een zonnebloemmodel. De generieke (meta)dataset, die voor alle datasets geldt, is de kern van een zonnebloem. Per aandoening en domein wordt vervolgens, in samenwerking met de betrokken partijen in de zorg, een specifieke, minimale (metadata) set gedefinieerd: de blaadjes van de zonnebloem.
Voor de generieke metadataset is DCAT (Data Catalog Vocabulary) als basis gekozen.

Een “data governance” commissie zal zorg dragen voor het tot stand komen en het beheer van de minimale (meta) datasets, met definitie van de codering en modellering volgens de grondlegger van eenheid van taal.

Dit zal hoofdzakelijk onder de verantwoordelijkheid van de zorg vallen, waarbij het Health-RI ecosysteem participeert om zorg te dragen dat deze minimale (meta)data set ook bruikbaar is voor onderzoek en innovatie.

Context: Beschrijving van datasets tegenover beschrijving van de data

Er is al heel veel werk verricht op het gebied van metadata die data beschrijft. Zo worden patiëntengegevens geannoteerd met demografische gegevens, en kunnen beeldgegevens en omicsgegevens worden geannoteerd met de ziektegegevens van de betrokken persoon. De metadata die nodig om een dataset te beschrijven in een catalogus is van een andere orde: een individuele persoon heeft een leeftijd en een gender, maar een dataset niet. Toch wil een onderzoeker bij het zoeken naar geschikte bestaande gegevens voor het onderzoek een geriatrische dataset kunnen onderscheiden van een neonatale dataset. Daarom moet er voor de catalogus worden afgesproken hoe bijvoorbeeld een leeftijdsverdeling van een populatie kan worden vastgelegd en hoe hierop in de catalogus kan worden gezocht. En dit geldt evenzo voor veel andere metadata op datasetniveau. Er is hiermee nog niet veel ervaring.

Minimale Metadataset

Elke dataset moet een hoeveelheid metadata aan zich gekoppeld hebben om de dataset FAIR te maken: vindbaar, toegankelijk, interoperable en herbruikbaar. Health-RI kiest -in navolging van de European Health Data Space (EHDS)- voor de DCAT-AP standaard om metadata te beschrijven en voorziet daarin een groeipad. In de toekomst zal DCAT AP v3 vereist zijn, voor nu is het DCAT AP v2.

In eerste instantie is het voldoende om een minimaal aantal verplichte DCAT-AP velden te vullen zodat de dataset opgenomen kan worden in de catalogus.

Later zal deze minimale set worden uitgebreid met een aanvullende schil en met specifieke metadata die per aandachtsgebied kan verschillen (bv domein, aandoening, funder).

Deze drie groeistadia worden hieronder afgebeeld in de zonnebloem-metafoor, met daarin de kern en de aandachtsgebied specifieke blaadjes.

De technische specificatie, met daarin informatie over de minimale, verplichte metadata velden, is op Github te vinden.

Minimale Dataset

Ieder aandoeningspecifiek domein kent zijn eigen processen met bijbehorende data. Analoog aan het metadata zonnebloemmodel zal er een generieke dataset gedefinieerd worden (data die bij vrijwel alle aandoeningen voorkomt) en domein specifieke data.

Als een dataset wordt aangevraagd dan worden in principe alleen de data-elementen uitgeleverd waar om wordt gevraagd (dataminimalisatie).