Onboarding van metadata op de Nationale Gezondheidsdata Catalogus

datum: 23-08-2024 Status: VASTGESTELD

Dit document is bedoeld als leidraad voor het onboardingsproces van data en legt uit hoe informatie over datasets in de Nationale Gezondheidsdata Catalogus kan worden gepubliceerd. Deze documentatie is bedoeld voor onderzoekers en datahouders.

Data onboarding vertaalt zich in het toegankelijk maken van datasets in de Nationale Gezondheidsdata Catalogus. Door de stappen op deze pagina te volgen, zorg je ervoor dat je data effectief en correct beschikbaar wordt gemaakt voor datagebruikers.

Opmerking: Alle links op deze pagina leiden naar Engelstalige pagina's.

Wat is de Nationale Gezondheidsdata Catalogus

De Nationale Gezondheidsdata Catalogus is een overzicht van gezondheids- en levenswetenschappelijke onderzoeksgegevens in Nederland. Het bevat metadata over de beschikbare datasets, wat betekent dat het de beschrijving van de datasets en andere bronnen bevat. Deze beschrijving bevat bijvoorbeeld een datum waarop de dataset is gemaakt, de auteurs of een URL waar de data kan worden gevonden. De metadata in de Catalogus komt uit verschillende bronnen en domeinen. Deze bronnen kunnen variëren van elektronische dossiers tot afbeeldingen, biomaterialen, omics-gegevens, collecties en nog veel meer.

Het doel van de Nationale Catalogus Gezondheidsgegevens is het creëren van een infrastructuur voor secundair gebruik van gezondheids- en life-science gegevens waar onderzoekers en andere geïnteresseerden domein-overstijgende gegevens die relevant zijn voor hun onderzoek kunnen vinden en raadplegen. Het is de bedoeling om huidige beschikbare gegevens te verzamelen uit alle gezondheidszorg- en biowetenschappen-domeinen in Nederland.

Het doel van de Catalogus is het bevorderen van de FAIR-dataprincipes - het vindbaar, toegankelijk, interoperabel en herbruikbaar maken van gegevens voor gebruikers. Om meer te weten te komen over FAIR, is hier meer informatie vinden.

Hoe komt de Nationale Gezondheidsdata Catalogus aan metadata?

De Catalogus kan informatie van andere catalogi harvesten (inlezen) en kan zelf ook door andere catalogi worden geharvest. Dit betekent dat, zodra metadata is ingevoerd in een catalogus, het automatisch beschikbaar komt in andere catalogi, waardoor een gegevenshouder de metadata niet handmatig hoeft in te voeren in elke afzonderlijke catalogus. Idealiter kunnen de twee catalogi worden verbonden via een FAIR data point (FDP) dat informatie over de gegevens bevat en deelt met de Catalogus (afbeelding 1).

Er zijn verschillende manieren waarop een gegevenshouder zijn gegevens aan de Catalogus kan toevoegen. Maar eerst moeten de gegevens goed geprepareerd en beschreven zijn. De Catalogus gebruikt een Health-RI metadataschema gebaseerd op DCAT v3 en DCAT AP. Momenteel gebruikt dit metadataschema relatief algemene en overkoepelende klassen en definities, die samen het zogenaamde Kern metadataschema vormen. Meer informatie over dit schema vind je hier Core Metadata Schema Specification. Dit Kern metadataschema zal in de toekomst verder worden uitgebreid (zie Wat is de toekomst van de Nationale Gezondheidsdata Catalogus).

 

afbeelding-20240430-112959.png
Afbeelding 1. Koppeling van gegevens bronnen aan de Nationale Catalogus via een FDP 

Hoe kan je metadata aan de Catalogus toevoegen?

Er zijn verschillende stappen nodig om je metadata te publiceren in de Nationale Catalogus. Hier laten we de basisstappen zien (Afbeelding 2). Voorbeelden van het onboarden en scenario's zijn hier te vinden. Voor technische documentatie verwijzen we naar Health-RI Github: https://github.com/Health-RI/health-ri-metadata/

 

  1. Zorg ervoor dat je je metadata mag delen

 

  1. Maak een metadataschema van je metadata en koppel dit aan het huidige HRI-metadataschema.

 

  1. Stel je metadata beschikbaar aan de catalogus op een van de volgende manieren:

    • Ontsluiting van je lokale systeem

    • Implementatie van een FAIR Data Point, zoals bijvoorbeeld FDP in a box

    • Handmatig toevoegen van de informatie over je gegevens aan de Nationale Catalogus via een Centraal FDP

 

 

  

Wat is de toekomst van de Nationale Gezondheidsdata Catalogus?

De huidige versie van de catalogus maakt een algemene beschrijving van de gegevens en metadata mogelijk. Om meer domein-specifieke doorzoekbaarheid mogelijk te maken, zullen de metadata-beschrijvingen in de toekomst worden uitgebreid. We kunnen de metadata zien als een zonnebloem waarvan de kern de gemeenschappelijke waarden voor alle domeinen vertegenwoordigt en elk domein zijn eigen bloemblaadje heeft dat de specifieke metadata-behoeften van de onderzoekers in het domein beschrijft. Door de uitbreiding van metadata kunnen onderzoekers gegevens vinden die relevant zijn voor hun onderzoek.

In de toekomst zal een aanvraag-tool aan de catalogus worden gekoppeld. Met deze tool kunnen onderzoekers en andere gebruikers toegang aanvragen tot datasets die zij relevant vinden. De aanvragen zullen centraal worden verwerkt en beoordeeld in een beveiligde omgeving en gebruikers kunnen antwoorden krijgen op hun vragen in het geval van gefedereerde analyse.

Meer informatie over de beoogde structuur en beschikbaarheid is hier te vinden