Onboarding van metadata in de Nationale Gezondheidsdata Catalogus

datum: 07-11-2024 Status: ter review

Dit artikel is een leidraad voor het onboardingsproces van data en legt uit hoe informatie over datasets in de Nationale Gezondheidsdata Catalogus kan worden gepubliceerd. Deze documentatie is bedoeld voor onderzoekers en datahouders.

Data onboarding is het toegankelijk maken van datasets in de Nationale Gezondheidsdata Catalogus. Door de stappen op deze pagina te volgen, zorg je ervoor dat je data effectief en correct beschikbaar wordt gemaakt voor datagebruikers.

Opmerking: het merendeel van de links op deze pagina leiden naar Engelstalige pagina's.

1 Wat is de Nationale Gezondheidsdata Catalogus
2 Hoe komt de Nationale Gezondheidsdata Catalogus aan metadata?
3 Hoe kan je metadata aan de Catalogus toevoegen?
- 3.1 Algemene onboarding-stappen
- 3.2 1. Aanvraag
- 3.3 2. Intake
- 3.4 3. Planning
- 3.5 4. Implementatie
- 3.6 a) Metadata mappen naar het Health-RI-metadata schema
- 3.7 b) Implementeren van een metadata harvesting-pipeline
- 3.8 5. Harvesting
- 3.9 6. Onboarded
- 3.10 Hulp nodig bij het onboarding proces?
4 Wat is de toekomst van de Nationale Gezondheidsdata Catalogus?
5 Vragen?

Wat is de Nationale Gezondheidsdata Catalogus

De Nationale Gezondheidsdata Catalogus is een overzicht van gezondheids- en levenswetenschappelijke onderzoeksgegevens in Nederland. Het bevat metadata over de beschikbare datasets, wat betekent dat het de beschrijving van de datasets en andere bronnen bevat. Deze beschrijving bevat bijvoorbeeld een datum waarop de dataset is gemaakt, de auteurs of een URL waar de data kan worden gevonden. De metadata in de Catalogus komt uit verschillende bronnen en domeinen. Deze bronnen kunnen variëren van elektronische dossiers tot klinische beeldgegevens, biomaterialen, omics-gegevens, collecties en nog veel meer.

Het doel van de Nationale Catalogus Gezondheidsgegevens is het creëren van een infrastructuur voor secundair gebruik van gezondheids- en life-science gegevens waar onderzoekers en andere geïnteresseerden domein-overstijgende gegevens kunnen vinden en raadplegen die relevant zijn voor hun onderzoek . Het is de bedoeling om huidige beschikbare gegevens te verzamelen uit alle gezondheidszorg- en biowetenschappen-domeinen in Nederland.

Het doel van de Catalogus is ook het bevorderen van de FAIR-dataprincipes - het vindbaar, toegankelijk, interoperabel en herbruikbaar maken van gegevens voor gebruikers. Meer informatie over FAIR is hier te vinden.

Hoe komt de Nationale Gezondheidsdata Catalogus aan metadata?

De Catalogus kan informatie van andere catalogi harvesten (inlezen) en kan zelf ook door andere catalogi worden geharvest. Dit betekent dat, zodra metadata is ingevoerd in de ene catalogus, het automatisch beschikbaar komt in andere catalogi, waardoor een gegevenshouder de metadata niet handmatig in elke afzonderlijke catalogus hoeft in te voeren. Idealiter kunnen de twee catalogi worden verbonden via een FAIR data point (FDP) dat informatie over de gegevens bevat en deelt met de Catalogus (figuur 1).

Er zijn verschillende manieren waarop een datahouder/-aanbieder zijn gegevens aan de Catalogus kan toevoegen. Maar eerst moeten de gegevens goed geprepareerd en beschreven zijn. De Catalogus gebruikt een Health-RI metadataschema gebaseerd op DCAT v3 en DCAT AP. Momenteel gebruikt dit metadata schema relatief algemene en overkoepelende klassen en definities, die samen het zogenaamde Core metadataschema vormen. Meer informatie over dit schema vind je hier: GitHub - Health-RI/health-ri-metadata at master . Dit Core metadataschema zal in de toekomst verder worden uitgebreid (zie sectie “Wat is de toekomst van de Nationale Gezondheidsdata Catalogus”).

Figuur 1. Koppeling van gegevens bronnen aan de Nationale Catalogus via een FDP

Hoe kan je metadata aan de Catalogus toevoegen?

Er zijn verschillende stappen nodig om je metadata te publiceren in de Nationale Catalogus. Hier beschrijven we de algemene stappen (zie ook Figuur 2). Voorbeelden van het onboarden en scenario's zijn hier te vinden. Voor technische documentatie kun je terecht op de Health-RI Github: GitHub - Health-RI/health-ri-metadata at master

Algemene onboarding-stappen

1. Aanvraag

In deze stap neemt een datahouder/-aanbieder contact op met Health-RI om het onboarding van de metadata aan te vragen. Dit kan via onze servicedesk: servicedesk@health-ri.nl. Er wordt een contactpersoon van Health-RI toegewezen aan de datahouder /-aanbieder en de aanvraag wordt intern geregistreerd.

2. Intake

De Health-RI contactpersoon vraagt de datahouder/-aanbieder om informatie over de beschikbare data en middelen. Indien nodig kan in deze fase een gesprek worden gepland om gedetailleerdere informatie uit te wisselen. De Health-RI contactpersoon helpt ook om contact te leggen of afstemming te vinden met andere projecten binnen hetzelfde instituut of dezelfde organisatie, als dat mogelijk is.

In deze stap is het ook belangrijk om te controleren of aan de FAIR-vereisten en ELSI-richtlijnen wordt voldaan. Meer informatie over ELSI-overwegingen vind je op de pagina Make sure you can publish your metadata.

3. Planning

In deze fase bekijkt de datahouder/-aanbieder het onboarding-proces en plant een strategie. De uiteindelijke strategie moet schaalbaar zijn en, waar mogelijk, bruikbaar zijn voor meerdere datahouders/-aanbieders (bijvoorbeeld onboarding op instituutsniveau). Hier zijn enkele vragen die in deze fase moeten worden beantwoord:

Wat?
Welke data zullen worden gedeeld (“onboarded”)?
Welke metadata (schema’s) zijn al beschikbaar?
Welke beveiligingsprotocollen zijn er binnen het instituut van de datahouder/-aanbieder, en zijn die hier van toepassing?

Hoe?
Hoe worden de data beschikbaar gemaakt voor de Nationale Gezondheidsdatacatalogus?
Komt er een eigen FAIR Data Point (FDP)?
Kan de export van metadata geautomatiseerd worden? Of gebeurt dit handmatig?

Wie?
Wie zullen betrokken zijn bij de onboarding vanuit de datahouder/-aanbieder?
Wie wordt verantwoordelijk voor het onderhouden van de metadata?
Wie is het aanspreekpunt voor de datahouder/-aanbieder?
Wie moet op de hoogte zijn van het onboarding-proces (andere datahouders/-aanbieders? de directie? de IT-afdeling?)

4. Implementatie

Na het bepalen van de strategie voor het onboarden van (meta)data, gaat de datahouder/-aanbieder dit plan uitvoeren. Er zijn in deze fase twee hoofdtaken die parallel kunnen worden uitgevoerd.

a) Metadata mappen naar het Health-RI-metadata schema

Om metadata te onboarden, moet de datahouder/-aanbieder hun lokale metadata mappen naar het metadata-schema. Algemene informatie over metadata-standaarden en het mapping-proces vind je hieronder:

Meer leren over metadata en metadata-standaarden? Kijk hier: Metadata mapping
De algemene mapping-pipeline vind je hier: Mapping pipeline
De huidige Health-RI-metadata standaard vind je hier: Metadata Schema Specificatie: GitHub - Health-RI/health-ri-metadata at master

b) Implementeren van een metadata harvesting-pipeline

Om metadata beschikbaar te maken voor Health-RI, is een tussenliggend systeem nodig. De Nationale Gezondheidsdatacatalogus gebruikt FAIR Data Points (FDPs) om informatie te verzamelen. Basisinformatie over FAIR Data Points vind je hier: Exposing metadata
Het FAIR Data Point moet door de datahouder/-aanbieder worden geïmplementeerd, bij voorkeur met een geautomatiseerde export pipeline (2.a Automate export from your local system, 2.b Example python code to upload metadata to FDP ).

Er zijn verschillende manieren om een FAIR Data Point te implementeren:

Je lokale systeem beschikbaar maken: 1.a Expose your local system
Een FAIR Data Point implementeren met “FDP in a box”: 1.b FDP in a box
Handmatig je data toevoegen aan de Nationale Catalogus via een Centraal FDP: 1.c Central FDP

5. Harvesting

Voor het ophalen van de aan de catalogus toe te voegen metadata (harvesting) neemt de datahouder/-aanbieder contact op met de Health-RI servicedesk (servicedesk@health-ri.nl) met een onboarding-verzoek en stuurt de gegevens van het FAIR Data Point. Health-RI voert vervolgens de harvesting uit.
De metadata wordt eerst verzameld in een testomgeving, waar een controle van de data plaatsvindt door Health-RI en de datahouder/-aanbieder voordat het in de Catalogus terechtkomt. De Catalogus wordt momenteel dagelijks bijgewerkt voor wijzigingen in de beschikbare FDP's, dus wijzigingen in de metadata kunnen tot 24 uur duren om te verwerken.

6. Onboarded

Als de metadata is goedgekeurd door de datahouder/-aanbieder, wordt deze toegevoegd aan de Nationale Gezondheidsdatacatalogus. Ter afsluiting kan de datahouder/-aanbieder eventuele problemen en feedback met de Health-RI-contactpersoon delen.

Hulp nodig bij het onboarding proces?

Sluit aan bij ons weekelijkse Walk-in hour, waar een van onze collega’s je helpt met je vragen en problemsen. Registreer je via dit sign-up document. Informatie over het tijdstip en de link om deel te nemen is te vinden in de Health-RI agenda Agenda | Health-RI of neem contact op met Lucie Kulhankova. We verzamelen ook workarounds voor veelvoorkomende problemsen in de pagina Known issues.

Wat is de toekomst van de Nationale Gezondheidsdata Catalogus?

De huidige versie van de catalogus maakt een algemene beschrijving van de gegevens en metadata mogelijk. Om meer domein-specifieke doorzoekbaarheid mogelijk te maken, zullen de metadata-beschrijvingen in de toekomst worden uitgebreid. We kunnen de metadata zien als een zonnebloem waarvan de kern de gemeenschappelijke waarden voor alle domeinen vertegenwoordigt en elk domein zijn eigen bloemblaadje heeft dat de specifieke metadata-behoeften van de onderzoekers in het domein beschrijft. Door de uitbreiding van metadata kunnen onderzoekers gegevens vinden die relevant zijn voor hun onderzoek.

In de toekomst zal een aanvraag-tool aan de catalogus worden gekoppeld. Met deze tool kunnen onderzoekers en andere gebruikers toegang aanvragen tot datasets die zij relevant vinden. De aanvragen zullen centraal worden verwerkt en beoordeeld in een beveiligde omgeving en gebruikers kunnen antwoorden krijgen op hun vragen in het geval van gefedereerde analyse.

Momenteel ontwikkelen we metadata schema’s die het in de toekomst mogelijk maken om metadata van de Nationale Gezondheidsdata Catalogus te delen met andere Nederlandse data portalen en de Europese Health Data Portal. Meer informatie via deze link.

Meer informatie over de beoogde structuur en beschikbaarheid is hier te vinden. De laatste updates en ontwikkelingen zijn op deze pagina (Current developments) te vinden.

Vragen?

In het geval van vragen over het onboarding proces of als je meer informatie wilt, neem dan contact op met onzeHealth-RI Servicedesk | Health-RI

servicedesk@health-ri.nl

Health-RI wiki versie 4.0

Health-RI wiki v4.0 -> consultatie (open tot 03-12-2024)