FAQ Informatie en FAIR data

datum: 23-08-2024 Status: VASTGESTELD

Informatie en FAIR Data

Nr	Nr	Vraag	Antwoord
1	V1	Wat voor typen data onderscheidt Health-RI.	In het Health-RI ecosysteem worden de volgende typen data onderscheiden: Klinische data Imaging data Omics data Deze data komt zowel voor in zorgdata, als onderzoeksdata, als alle andere op de gezondheid van toepassing zijnde data (bijv. IoT-data en door de burger gegenereerde data). Alles valt onder de noemer gezondheidsdata.
2	V1	Hoe faciliteert Health-RI dat voor een verzoek waarvoor 10 ziekenhuizen data gaan leveren niet 10 x keer in ieder ziekenhuis een nWMO-toetsing moet worden uitgevoerd?	Hier lopen momenteel meerdere projecten over waar HRI bij betrokken is (o.a. nWMO-toetsingskader / wederzijdse erkenning)). Ook is de ‘gestapelde toetsing’ als obstakel in het Obstakel Verwijder Traject opgenomen.
3	V1	De meta-data moet nu geregistreerd worden bij of het ene of het andere. waarom is er gekozen voor twee opties, ipv één? mijn zorg is dat dit tot verwarring kan gaan leiden.	Er wordt gericht op een gefedereerd systeem waarbij de metadata bij de bron gestandaardiseerd worden vastgelegd (bijv. in een FAIR data point)
4	V1	Als ik denk vanuit het perspectief van een onderzoeker die na 4 jaar phd een mooie klinische set heeft verzameld en nog twee maanden vóór het promoveren zijn set moet aanmelden bij het Health-RI landschap voor o.a. vindbaarheid. Dan voorzie ik veel weerstand bij de hoeveelheid stappen, correspondenties en mankracht die hiervoor nodig is. Hoe gaan jullie hierop anticiperen?	Dit is een bekend obstakel. Daarom proberen we in het ecosysteem zoveel mogelijk hulpmiddelen en handvatten te creëren voor een onderzoeker die data wil delen. Bijvoorbeeld door onderzoekers met trainingen en tools te helpen al vanaf een zo vroeg mogelijk stadium in het onderzoek een herbruikbare dataset te creëren. In zijn algemeenheid hebben onderzoekers baat bij herbruikbare data die ze als input voor hun eigen onderzoek kunnen gebruiken.
5	V1	We vragen heel veel van de onderzoeker. Onderzoekers van cohorten en registries zien de voordelen van hergebruik nog wel in, maar hoe denk je de massa die kleinschaliger en meer op zichzelf staand onderzoek doet, mee te krijgen? En dit ondanks druk vanuit bv ZonMW?	Hergebruik van data is ook in het belang van onderzoekers. Als het goed is ingeregeld, kunnen ook kleinschalige onderzoeken ervan profiteren. Daarmee wordt het ook makkelijker om eraan bij te dragen. Health-RI en ZonMw zijn ook aan het verkennen hoe onderzoekers gestimuleerd kunnen worden gebruik te maken van de diensten van HRI (bv op gebied van data delen). Wetenschappers dienen ook rekening te houden met de Europese wetgeving betreffende het verplicht beschikbaar maken van data die gefinancierd zijn met publiek geld; ook wetenschappers zijn veelal onderworpen aan de datarichtlijnen, de wet hergebruik overheidsinformatie, de Data Governance Act. Probleem is dat er in Nederland vooralsnog te weinig is nagedacht over het feit dat het beschikbaar maken van data tijd en dus geld kost. Dit zou gefinancierd moeten worden vanuit de centrale pot, zoals ook een fietspad niet gefinancierd hoeft door de gebruiker of door degene die het fietspad aanlegt. Er zou vanuit de publieke middelen geld beschikbaar moeten zijn voor het aanleggen van een data-infrastructuur, en een focus op individuele onderzoekers (of stukjes fietspad), lijkt ons een aanpak vanaf de verkeerde kant. We moeten van systeem naar detail denken, niet andersom.
6	V1	Is het mogelijk om queries te verrichten?	Ja, mits je hiervoor geauthentiseerd bent. In de metadata zitten ook verschillende lagen, waardoor er publiek al informatie gevonden kan worden en na inloggen specifiekere metadata gevonden kunnen worden, feasibility studies gedraaid of synthetische data gebruikt kunnen worden.
7	V1	Welk minimum niveau van FAIRification is nodig om dit te laten werken?	Welke niveaus van FAIRificatie nodig zijn, moet afgesproken worden in het gezamenlijke Health-RI werkproces voor FAIR. Om helder te krijgen wat de gezamenlijke Health-RI aanpak in FAIR data is, hebben we verschillende FAIR modellen geïnventariseerd, met als doel een concreet en praktisch werkproces rondom FAIR af te spreken. Dit werkproces zal meer duidelijkheid verschaffen. Dit is work in progress via deze pagina Op korte termijn wordt voor de metadata een beperkte basisset van DCAT 2.0 gevraagd om zoveel mogelijk bronnen aan te sluiten. Op de langere termijn willen we dit niveau omhoog brengen en ook in de catalogus de mogelijkheid geven om hierop te filteren. We verwachten dat begin juli 2024 HealthDCAT-AP wordt gepubliceerd.
8	V1	Is dit proces ook van toepassing voor ontwikkeling van AI modellen, of is hiervoor een specifiek proces nodig?	Hier zijn evt. aanvullende stappen voor nodig. Aan de start moet volgens het proces goedgekeurd worden, mogelijk zijn er extra stappen nodig om de leercurve te dekken.
9	V1	Om AI modellen te trainen en te vermarkten (bij de patiënt te brengen) hebben start-ups, bedrijven, de data nodig om aan te leveren in hun certificatie dossier voor CE/FDA approval. UMC's gaan waarschijnlijk grootste gevallen niet zelf optreden als fabrikant, hoe wordt hiermee rekening gehouden?	Ook de innovator is een gebruiker en kan de infrastructuur gebruiken om AI algoritmes te trainen. Er is wel een voorwaarde: iedere data-aanvraag moet tot een natuurlijk persoon herleidbaar zijn (wie heeft de opdracht gegeven?)
10	V1	Als het trainen van AI modellen moet draaien op datasets die blijven staan bij de datahouder, hoe ziet Health-RI dit dan voor zich, vooral financieel (storage & compute)?	Er zullen duidelijke afspraken gemaakt moeten worden over wie er betaalt voor storage & compute bij het gefedereerd trainen van AI modellen of andere vormen van gefedereerde analyse. Op dit moment zijn deze afspraken nog niet op nationaal niveau en wordt per consortium bepaald hoe deze kosten worden doorberekend.
11	V1	Hoeveel databases worden overbodig door FAIRification? Kopieën worden overbodig, waardoor storage afneemt en compute toeneemt. Dit zou tot weerstand kunnen leiden. Wat gaan we hieraan doen?	Met bijvoorbeeld kwaliteitsregistraties zijn hier gesprekken over. Meestal wordt gedupliceerd omdat er geen andere oplossing is. Er zou in de eerste instantie weerstand kunnen zijn, hier kan communicatie vanuit OVT cluster 1 bij helpen. Partijen hoeven zelf ook minder te doen om data geschikt te maken voor meervoudig gebruik.
12	V1	Hoe voorkomen we dat data met een lage kwaliteit het systeem belast en vervuilt?	EHDS heeft het over kwaliteit / bruikbaarheid indicatoren waar we dieper in willen duiken in volgende versies Kwaliteit is ook subjectief; wat voor de 1 bruikbaar is kan voor de ander niet bruikbaar zijn. Door in de catalogus deze kenmerken te vermelden kan een onderzoeker ervoor kiezen om betreffende data wel/niet te includeren
13	V1	Worden onderzoekers ook opgeleid en aan de hand genomen zoals bijvoorbeeld gebeurt bij google cloud services/	Hier moet inderdaad aandacht voor zijn, bijvoorbeeld dmv e-learning. Hierbij wordt hergebruik gemaakt van bestaande e-learning-componenten. In de FAIR servicedesk komt een portfolio van bestaande trainingen en materialen. Maar indien nodig (en mogelijk) zullen we ook workshops en trainingen organiseren m.b.t. FAIR maken van data voor specifieke datatypen of communities.
14	V1	Wordt (meta) data opgeslagen in de cloud? Hoe zit het met de beveiliging?	(Meta) data kan in de cloud worden opgeslagen. Alles moet beveiligd zijn en voldoen aan wet- en regelgeving.
15	V1	Ik ben geen onderzoeker , maar kan me voorstellen dat een onderzoeker ook provenance / verklaring meegeeft over de gebruikte data (selectie) en vooral schoning en het gebruik van data. Hoe gaat dit als een deel van de schoning niet meer in zijn hand ligt?	Onder de GDPR wordt een onderscheid gemaakt tussen datahouders (die zelfstandig beslissingen nemen over data) en dataverwerkers, die werken met data van anderen, maar er niet over beslissen. Een data-generator is geen aparte groep. Ergo, als een onderzoeker data heeft gegenereerd is hij datahouder en verantwoordelijk. Als hij echter de data op een juiste manier heeft overgedragen, dan wordt die volgende partij zelfstandig datahouder en heeft die dus zijn/haar eigen verplichtingen onder de wet: dezelfde verplichtingen als de originele datahouder. Dit is alleen anders als data niet worden overgedragen, maar beschikbaar worden gesteld; bedrijven stellen bijvoorbeeld data beschikbaar aan hun boekhouder, maar die mag daar niet zelf over beslissen. Dus bij het beschikbaar stellen van data door een wetenschapper, is het belangrijk om te beoordelen of de ontvanger een zelfstandige datahouder wordt (die dus dan zelfstandig verantwoordelijk is voor het naleven van de wet), of dat hij een dataverwerker wordt (in welk geval er moet worden afgesproken wat de verwerker precies wel en niet mag doen).
16	V1	Hoor ik het goed dat realistische synthetische data ook onderdeel is van Health-RI? Realistische als in statistisch correct.	Health-RI neemt alle vormen van data mee in de infrastructuur zoals gepseudominiseerde, geanonimiseerde en gesynthetiseerde data. Maar dat wil niet zeggen dat Health-RI deze dat zelf genereerd. Wel stimuleert Health-RI de noodzakelijke ontwikkelingen.
17	V1	Wat zijn de tijdslijnen dat dit operationeel is. Want tot die tijd zullen databases nodig blijven	We staan aan het begin. Het is helaas onmogelijk om te voorspellen wanneer we geen databases meer nodig hebben.
18	V1	Wordt er gekeken naar 'differential privacy'? Daarmee kun je data 'onherleidbaar' maken en dus publiek beschikbaar maken zonder goedkeuring, met behoud van betrouwbaarheid.	Van deze technieken kan gebruik worden gemaakt. Wel hebben we ook met gebruik van deze technieken een vertrouwensmodel nodig.
19	V1	In de praktijk merken wij dat ziekenhuizen terughoudend zijn met data verzoeken omdat ze "wachten op initiatieven zoals Health-RI voor de verstrekking van data". Nu kost het ons veel moeite om alle Nederlandse ziekenhuizen, en ambulancediensten te benaderen om handmatig hun data te verkrijgen. Is er voor ons een manier om voor te sorteren op de ontwikkelingen en alvast "onder de vlag van Health-RI" deze data te verkrijgen? Dus volgens de "Health-RI " standaard. Is hier over te sparren met Health-RI?	Ja, hier kan over gesproken worden. We moeten wel kijken hoe deze data FAIR gemaakt kunnen worden en door de wasstraat kunnen. Momenteel staat aansluitproces bovenaan de agenda. Health-RI wil een aansluitproces definiëren waarbij we zoveel mogelijk partijen tegelijkertijd kunnen helpen / sturen bij het geschikt maken van data voor meervoudig gebruik.
20	V1	Valt dat het hele communicatie, trainings- en campagneplan om onderzoekers hier goed in mee te krijgen ook onder de paraplu van Health-RI? of is het de verwachting dat bijv. de academische instellingen dat zelf gaan doen?	Met ZonMw wordt nu verkend hoe onderzoekers gestimuleerd kunnen worden, idee is om dit verder uit te breiden naar andere financiers van onderzoek. Samen met ZonMW werkt Health-RI bijv. aan een overzicht van diensten in de FAIR servicedesk. Verder draagt Health-RI bij aan de opleiding van data stewards bij de regionale knooppunten, om capaciteit en expertise op het gebied van hergebruik van data te vergroten. Datastewards spelen een rol bij bewustwording, ondersteuning en opleiding van onderzoekers in hun onderzoeksinstellingen.
21	V1	Als ik bewerkte data afneem van een datahouder en ik heb geen toegang tot de ruwe data, hoe kan ik er dan van op aan dat er geen fouten zijn gebeurd bij het bewerken van de data	Als het bewerkingsproces en andere metadata open en transparant zijn dan kunnen fouten ontdekt worden, anders niet. Verder, als de fouten niet hersteld kunnen worden door de datahouder omdat die bv ontstaan door fouten in de brondata, dan blijven de fouten bestaan en moeten ze op een ander niveau worden gecorrigeerd. Als dat is gebeurd dan kunnen de fouten alsnog hersteld worden ten behoeve van de datagebruiker.
22	V1	Is er een alternatieve verhaallijn voor als het kopiëren van data niet ideaal is (bv door de grootte van de dataset of als het streaming data betreft). Kan je de API gebruiken om op een andere manier de data te verwerken.	Niet via de API (op dit moment). Men kan wel via een gefedereerde verwerking of een data bezoekende oplossing (bv FAIR data trains) op een andere manier het onderzoek doen.
23	V2	FAIR Data Point (FDPs): er zijn verschillende implementaties. Het gaat om de specs die op meerdere manieren kunnen worden geïmplementeerd. FDP: the machine knows what I mean. Het gaat om resolvable identifiers (en kan dus gebruik van meerdere ontologieën toestaan: soort google translate van data)	Eens
24	V2	Het DCAT schema, waar kan ik die vinden?	Dat is via de wiki vindbaar en op DCAT-AP-NL via Geonovum.
25	V2	Wie denken er mee aan nationale data modellen? Bijvoorbeeld vanuit/binnen CumuluZ	Er is nu overleg met de knooppunten en via OVT met systeempartijen. We kijken bv in de zonnebloem hoe EU Patient Summary (EPS) kan worden gebruikt in de minimale dataset, idem voor metadata schema.  We zien momenteel dat verschillende partijen hier actief op zijn. Health-RI is bezig om actief te sturen op een eenheid van taal die door alle gebruikers van gezondheidsdata gedragen wordt. Zodra hier afgeronder resultaten in te melden zijn, zullen die in volgende versies gepubliceerd worden
26	V2	Niet alles zal direct beschikbaar zijn. Het zal een stapsgewijs proces zijn. Daar waar nodig dienen we terug moeten kunnen gaan naar een datahouder/bron om bestaande data verder te verrijken. Is daar een proces voor voorzien ?	Klopt. We zullen in de aanpak onderscheid maken tussen bestaande data en nieuw te genereren data. We denken hierbij aan: Bij nieuw te genereren willen we principe van dweilen met de kraan dicht toepassen; c.q. zorgdragen dan vanaf een samen afgesproken moment nieuwe data voldoet aan eenheid van taal en -techniek Oude data zal in eerste instantie vindbaar gemaakt worden, zodra deze hergebruikt wordt kan deze zal meer energie gestopt worden door deze verder FAIR te maken. Dit zijn ideeen die momenteel uitgewerkt worden. Zodra deze leiden tot gedragen oplossingen zullen we deze in volgende versies van de Wiki publiceren.
27	V2	De DCAT-AP versie die nu door Health-RI is geïmplementeerd voor de catalogus is nog niet erg uitgebreid. Is er iets te zeggen over de uitbreidingen waar Health-RI aan gaat werken ?	Voor volgende consultatieronde zou Health DCAT AP extensie beschikbaar kunnen zijn. Meer informatie volgt spoedig op de volgende link Extension of DCAT-AP: HealthDCAT-AP - EHDS2 Pilot - Official website
28	V2	Ik weet dat er ook veel gewerkt wordt aan de metadata van beelddata en omics data. Waarom maken deze communities nog geen gebruik van de github die is gebruikt voor de core metadata. GitHub - Health-RI/health-ri-metadata: health ri metadata schemas In dat geval kunnen andere ontwikkelaars real-time volgen wat er gebeurt.	We moedigen het gebruik van de github aan.
29	V2	De presentatie bevatte de verplichte metadatavelden voor datasets. Hoe zit het met verplichte metadatavelden voor distributie en catalogi?	Er is op dit moment nog wat discrepantie. We werken hieraan en hebben de hulp van de gemeenschap nodig.
30	V2	Er is een verzoek om commentaar op het model, waar moeten we commentaar op geven? Wat is specifiek voor Health-RI? We beoordelen DCAT niet.	We houden DCAT-AP NL en Health in de gaten, maar we willen graag feedback over specifieke modellen die we nodig hebben voor het beschrijven van specifieke data We hebben ook feedback nodig over de subset van DCAT die we gebruiken, en of deze voldoet aan de eisen van de node. Heb je bijvoorbeeld andere dingen dan datasets om bloot te leggen? Hebben jullie wijzigingsdata? Ook: we kunnen later andere modellen toevoegen om onze kern te vertegenwoordigen! DCAT is niet compleet, maar we hebben DCAT nodig voor adresseerbaarheid. We werken ook aan formele modellen, bijvoorbeeld in SHACL-regels, ook daar horen we graag feedback over: https://github.com/Health-RI/health-ri-metadata/blob/master/Metadata%20Schemas%20(Formal%20models)/Core%20Metadata%20Model/core.shapes.ttl
31	V2	De data aanleverende partij is verantwoordelijk voor data. Daar zijn afspraken voor nodig. Daarin is een rol voor ontologie en kennismodel (eenheid van betekenis). Het modelleren van bijvoorbeeld kankerproces komt niet terug in SNOMED. Kan men wat mist opvangen met andere terminologieën / referentiemodellen ?	Streven naar eenheid van techniek en eenheid van taal. Gebruik van terminologieën: waar nodig/nuttig zullen/kunnen meerdere terminologieën elkaar aanvullen, c.q. gebruikt worden.
32	V2	Is de data die komt uit de operationele zorg en administratieve processen (zorg- en bedrijfsvoeringsprocessen) ook in scope van het Health-RI ecosysteem ?	Dit hangt samen met de definitie van Gezondheidsdata. We dienen nog te beslissen of administratieve data binnen scope van Health-RI valt.
33	V3	Ik mis een link tussen het overzicht van omics-datastandaarden en het FAIR-datagedeelte van de wiki. Ik zou liever één toegangspunt hebben tot Health-RI-data- en metadatastandaarden. Is het de bedoeling dat dit wordt gecombineerd?	Op termijn wel: we kiezen nu voor gescheiden pagina’s omdat de Health-RI wiki twee keer per jaar wordt bijgewerkt en de FAIR data Wiki vaker. De FAIR data wiki is actueler.
34	V3	Bij het voorbereiden van data wordt er dan ook gemodeleerd en hoe? Semantisch of anders? en welk semantisch model? OMOP?	We willen graag aansluiten bij de zorg, gezamenlijk data definities maken. Dit bestaat uit een codeboek, maar ook uit een metadataschema voor de dataset en de datapunten. We willen hiervoor goed stelselbeheer opzetten.
35	V3	Qua modelleren van informatie wordt in EJP-RD ook heel veel gedaan.	We zijn ook op EJP-RD platform bezig (waaronder semantisch modelleren). We willen graag weten hoe aan te sluiten en te komen tot juiste keuzes. FDP en de semantische beschrijvingen proberen we niet alleen in Health-RI te gebruiken, maar we stemmen ook af met projecten zoals EUCAIM en GDI. We zoeken generieke oplossingen.
36	V3	Wachten we mbt het modeleren van data misschien tot EHDS knopen doorhakt?	EHDS gaat geen beslissingen nemen over de databeschrijving. Dat moet in de specifieke velden onderling worden afgestemd.
37	V3	Ik ga er vanuit dat jullie over het modeleren van data ook in gesprek zijn met de EPD leveranciers ? Het zou met name enorm veel schelen bij de 'algemene' ziekenhuizen. Uitgaande van het feit dat meer dan 50% van de zorg alleen al door de 26 STZ ziekenhuizen gedaan wordt.	Nog onvoldoende. We zijn bezig met komen tot datadefinities, c.q. semantische unificatie.
38	V3	Nictiz gaat toch over de standaarden en ZIBs? Hoe verhoudt zich dat tot jullie benadering mbt deze metadata?	We hebben een orchestratierol en zijn in overleg met partijen als Nictiz om iedereen in zijn kracht te zetten.
39	V3	Wordt er voor de data governance gebruik gemaakt van het DM-BOK model van Dama?	Dat moet nog bepaald worden door de geëigende partijen.
40	V3	Over identifiers: niet wat jullie vragen, maar als er verschillende systemen zijn om identifiers te maken, heb je dan niet alsnog kans op duplicaten? OF heeft iedereen echt een ander systeem?	Dat houdt ons bezig, of we dat centraal beleggen of gefedereerd. We willen in contact komen met partijen die hier ervaring in hebben zodat datasets uniek geïdentificeerd kunnen worden. Denk met ons mee !
41	V3	Is er een risico dat verschillende partijen dezelfde DOI aanmaken ?	Er zijn goede en slechte systemen voor identifiers. Klassiek gebruikt men "getallen" die in elk systeem een andere betekenis heeft. We willen toewerken naar een systeem dat een PID echt als zodanig persistent is.
42	V3	In ons ziekenhuis vinden ze het heel belangrijk om bij IEDERE data uitgifte te checken of dat de consent van de patiënt nog up to date is en om dit zelfs frequenter te gaan checken (om dan tijdens studies de data van die patiënten terug te kunnen trekken).	In principe wordt vóór iedere uitgifte voor een specifiek onderzoeksproject gecheckt of dit in lijn is met de zeggenschap van de patiënt. Wanneer het gaat om hergebruik van zorgdata bevat het nationale zeggenschapsregister de actuele zeggenschapsverklaring. In het geval van hergebruik van een historische collectie zal getoetst worden of de nieuwe onderzoeksvraag en -methodologie passen binnen het informed consent dat deelnemers eerder hebben gegeven en de deelnemers hun toestemming niet in hebben getrokken. Onder de EHDS gaat met name deze laatste route mogelijk anders worden. Dit zal de komende tijd in kaart gebracht worden aan de hand van verdere concretisering vanuit EHDS en HDAB-NL.
43		Als een dataset met een DOI uitgegeven gaat worden zou ook zo’n consent check gedaan worden, of is in het kader van het EHDS de bedoeling: als patientdata in die dataset was waarvoor TOEN wel consent was, dan kan de dataset ‘as is’ uitgegeven blijven worden? Of zal toch nog zo’n check gedaan worden voor up-to-date consent status?	Het hangt op dit moment van de specifieke context af of een nieuwe consent check moet worden gedaan. Als het gaat om het reproduceren van een analyse dan is dat meestal niet het geval, als het gaat om een nieuwe onderzoeksvraag dan wordt die check meestal opnieuw uitgevoerd. Voor de toekomst moeten we nog in kaart brengen hoe dit werkt als de EHDS in werking is getreden.
44	V3	hoe zit dat dan met het recht op verwijdering? of is dat wat anders?	Als data-subjects gegevens die over hen gaan willen verwijderen, dan moet dat in principe gehonoreerd worden. Er kan soms een uitzondering worden gemaakt, bijvoorbeeld omdat de data uitgegeven zijn voor een specifieke analyse en deze reproduceerbaar moet blijven. Indien data volledig anoniem zijn dan geldt dit recht niet.
45	V3	Het core metadata schema houdt zich nu aan DCAT-AP. Ik denk dat compatibiliteit met de health DCAT_AP-extensie later belangrijk zal zijn. Deze extensie zal waarschijnlijk meer beperkt zijn op sommige kenmerken van DCAT-AP (bijv. het gebruik van gecontroleerde vocabulaires). Hoe zal dit worden afgehandeld?	Dat is inderdaad een van de dingen die we in het huidige plateau van Health-RI gaan doen. Dus tot het einde van het jaar zullen we HealthDCAT-AP opnemen, maar ook het Nederlandse applicatieprofiel DCAT-AP NL. Ze zijn beide nog niet officieel afgerond, maar de 'prerelease'-versies of de conceptversies willen we zo ver mogelijk implementeren in de volgende fase van ons kern- en kernmetadataschema en health-extensie.
46	V3	Dataminimalisatie is toch ook beperken van variabelen die je meestuurt ?	Inderdaad, we onderscheiden horizontale en verticale data-minimalisatie.
47	V3	Wie denken er mee aan nationale data modellen?	Momenteel kennen we het ministerie van VWS als stelselhouder en Nictiz als tijdelijke stelsel beheerder.