Werkgroep Omics

Dit artikel bevat het profiel van de werkgroep Omics. Het profiel Omics bevat de specifieke afspraken die gelden voor de datacategorie Omics.

Titel

Titel

Omics data

Algemeen

Metadata van profiel

2023-09-26 Versie 0.0.1

Release-informatie

2023-09-26 Auteur: R.W.W. Hooft
2024-04-24

Wet- en regelgeving

Juridische grondslag

Voor menselijke erfelijkheidsgegevens (hieronder vallen in elk geval zowel genomics als genetics data: de studie van alle genen of specifieke genen) geldt (behoudens specifieke uitzonderingen) dat deze behoren tot de speciale categorieën persoonsgegevens, en vaak geldt bovendien dat deze niet anoniem gemaakt kunnen worden. Hierdoor is niet alleen een grondslag voor de verwerking Art 6 AVG nodig, maar ook een opheffing van het verbod voor verwerking Art 9 AVG.

In Nederland is het uitgangspunt dat genetische persoonsgegevens alleen mogen worden verwerkt wanneer de betrokkene expliciet toestemming heeft gegeven, oftewel via een opt-in variant van toestemming. In geval van een zwaarwegend geneeskundig belang of voor wetenschappelijk onderzoek, kunnen genetische gegevens soms zonder toestemming worden gebruikt. Dit is enkel toegestaan als het onmogelijk is om toestemming te verkrijgen, of als het vragen van toestemming een onevenredige inspanning vergt.

Voor andere vormen van omics, zoals proteomics, metabolomics geldt dat hoewel de gegevens afkomstig zijn van een persoon, ze met de huidige stand van de techniek zonder andere gegevens niet herleidbaar zijn tot een persoon. Dit zou als consequentie hebben dat alleen combinatie met andere herleidbare gegevens potentiele risico’s geeft en bovendien combinatie met dit type omics data het risico niet vergroot. Er zijn mensen die verwachten dat herleiding in de toekomst in sommige gevallen wel mogelijk zal zijn en die nog voorzichtiger zijn.

Organisatiebeleid

Rollen en Actoren

In het artikel rollen worden de generieke rollen binnen het Health-RI ecosysteem beschreven. Binnen Omics bestaat voor onderstaande rollen een specifieke invulling.

Databron

Omics data wordt door drie groepen verzameld:

  1. Wetenschappelijk onderzoekers; als data om te onderzoeken

  2. Klinische diagnostiek; bijvoorbeeld voor diagnose van e.g. zeldzame ziekten, maar ook voor ondersteuning van diagnose, voor risico-analyse, of voor genetisch bepaalde farmacokinetiek.

  3. Biobanken; als data die is bepaald uitgaande van de biobanksamples, zodat die in voorkomende gevallen digitaal kan worden uitgereikt.

Hiernaast komt het voor dat individuën eigen omics-data laten verzamelen, bijvoorbeeld door commerciële aanbieders van dat soort diensten; op dit ogenblik zijn die gegevens nog niet in scope.

Data-governancecommissie

Over data-governance voor omics data wordt nu nog niet veel afgestemd. In het kader van het Europese 1+MG initiatief en het GDI project wordt gewerkt aan een infrastructuur voor het delen van hoogkwalitatieve menselijke genoomgegevens. Dit is nog in een vroege fase van de realisatie. Wel is al duidelijk dat deze infrastructuur een centrale Europese Data Access Commissie zal inrichten die over uitgifte van data zal oordelen. De European Health Data Space Regulation (EHDS) zal ook de uitwisseling van genomics en proteomics gegevens regelen inclusief voor secundair gebruik: landen zullen voor het gebruik van deze data bovenop de door de EHDS regulering gestelde condities nog eigen nationale voorwaarden kunnen stellen.

In- en exclusiecriteria deelnemers

Er zijn verschillende soorten omics, elk met specifieke eigenschappen van de data. Als eerste wordt gefocust op “genomics”. Voor Genomics data geldt de consensus dat anonymiseren niet mogelijk is; heridentificatie is relatief eenvoudig. Daarom geldt voor genomics data altijd de AVG, en daarbovenop nog het verbod Art 9 AVG (omdat het om bijzondere persoonsgegevens gaat) en ook nog de duidelijk uitgesproken principes dat voor DNA-gegevens altijd alleen op basis van toestemming (opt-in) mag worden gewerkt.

Genomics data, zeker in ruwe vorm, is data met zeer groot volume (honderden gigabytes voor een whole-genome-sequencing dataset voor een enkel persoon).

Genomics data wordt in “cohorten” gegroepeerd op basis van gebruik van de meettechniek en vooral op basis van de geassocieerde fenotypische gegevens: de genoomdata op zich heeft dezelfde vorm grotendeels onafhankelijk van het doel van de bepaling, dus het zijn de overige gegevens van de persoon die beschikbaar zijn die de groepering bepalen (e.g. gaat het om allemaal patiënten van de afdeling cardiologie bij het UMCU, waarvoor ook zeer vergelijkbare andere data voor beschikbaar is).

Informatie

 

Metadata

In het artikel minimale (meta)dataset worden de generieke (meta)dataset binnen het Health-RI ecosysteem beschreven. Binnen Omics bestaat onderstaande aanvulling.


Het minimum is op dit moment DCAT versie 2.0. Alle domein-specifieke metadatavelden die hieronder worden beschreven zullen pas in latere plateaus onderdeel uit gaan maken van het metadatamodel.

Voor alle omics-data gelden de volgende gemeenschappelijke metadatavelden bovenop de health-ri metadata:

  • Metadata die het sample beschrijven (e.g. weefsel of bloed) waaraan de omics-bepaling is uitgevoerd. Deze metadata moet compatibel zijn met de data die voor biobanken wordt vastgelegd.

  • Omics type

Het genomica zonnebloemblaadje bevat daar weer bovenop de volgende aanvullende metadata velden:

  • genoom oorsprong: somatisch of germline

  • genome coverage (welk deel van het DNA is beschreven):

  • nauwkeurigheid (e.g. als aantal te verwachten fouten per miljoen baseparen)

  • beschikbaarheid ruwe data.

  • gerapporteerde genetische variatie zoals mutaties, indels, structurele varianten.

  • frequenties van varianten in de dataset.

  • ID van Referentiegenoom

Informatie-standaarden

Bestandsformaten voor genomics zijn:

  • VCF (verschil tov referentiegenoom, 1GB),

  • BAM (ruwe data + verwerking),

  • FASTQ (ruwe data),

  • CRAM (content-specifieke compressed versie van BAM)

Zie voor meer informatie het artikel over omics datatypen en standaarden.

Coverage:

  • TES Targeted Exome Sequencing

  • WES Whole Exome Sequencing

  • WGS Whole Genome Sequencing

Applicatie / IT-infrastructuur

Manieren van gegevensuitwisseling

Voorkeur voor gefedereerde verwerking (in de nabijheid van de opslag door de datahouder) ivm

  • de grootte van de bestanden

  • privacy-gevoeligheid van de data: de data zegt niet alleen iets over een persoon maar ook iets over zijn directe familie.

Er is een speciaal gestandaardiseerd protocol “htsget” dat specifieke toegang kan geven tot de benodigde delen van genomische data, zodat zo min mogelijk gekopieerd hoeft te worden.

Voor andere omics data is dit nog niet uitgewerkt.

Een Europese infrastructuur voor het uitwisselen van humane genoomgegevens wordt gebouwd in het GDI project waar Health-RI namens Nederland in participeert.

Implementatie

Er zijn vele tools die gebruikt worden voor Omics-data, waaronder:

  • Armadillo (gebruikt Datashield)

  • (TES [Task Execution Service] en WES [Workflow Execution Service] API)

  • Beacon v1: zoeken op genoom waarde

  • Beacon v2: zoeken op genoom waarde EN patiënt informatie

  • Molgenis EMX2: data management tool die FAIR best-practice modellen voor genomics bevat en ingebouwde FDP, Beacon v2 en RDF.

  • Galaxy: workflowtool die gebruikt kan worden zonder bioinformatica-expertise, en waarin veel tools voor genoom-analyse beschikbaar zijn. Er zijn publieke instanties, maar deze zijn niet geschikt voor analyse van humane genoomgegevens omdat de beveiliging van de gegevens niet voldoende gegarandeerd is.

  • cBioPortal: visuele tool voor analyse van genen, gericht op onderzoek van kanker.

Beveiliging

Toetsing anonimisering

Voor dit type data is anonimiseren van individuele data onmogelijk: het gaat nl. niet alleen over een persoon maar ook over zijn directe familie. Het is gemakkelijker om aan genoeg context-informatie te komen om een subject te identificeren.

Anonimiseren door aggregatie is wel mogelijk: wanneer van een (voldoende grote) groep data subjects wordt aangegeven welke genetische varianten er in de groep zijn geobserveerd is het niet langer mogelijk die tot individuën te herleiden.

Voor ondervragen van genoomgegevens is het “beacon” protocol een wereldstandaard. Voor V1 van dit protocol is ook uitgezocht dat wanneer meer dan ca 200 vragen worden gesteld het aan de hand van de antwoorden mogelijk wordt om een subject te heridentificeren. Voor V2 van het protocol is zo’n analyse nog niet formeel bekend, maar is al wel duidelijk dat het aantal benodigde queries beduidend lager zal liggen, misschien wel bij ca 20.

Aanvullende maatregelen privacy

Ten behoeve van identificatie, authenticatie en autorisatie sorteert men bij voor op het gebruik van passports en visas, deze zullen daarvoor moeten worden ondersteund door LS AAI en (binnen Nederland) SRAM.

Verder zijn de systemen voor internationale uitwisseling van genetische gegevens gericht op het gebruik van encryptie: data wordt waar mogelijk versleuteld opgeslagen, en het verlenen van toegang bestaat er voornamelijk uit om tijdelijk de beschikking te geven over een decryptie-sleutel die specifiek alleen de benodigde delen van de data kan ontsleutelen.