La démarche FAIR au sein des cohortes de santé publique : avancer ensemble (2/2)

Cet article « avancer ensemble » suit un premier article présentant les bases de la démarche FAIR au sein des cohortes de santé publique. Nous exposons ici les pistes de progressions.

Accéder au premier article (bases).

Commencer par un plan de gestion de données

La FAIRisation des données nécessite de prendre en compte le plus tôt possible la question de la structuration de la production et de la gestion de données, à travers la création d’un plan de gestion de données (PGD).

Le PGD décrit, entre autres, les objectifs recherchés par la collecte de données, les formats de données utilisés, le volume, les standards et les métadonnées, le type d’hébergement, les utilisateurs, la gouvernance, les mises à jour et les responsabilités. La rédaction d’un plan de gestion de données est un préalable à toute démarche FAIR.

Des données « aussi ouvertes que possible, aussi fermées que nécessaire »

​Rendre les données accessibles dans le cadre de la démarche FAIR ne consiste pas à partager librement des données personnelles et confidentielles de participants ou de patients. La réglementation générale sur la protection des données personnelles (RGPD) et le code de santé publique l’interdisent formellement [1].

Ce qu’il est en revanche possible de partager librement, ce sont les informations sur les données : les métadonnées. Plus ces informations sont bien documentées, plus les données sont jugées de qualité et suscitent l’intérêt d’autres chercheurs [2] [3].

Données ouvertes et sécurisées dans le parcours de la donnée

Dans tout le processus de recueil, de traitement, de partage et de réutilisation de l’information, la plus stricte confidentialité des informations est organisée de manière à ce qu’aucune donnée personnelle ne puisse être divulguée.

​Deux modalités d'accès aux données

Un accès protégé pour les données identifiantes

Les chercheurs qui souhaitent accéder aux données personnelles peuvent le faire sous certaines conditions. La demande d’accès suit un enchaînement d’autorisations précis et décrit, répondant à la gouvernance des données de la cohorte et au consentement des participants [4].

Une fois ces prérequis obtenus, les données sont accessibles via un espace informatique sécurisé, conformément à la réglementation en vigueur [5].

Un accès ouvert pour les données non-identifiantes

Une mise à disposition des données de manière ouverte est possible grâce à :

leur anonymisation, effaçant toute donnée potentiellement identifiante,

ou leur transformation en jeux de données synthétiques, simulés pour produire des données présentant des caractéristiques statistiques proches, mais ne permettant pas de remonter aux personnes.

​La documentation associée aux données de recherche

Partager des données de santé pour une utilisation différente de ce pour quoi elles étaient destinées au départ nécessite de leur associer une documentation accessible, compréhensible et complète.

En effet, le recueil et/ou l’interprétation de la donnée évoluent dans le temps. Les données sont recueillies en fonction d’un savoir, d’une législation, ou encore de contraintes extérieures qui peuvent changer.

La construction d’une documentation qui accompagne tout le cycle de vie de la donnée constitue dès lors un enjeu de qualité bien connu des épidémiologistes, surtout pour les données de recueil longitudinal.

Le choix des standards de données et de métadonnées

Il existe de nombreux standards de données et de métadonnées dans le domaine de la biologie-santé :

- Les standards de communication médicaux : HL7-FHIR, DICOM

- Les standards de structuration des données et de vocabulaire contrôlé en recherche clinique : CDISC/SDTM, CDISC/ADAM, OMOP

- Les standards de terminologie : CIM 10 pour les maladies ; SNOMED pour les activités cliniques ; LOINC pour les médicaments, les actes cliniques ou biologiques ; Orphanet pour les maladies rares

- Les référentiels géographiques hébergés par les sites de référence : pays, communes, hôpitaux

- Les standards de métadonnées : DDI, DCAT-AP, Data Cite

- etc.

Les 2 grandes étapes de FAIRisation des données

La phase amont du recueil de données

Idéalement, l’étape de structuration et du choix des standards de données, des métadonnées et du vocabulaire doit être définie dès la phase amont du recueil des données.

C’est ce qu’on pourrait appeler le « FAIR à chaud »[6]. Les données et les métadonnées associées sont alors enrichies sous des formats standards tout au long du cycle de vie de la donnée, jusqu’à sa consolidation définitive.

La phase avale du catalogage des données

Le renseignement des métadonnées peut aussi se faire lors du catalogage des données, une fois que ces dernières ont été recueillies, traitées et consolidées. Il s’agit alors d’une étape de « FAIR à froid » [6], avec une documentation manuelle des métadonnées. Dès lors, le travail à fournir par les datamanagers est important. Ce travail doit être envisagé pour les données anciennes.

Le rôle d’accompagnement de France Cohortes

​En définitive, les cohortes perçoivent bien les enjeux associés aux données FAIR : la pérennité, la qualité des données, et la visibilité de leurs travaux.

consolider, aider et perenniser les cohortes

La politique de FAIRisation des données varie selon si les cohortes existent déjà ou sont en cours de création.

Les cohortes déjà constituées recherchent d’abord un outil qui puissent diffuser leur catalogue et leurs processus d’accès aux données (FAIR « à froid »). Par la suite, France Cohortes pourra les accompagner en amont du cycle de vie de la données (FAIR « à chaud »).

Instaurer une démarche FAIR sur les projets est en effet un processus à réaliser étape par étape, jusqu’à ce que cela devienne in fine une bonne pratique totalement intégrée au champ de recherche.

Les cohortes en cours de création intègrent en revanche les processus FAIR dès le début du projet (« à chaud »), au moyen d’un plan de gestion des données et de l’enrichissement automatisé des métadonnées lors de la phase d’élaboration du questionnaire.

La priorité actuelle de France Cohortes consiste dès lors à développer, de manière concertée, un outil centralisant et facilitant la documentation et les métadonnées tout au long de la vie de l’étude de cohorte.

Auteures : Claire Imbaud, Guillemette Pardoux de France Cohortes.
 

Remerciements : Lesya Baudoin de l'Institut de santé publique de l'Inserm, Julie Hubert et Grégoire Rey de France Cohortes, Yvan Le Bras du Museum national d'histoire naturelle (MNHN), l'initiative CLOSER en Grande Bretagne, Doranum, la Banque nationale de données des maladies rares (BNDMR), l'Institut français de bioinformatique (IFB).

-------
 

Notes :

[1] L’accès et l’utilisation des données sont encadrées par :

Le règlement général sur la protection des données RGPD — règlement UE 2016/679 du Parlement européen et du Conseil du 27 avril 2016), qui encadre le traitement des données pour protéger les citoyens sur l’ensemble du territoire de l’Union européenne,

Les dispositions sur le secret (art. L. 1110-4 du Code de Santé Publique - CSP), impliquant que toute personne entrant dans le système de santé a droit au respect de sa vie privée et du secret des informations la concernant.

[2] La loi française « pour une république numérique » (loi n° 2016-1321 du 7 octobre 2016) travaille à ouvrir les données tout en renforçant la protection des personnes.

[3] Par exemple, les métadonnées peuvent être :

  • les informations générales sur la cohorte, les objectifs scientifiques, le nom des porteurs de projet et toutes les personnes/institutions associées, les dates de collecte, l’origine des données,
  • des données agrégées descriptives non ré-identifiantes,
  • la liste des variables et les informations associées,
  • des éléments plus spécifiques : test de cohérence,  conditionnement des réponses, type de nettoyage effectué, principales modifications entre vague de collecte, etc.

[4] Le texte de loi encadrant le consentement éclairé des volontaires :

L’article1 L.1122-1-1 du code de la santé publique déclare qu’« aucune recherche biomédicale ne peut être pratiquée sur une personne sans son consentement libre et éclairé, recueilli après que lui a été délivrée l'information prévue ».