• Cohortes
  • Actualité
Le premier patient de l’étude TransEAsome a été inclus au CHU de Lille
  • Cohortes
  • Actualité
Le projet TransEAsome vient d'obtenir l'avis favorable du comité d'éthique, les inclusions vont pouvoir commencer !
  • France cohortes
  • Blog
10 min
Cet article « avancer ensemble » suit un premier article présentant les bases de la démarche FAIR au sein des cohortes de santé publique. Nous exposons ici les pistes de progressions.

Accéder au premier article (bases).

Commencer par un plan de gestion de données

La FAIRisation des données nécessite de prendre en compte le plus tôt possible la question de la structuration de la production et de la gestion de données, à travers la création d’un plan de gestion de données (PGD).

Le PGD décrit, entre autres, les objectifs recherchés par la collecte de données, les formats de données utilisés, le volume, les standards et les métadonnées, le type d’hébergement, les utilisateurs, la gouvernance, les mises à jour et les responsabilités. La rédaction d’un plan de gestion de données est un préalable à toute démarche FAIR.

Des données « aussi ouvertes que possible, aussi fermées que nécessaire »

​Rendre les données accessibles dans le cadre de la démarche FAIR ne consiste pas à partager librement des données personnelles et confidentielles de participants ou de patients. La réglementation générale sur la protection des données personnelles (RGPD) et le code de santé publique l’interdisent formellement [1].

Ce qu’il est en revanche possible de partager librement, ce sont les informations sur les données : les métadonnées. Plus ces informations sont bien documentées, plus les données sont jugées de qualité et suscitent l’intérêt d’autres chercheurs [2] [3].

Données ouvertes et sécurisées dans le parcours de la donnée

Dans tout le processus de recueil, de traitement, de partage et de réutilisation de l’information, la plus stricte confidentialité des informations est organisée de manière à ce qu’aucune donnée personnelle ne puisse être divulguée.

​Deux modalités d'accès aux données

Un accès protégé pour les données identifiantes

Les chercheurs qui souhaitent accéder aux données personnelles peuvent le faire sous certaines conditions. La demande d’accès suit un enchaînement d’autorisations précis et décrit, répondant à la gouvernance des données de la cohorte et au consentement des participants [4].

Une fois ces prérequis obtenus, les données sont accessibles via un espace informatique sécurisé, conformément à la réglementation en vigueur [5].

Un accès ouvert pour les données non-identifiantes

Une mise à disposition des données de manière ouverte est possible grâce à :

leur anonymisation, effaçant toute donnée potentiellement identifiante,

ou leur transformation en jeux de données synthétiques, simulés pour produire des données présentant des caractéristiques statistiques proches, mais ne permettant pas de remonter aux personnes.

​La documentation associée aux données de recherche

Partager des données de santé pour une utilisation différente de ce pour quoi elles étaient destinées au départ nécessite de leur associer une documentation accessible, compréhensible et complète.

En effet, le recueil et/ou l’interprétation de la donnée évoluent dans le temps. Les données sont recueillies en fonction d’un savoir, d’une législation, ou encore de contraintes extérieures qui peuvent changer.

La construction d’une documentation qui accompagne tout le cycle de vie de la donnée constitue dès lors un enjeu de qualité bien connu des épidémiologistes, surtout pour les données de recueil longitudinal.

Le choix des standards de données et de métadonnées

Il existe de nombreux standards de données et de métadonnées dans le domaine de la biologie-santé :

- Les standards de communication médicaux : HL7-FHIR, DICOM

- Les standards de structuration des données et de vocabulaire contrôlé en recherche clinique : CDISC/SDTM, CDISC/ADAM, OMOP

- Les standards de terminologie : CIM 10 pour les maladies ; SNOMED pour les activités cliniques ; LOINC pour les médicaments, les actes cliniques ou biologiques ; Orphanet pour les maladies rares

- Les référentiels géographiques hébergés par les sites de référence : pays, communes, hôpitaux

- Les standards de métadonnées : DDI, DCAT-AP, Data Cite

- etc.

Les 2 grandes étapes de FAIRisation des données

La phase amont du recueil de données

Idéalement, l’étape de structuration et du choix des standards de données, des métadonnées et du vocabulaire doit être définie dès la phase amont du recueil des données.

C’est ce qu’on pourrait appeler le « FAIR à chaud »[6]. Les données et les métadonnées associées sont alors enrichies sous des formats standards tout au long du cycle de vie de la donnée, jusqu’à sa consolidation définitive.

La phase avale du catalogage des données

Le renseignement des métadonnées peut aussi se faire lors du catalogage des données, une fois que ces dernières ont été recueillies, traitées et consolidées. Il s’agit alors d’une étape de « FAIR à froid » [6], avec une documentation manuelle des métadonnées. Dès lors, le travail à fournir par les datamanagers est important. Ce travail doit être envisagé pour les données anciennes.

Le rôle d’accompagnement de France Cohortes

​En définitive, les cohortes perçoivent bien les enjeux associés aux données FAIR : la pérennité, la qualité des données, et la visibilité de leurs travaux.

consolider, aider et perenniser les cohortes

La politique de FAIRisation des données varie selon si les cohortes existent déjà ou sont en cours de création.

Les cohortes déjà constituées recherchent d’abord un outil qui puissent diffuser leur catalogue et leurs processus d’accès aux données (FAIR « à froid »). Par la suite, France Cohortes pourra les accompagner en amont du cycle de vie de la données (FAIR « à chaud »).

Instaurer une démarche FAIR sur les projets est en effet un processus à réaliser étape par étape, jusqu’à ce que cela devienne in fine une bonne pratique totalement intégrée au champ de recherche.

Les cohortes en cours de création intègrent en revanche les processus FAIR dès le début du projet (« à chaud »), au moyen d’un plan de gestion des données et de l’enrichissement automatisé des métadonnées lors de la phase d’élaboration du questionnaire.

La priorité actuelle de France Cohortes consiste dès lors à développer, de manière concertée, un outil centralisant et facilitant la documentation et les métadonnées tout au long de la vie de l’étude de cohorte.

Auteures : Claire Imbaud, Guillemette Pardoux de France Cohortes.
 

Remerciements : Lesya Baudoin de l'Institut de santé publique de l'Inserm, Julie Hubert et Grégoire Rey de France Cohortes, Yvan Le Bras du Museum national d'histoire naturelle (MNHN), l'initiative CLOSER en Grande Bretagne, Doranum, la Banque nationale de données des maladies rares (BNDMR), l'Institut français de bioinformatique (IFB).

-------
 

Notes :

[1] L’accès et l’utilisation des données sont encadrées par :

Le règlement général sur la protection des données RGPD — règlement UE 2016/679 du Parlement européen et du Conseil du 27 avril 2016), qui encadre le traitement des données pour protéger les citoyens sur l’ensemble du territoire de l’Union européenne,

Les dispositions sur le secret (art. L. 1110-4 du Code de Santé Publique - CSP), impliquant que toute personne entrant dans le système de santé a droit au respect de sa vie privée et du secret des informations la concernant.

[2] La loi française « pour une république numérique » (loi n° 2016-1321 du 7 octobre 2016) travaille à ouvrir les données tout en renforçant la protection des personnes.

[3] Par exemple, les métadonnées peuvent être :

  • les informations générales sur la cohorte, les objectifs scientifiques, le nom des porteurs de projet et toutes les personnes/institutions associées, les dates de collecte, l’origine des données,
  • des données agrégées descriptives non ré-identifiantes,
  • la liste des variables et les informations associées,
  • des éléments plus spécifiques : test de cohérence,  conditionnement des réponses, type de nettoyage effectué, principales modifications entre vague de collecte, etc.

[4] Le texte de loi encadrant le consentement éclairé des volontaires :

L’article1 L.1122-1-1 du code de la santé publique déclare qu’« aucune recherche biomédicale ne peut être pratiquée sur une personne sans son consentement libre et éclairé, recueilli après que lui a été délivrée l'information prévue ».

  • France cohortes
  • Blog
8 min
Dans la lignée d'un atelier FAIR animé récemment par France Cohortes, nous publions un premier article introduisant la démarche FAIR au sein des cohortes.

Les cohortes sont de remarquables instruments de recherche pour l’épidémiologie et la santé publique. Depuis 10 ans en France, nombre d’entre elles ont considérablement enrichi leurs recueils, portées par les programmes d’investissement d’avenir. Elles hébergent désormais des données individuelles et longitudinales d’une grande diversité et d’une grande valeur scientifique.

Aujourd’hui, les jeux de données de plusieurs d’entre elles gagneraient cependant à être plus visibles et davantage partagés, sous certaines conditions éthiques, réglementaires et scientifiques. Le partage des données valorise en effet les études qui les produisent, augmente leur potentiel pour la recherche et contribue à accélérer les progrès dans leurs domaines.

Ainsi, les données recueillies par la cohorte Elfe auprès des 18 000 enfants depuis plus de 10 ans contribuent à produire de nombreuses études sur le développement global de l'enfant, du point de vue de sa santé, de son éducation, et de son environnement de vie.

Pour renforcer les capacités de certaines cohortes à documenter et à partager leurs données comme le fait déjà Elfe, l’infrastructure nationale de recherche France Cohortes souhaite contribuer au déploiement et à la mise en œuvre de la démarche FAIR.

Cet article est organisé en deux parties. La partie 1 présente la démarche FAIR (les bases), la partie 2 expose des pistes de progression possibles offertes aux cohortes de santé publique accompagnées par France Cohortes.

Accéder au deuxième article (avancer ensemble).

Qu’est-ce que la démarche FAIR ?[1]

Auteur : SangyaPundir, CC

« Les principes FAIR Data sont un ensemble de principes directeurs visant à rendre les données trouvables, accessibles, interopérables et réutilisables. Ces principes fournissent des orientations pour la gestion des données scientifiques et sont pertinents pour toutes les parties prenantes de l'écosystème numérique. Ils s'adressent directement aux producteurs et aux éditeurs de données afin de promouvoir une utilisation maximale des données de recherche. [2] »

Faciles à trouver

Pour être réutilisables, les données produites par la recherche doivent être faciles à repérer, tant par les humains que par les machines (par mots clefs sur des moteurs de recherche, par référencement sur des portails connus, etc.). Créer des métadonnées lisibles automatiquement avec un minimum d’intervention humaine est un élément essentiel du processus de FAIRisation.

Accessibles

Une fois que l'utilisateur trouve les données dont il a besoin pour répondre à sa question de recherche, il doit avoir connaissance des modalités d’accès aux jeux de données (juridiques, réglementaire, techniques et scientifiques), surtout lorsqu’il s’agit de données de santé à caractère personnel protégées par le règlement général sur la protection des données (RGPD).

Interopérables

Pour faciliter les échanges entre les différents systèmes d’information, les données et les métadonnées accessibles doivent être disponibles suivant des formats ouverts et des standards connus. En outre, les données doivent interagir avec des applications ou des flux de communication entre systèmes d’information, pour être extraites, traitées et stockées.

Réutilisables

L'objectif ultime de la démarche FAIR est d'optimiser la réutilisation des données. Pour y parvenir, les métadonnées et les données doivent être bien décrites afin qu'elles puissent être reproduites et/ou combinées dans différents contextes.

Pour améliorer l’efficacité de la recherche, la démarche FAIR est donc fortement promue et encouragée par la communauté de la recherche, les tutelles et les organismes financeurs.

Pour la petite histoire...

La démarche FAIR, portée par le mouvement de la science ouverte, est née de discussions, engagées au début des années 2010, au sein de communautés internationales de chercheurs, éditeurs, sociétés savantes, financeurs et archivistes. L’Institut de santé publique de l'Inserm s’est d’ailleurs positionné dès 2014 en faveur de la science ouverte au sein de la commission « open data en santé »[3]. Les différents principes ont été consolidés en 2015 au cours d’une rencontre aux Pays Bas qui a donné lieu à l’article princeps publié dans Nature scientific data en 2016.

Article princeps publié dans Nature scientific data en 2016

En France, le Plan national pour la Science ouverte, publié en 2018 par le ministère de l’Enseignement supérieur, de la Recherche et de l’Innovation, s’est donné comme ambition de rendre à terme les données issues de la recherche financée sur fonds publics conformes aux principes FAIR (axe 2).

En 2021, le deuxième plan national a précisé que ces principes s’appliquaient bien aux données de la recherche en santé, en tenant compte de leur caractère sensible.

La démarche FAIR est en effet portée par le mouvement de l’open data, mais si les données peuvent être partagées, elles ne peuvent l’être de manière ouverte pour des raisons de confidentialité et de protection des personnes.

Source : Ministère de l'enseignement supérieur et de la recherche

FAIR sans le dire

Depuis 2016, les disciplines scientifiques s’organisent donc pour rendre leurs données FAIR. Dans le domaine de l’épidémiologie et de la santé publique, les équipes productrices de données font déjà « du FAIR » sans le nommer, lorsqu’elles se rendent visibles ou mettent en place des procédures d’accès conformes à la réglementation.

La discipline de la santé publique doit cependant rendre la démarche plus homogène et systématique, et développer des outils spécifiques répondant aux exigences des standards et de l’interopérabilité (ces deux points seront définis plus loin).

Les vertus de la démarche FAIR

Face à la massification des données de la recherche dans le monde numérique, appliquer les principes FAIR à toutes les étapes du cycle de vie des données de son projet relève de l’exigence scientifique.

En mettant à disposition leurs données, la documentation et les méthodes, les chercheurs permettent à d’autres chercheurs de reproduire des résultats et des interprétations, et renforcent de facto la confiance dans les résultats de la recherche.

Par ailleurs, en facilitant la réutilisation de leurs données, les cohortes sont plus visibles et se donnent l’opportunité d’être davantage reconnues. Elles peuvent ainsi accroître leur rayonnement, notamment auprès des organismes financeurs.

Inscrire les données produites par les cohortes dans une démarche FAIR est donc un prérequis nécessaire pour faire avancer la science.

Un second article présente les pistes de progression offertes aux cohortes de santé publique accompagnées par France Cohortes.

Accéder au deuxième article (avancer ensemble).

 

---------

Notes :

[1] Pour plus de détails :

Définition des principes FAIR issue du site de Doranum :https://doranum.fr/enjeux-benefices/principes-fair_10_13143_z7s6-ed26/ DOI : 10.13143/z7s6-ed26

Présentation interactive des principes FAIR sur le site URFIST Méditerranée : https://view.genial.ly/5d64fbbd8352350fa3d22603/interactive-content-les-principes-fair

Présentation des principes FAIR sur le site GO FAIR : https://www.go-fair.org/fair-principles/

[2] Définition fournie par l’Institut Français de Bioinformatique, dans sa formation introductive à la démarche FAIR.

[3] Contribution de l'ITMO Santé publique Aviesan Inserm à la commission "Open Data en santé"

  • Cohortes
  • Actualité
C’est parti pour le projet TransEAsome !

TransEAsome est une cohorte nationale de patients de 13-14 ans nés avec une atrésie de l'œsophage afin d’évaluer son devenir à long terme en partenariat avec le CHU de Lille, les équipes de PRISM, GO@L, Bilille, Pedstart et l'AFAO.
 

TransEAsome est une cohorte nationale de patients de 13-14 ans nés avec une atrésie de l'œsophage afin d’évaluer son devenir à long terme en partenariat avec le CHU de Lille, les équipes de PRISM, GO@L, Bilille, Pedstart et l'AFAO.