Les cohortes sont de remarquables instruments de recherche pour l’épidémiologie et la santé publique. Depuis 10 ans en France, nombre d’entre elles ont considérablement enrichi leurs recueils, portées par les programmes d’investissement d’avenir. Elles hébergent désormais des données individuelles et longitudinales d’une grande diversité et d’une grande valeur scientifique.
Aujourd’hui, les jeux de données de plusieurs d’entre elles gagneraient cependant à être plus visibles et davantage partagés, sous certaines conditions éthiques, réglementaires et scientifiques. Le partage des données valorise en effet les études qui les produisent, augmente leur potentiel pour la recherche et contribue à accélérer les progrès dans leurs domaines.
Ainsi, les données recueillies par la cohorte Elfe auprès des 18 000 enfants depuis plus de 10 ans contribuent à produire de nombreuses études sur le développement global de l'enfant, du point de vue de sa santé, de son éducation, et de son environnement de vie.
Pour renforcer les capacités de certaines cohortes à documenter et à partager leurs données comme le fait déjà Elfe, l’infrastructure nationale de recherche France Cohortes souhaite contribuer au déploiement et à la mise en œuvre de la démarche FAIR.
Cet article est organisé en deux parties. La partie 1 présente la démarche FAIR (les bases), la partie 2 expose des pistes de progression possibles offertes aux cohortes de santé publique accompagnées par France Cohortes.
Accéder au deuxième article (avancer ensemble).
Qu’est-ce que la démarche FAIR ?[1]
Auteur : SangyaPundir, CC
« Les principes FAIR Data sont un ensemble de principes directeurs visant à rendre les données trouvables, accessibles, interopérables et réutilisables. Ces principes fournissent des orientations pour la gestion des données scientifiques et sont pertinents pour toutes les parties prenantes de l'écosystème numérique. Ils s'adressent directement aux producteurs et aux éditeurs de données afin de promouvoir une utilisation maximale des données de recherche. [2] »
Faciles à trouver
Pour être réutilisables, les données produites par la recherche doivent être faciles à repérer, tant par les humains que par les machines (par mots clefs sur des moteurs de recherche, par référencement sur des portails connus, etc.). Créer des métadonnées lisibles automatiquement avec un minimum d’intervention humaine est un élément essentiel du processus de FAIRisation.
Accessibles
Une fois que l'utilisateur trouve les données dont il a besoin pour répondre à sa question de recherche, il doit avoir connaissance des modalités d’accès aux jeux de données (juridiques, réglementaire, techniques et scientifiques), surtout lorsqu’il s’agit de données de santé à caractère personnel protégées par le règlement général sur la protection des données (RGPD).
Interopérables
Pour faciliter les échanges entre les différents systèmes d’information, les données et les métadonnées accessibles doivent être disponibles suivant des formats ouverts et des standards connus. En outre, les données doivent interagir avec des applications ou des flux de communication entre systèmes d’information, pour être extraites, traitées et stockées.
Réutilisables
L'objectif ultime de la démarche FAIR est d'optimiser la réutilisation des données. Pour y parvenir, les métadonnées et les données doivent être bien décrites afin qu'elles puissent être reproduites et/ou combinées dans différents contextes.
Pour améliorer l’efficacité de la recherche, la démarche FAIR est donc fortement promue et encouragée par la communauté de la recherche, les tutelles et les organismes financeurs.
Pour la petite histoire...
La démarche FAIR, portée par le mouvement de la science ouverte, est née de discussions, engagées au début des années 2010, au sein de communautés internationales de chercheurs, éditeurs, sociétés savantes, financeurs et archivistes. L’Institut de santé publique de l'Inserm s’est d’ailleurs positionné dès 2014 en faveur de la science ouverte au sein de la commission « open data en santé »[3]. Les différents principes ont été consolidés en 2015 au cours d’une rencontre aux Pays Bas qui a donné lieu à l’article princeps publié dans Nature scientific data en 2016.
En France, le Plan national pour la Science ouverte, publié en 2018 par le ministère de l’Enseignement supérieur, de la Recherche et de l’Innovation, s’est donné comme ambition de rendre à terme les données issues de la recherche financée sur fonds publics conformes aux principes FAIR (axe 2).
En 2021, le deuxième plan national a précisé que ces principes s’appliquaient bien aux données de la recherche en santé, en tenant compte de leur caractère sensible.
La démarche FAIR est en effet portée par le mouvement de l’open data, mais si les données peuvent être partagées, elles ne peuvent l’être de manière ouverte pour des raisons de confidentialité et de protection des personnes.
Source : Ministère de l'enseignement supérieur et de la recherche
FAIR sans le dire
Depuis 2016, les disciplines scientifiques s’organisent donc pour rendre leurs données FAIR. Dans le domaine de l’épidémiologie et de la santé publique, les équipes productrices de données font déjà « du FAIR » sans le nommer, lorsqu’elles se rendent visibles ou mettent en place des procédures d’accès conformes à la réglementation.
La discipline de la santé publique doit cependant rendre la démarche plus homogène et systématique, et développer des outils spécifiques répondant aux exigences des standards et de l’interopérabilité (ces deux points seront définis plus loin).
Focus : les missions de France Cohortes
L’une des missions de France Cohortes, infrastructure nationale de recherche dédiées aux cohortes françaises, est d’accroître la visibilité, la réutilisation et la diffusion des études, données et recherches longitudinales sur la santé des populations, tout en garantissant la stricte protection des données des personnes qui acceptent de les confier à la recherche.
L’infrastructure favorise de ce fait la diffusion et la mise en œuvre de la démarche FAIR au sein des cohortes qu’elle accompagne.
Il s’agit, pour France Cohortes, de répondre à deux enjeux :
- représenter les cohortes dans la structuration de la démarche FAIR pour les disciplines des sciences pour la santé en France,
- mettre en œuvre cette démarche au sein de l’infrastructure avec des outils organisationnels et techniques dédiés.
Les vertus de la démarche FAIR
Face à la massification des données de la recherche dans le monde numérique, appliquer les principes FAIR à toutes les étapes du cycle de vie des données de son projet relève de l’exigence scientifique.
En mettant à disposition leurs données, la documentation et les méthodes, les chercheurs permettent à d’autres chercheurs de reproduire des résultats et des interprétations, et renforcent de facto la confiance dans les résultats de la recherche.
Par ailleurs, en facilitant la réutilisation de leurs données, les cohortes sont plus visibles et se donnent l’opportunité d’être davantage reconnues. Elles peuvent ainsi accroître leur rayonnement, notamment auprès des organismes financeurs.
Inscrire les données produites par les cohortes dans une démarche FAIR est donc un prérequis nécessaire pour faire avancer la science.
Un second article présente les pistes de progression offertes aux cohortes de santé publique accompagnées par France Cohortes.
Accéder au deuxième article (avancer ensemble).
---------
Notes :
[1] Pour plus de détails :
Définition des principes FAIR issue du site de Doranum :https://doranum.fr/enjeux-benefices/principes-fair_10_13143_z7s6-ed26/ DOI : 10.13143/z7s6-ed26
Présentation interactive des principes FAIR sur le site URFIST Méditerranée : https://view.genial.ly/5d64fbbd8352350fa3d22603/interactive-content-les-principes-fair
Présentation des principes FAIR sur le site GO FAIR : https://www.go-fair.org/fair-principles/
[2] Définition fournie par l’Institut Français de Bioinformatique, dans sa formation introductive à la démarche FAIR.
[3] Contribution de l'ITMO Santé publique Aviesan Inserm à la commission "Open Data en santé"