« En tant que cohorte pilote, nous avons appris à construire un environnement et à parler un langage commun »

A l’occasion de la campagne test de recueil de données menée par la cohorte Elfe auprès d’adolescents de 15 ans, nous avons rencontré deux acteurs clefs de la cohorte Elfe avec qui France Cohortes interagit régulièrement, pour les interviewer sur leur travail et leur collaboration avec l'infrastructure nationale. Il s’agit d’Iris Hourani, datamanager, et de Thierry Siméon, responsable du pôle gestion de données et statistiques de la cohorte Elfe, et responsable technique dans le cadre de la collaboration avec France Cohortes.
Iris Hourani et Thierry Siméon posent en souriant, devant une affiche de la cohorte Elfe

Vous avez récemment lancé une campagne pilote pour collecter des données auprès d'adolescents de 15 ans. En tant que datamanager, quel était votre rôle ?

Iris Hourani :

C'est notre première collecte complète avec les outils de France Cohortes. Nous avons organisé la mise à disposition des questionnaires, la collecte, et préparé le traitement et le stockage des réponses.

 

« C'est notre première collecte complète avec les outils de France Cohortes. » Iris Hourani

 

Au sein de l’équipe Elfe, nous avons créé une nouvelle base de contacts, avec notamment un travail sur la notion de famille qui est cruciale dans la cohorte, puisque nous interrogeons aussi les parents. C’est un point important dans la gestion d’une cohorte, et son adaptation était le point essentiel avant d’engager cette collecte.

Nous avons développé les questionnaires et le portail de connexion. Nous avons également mis en place un processus de recueil des consentements pour interroger directement les enfants après autorisation des parents.

 
Pouvez-vous expliquer comment vous collectez, stockez et assurez la qualité des données ?

Iris Hourani :

Jusqu'à présent, les collectes se faisaient en dehors de France Cohortes, par des organismes spécialisés ou via des questionnaires en ligne internes.
Une fois les données collectées, nous les apurons [1] en les vérifiant, recodons certaines variables, assurons l'anonymat, et créons des scores avec l'aide de chercheurs d'Elfe. Ce processus est continu, car il s'adapte aux besoins des chercheurs. Nos bases de données évoluent constamment pour s'améliorer.

 

« Toutes les données collectées au cours des 10 dernières années sont actuellement stockées sur un serveur sécurisé de France Cohortes. » Thierry Siméon


Thierry Siméon :

Toutes les données collectées au cours des 10 dernières années sont actuellement stockées sur un serveur sécurisé de France Cohortes dédié à Elfe. Nous les transférons progressivement dans les bulles sécurisées de travail du datamanager depuis mi-2023.

 
La confidentialité et la sécurité des données sont essentielles. Comment abordez-vous ces questions pour protéger les données des participants et respecter les réglementations ?

Thierry Siméon :

Chaque enquête respecte la réglementation de la commission nationale pour l’informatique et la liberté (CNIL), des autres autorités compétentes selon le type d’enquête et du règlement général sur la protection des données (RGPD).

 

« La sécurité des données est notre priorité. » Thierry Siméon

 

La sécurité des données est notre priorité, ce qui signifie que nous pseudononymisons [2]. Nous ne partageons pas de données potentiellement identifiantes, nous supprimons les données des non-consentants, nous détruisons les données sur demande, et nous respectons le désengagement des participants.

Toute déclaration à la CNIL sera faite en collaboration avec France Cohortes sur les sujets de sécurité et de stockage des données.

 
Votre contribution permettra de lancer les services de traitement et d'analyse de données de France Cohortes. Pouvez-vous expliquer les étapes clés pour préparer les données et les rendre accessibles aux chercheurs ?

Iris Hourani :

Avant cela, il faut que le processus de préparation et de mise à disposition des données aux chercheurs soit pleinement mis en place. Cela implique de documenter les données conformément au format retenu par France Cohortes, de renseigner un catalogue de données complet pour que les chercheurs puissent sélectionner les données pertinentes pour leurs projets, lesquels projets seront évalués par des comités d'accès aux données. Enfin, il faudra générer et mettre à disposition les bases avec les variables autorisées dans l’environnement sécurisé.

 

Les données de la cohorte Elfe sont variées et complexes. Comment votre équipe gère-t-elle la normalisation et la structuration de ces données pour faciliter les analyses ultérieures ?

Thierry Siméon :

La normalisation (ou l’organisation) et la structuration des données dans Elfe dans France Cohortes sont des sujets à venir.
Au cours des 10 dernières années, nous avons travaillé sur la structuration interne et la documentation, en suivant les bonnes pratiques, notamment pour la mise à disposition des questionnaires et des métadonnées.

Nous organisons nos bases en fonction des répondants et des sources, en y ajoutant des bases de données complémentaires issues d’enquêtes thématiques particulières (ex . croissance, neuro-développement de l’enfant), ou des données techniques (recodage des professions selon des nomenclatures spécifiques par exemple). En termes de documentation, nous produisons un catalogue de données interne avec notre propre nomenclature.

 

« La sécurisation des données, la normalisation et la structuration de nos processus et de nos données seront grandement optimisées grâce à France Cohortes. »  Thierry Siméon

 

La sécurisation des données, la normalisation et la structuration de nos processus et de nos données seront grandement optimisées grâce à France Cohortes, avec l'objectif d'adopter une nomenclature commune à d'autres cohortes, voire internationale. En 2024, notre principal projet sera le catalogage et la création de métadonnées en collaboration avec France Cohortes.


Le service de mise à disposition des données auprès des chercheurs est en cours d'implémentation dans France Cohortes. Comment allez-vous les aider à traiter et analyser des données, et comment travaillerez-vous avec eux pour en optimiser l'utilisation ?

Thierry Siméon :

Nous soutenons les chercheurs en les aidant à analyser des données parfois complexes et en répondant à des questions méthodologiques. De plus, nous fournissons des pondérations aux données ou des méthodes de calcul de précision, en raison du caractère spécifique du plan de sondage d'Elfe.

Iris Hourani :

Pour faciliter l’exploitation de certaines données complexes, notre équipe Elfe collabore étroitement avec des chercheurs issus de disciplines variées. Ils créent des variables construites ou des indicateurs validés. Ces experts documentent ces données, qui sont ensuite partagées avec d'autres équipes.

Nous proposons par ailleurs l’appariement de plusieurs bases contextuelles, telles que les variables d’urbanisation, socio-démographiques ou socio-économiques construites par l’Insee, en veillant à la granulométrie des variables pour éviter la ré-identification par ces données.

 
Les technologies et les méthodes évoluent rapidement dans le domaine de la gestion des données. Comment vous assurez-vous que les pratiques et les outils que vous utilisez restent à jour et conformes aux meilleures pratiques ?


Iris Hourani :

Nous nous adaptons en apprenant de nouveaux langages, comme R et Python, qui sont de plus en plus utilisés et conformes à la démarche FAIR.

L'intégration à France Cohortes devrait simplifier cette transition en gérant les données avec un ETL (Extract Transform Load, un logiciel traitant des données issues de sources multiples pour les convertir dans un format adapté et les transférer dans un espace de stockage), et en utilisant la suite Jupyter (pour Julia, Python, R). Cela améliorera la traçabilité des processus de gestion des données et les rendra plus accessibles au public.


Dans ce projet, que considérez-vous comme étant le plus gratifiant jusqu'à présent ?

Iris Hourani :

Le fait de participer à ce projet en tant que cohorte pilote est globalement gratifiant.

 

« [...] le fait d’avoir pu aider sur les dernières tâches liées à la conception de la bulle sécurisée de travail [...] est un point important et auquel nous sommes fiers d’avoir contribué. » Iris Hourani


 
D’un point de vue du datamanagement, le fait d’avoir pu aider sur les dernières tâches liées à la conception de la bulle sécurisée de travail, et plus précisément sur le modèle de données à mettre en place est un point important et auquel nous sommes fiers d’avoir contribué.
 

En tant que membre d’une cohorte pilote, quelles sont les principales leçons que vous avez apprises des différents échanges que vous avez eu avec France Cohortes lors de sa mise en place ?

Thierry Siméon :

Après des mois de préparation théorique, le passage à une véritable collecte de données a marqué un tournant dans notre collaboration.

En tant que cohorte pilote, nous avons appris à construire ensemble un environnement et à parler un langage commun avec France Cohortes. Cela a permis à l’infrastructure nationale de mieux comprendre les besoins d'une cohorte, en particulier d'Elfe, qui dispose de plus de 10 ans de données et de méthodes.

 

« Nous avons appris à construire ensemble un environnement, et à parler un langage commun. » Thierry Siméon

 

De notre côté, nous avons appris à comprendre les contraintes techniques, de sécurité, et de normalisation, ainsi que la nécessité de développer des outils pour l'ensemble des cohortes actuelles et futures.

Si notre travail avec France Cohortes profite à toutes les cohortes et permet aux futurs utilisateurs, que ce soit du côté des cohortes, des participants, des datamanagers ou des chercheurs, de fonctionner efficacement, alors notre rôle de cohorte pilote aura été un succès !

 

---
[1] L'apurement est une étape lors de laquelle le fichier de données de l'enquête subit une multitude de contrôles et de tests de cohérence afin d'en améliorer la qualité. (Définition INED)

[2] La pseudonymisation consiste à remplacer les données directement identifiantes (nom, prénoms, etc.) d’un jeu de données par des données indirectement identifiantes (alias, numéro séquentiel, etc.). La pseudonymisation permet ainsi de traiter les données d’individus sans pouvoir identifier ceux-ci de façon directe. (Définition CNIL)

 

Autres contenus en lien avec cet article :

 

 

Propos recueillis par Guillemette Pardoux

Photo : Elfe