Maîtriser les outils d’analyse des données de la recherche

Module 2.1 : Extraire les données

  • Pratiques de collecte et encodage des données textuelles

Une grande partie de l’information que les êtres humains produisent est représentée sous forme de données textuelles non structurées. Numériser, collecter, gérer et encoder ces données est fondamental pour pouvoir avoir accès et exploiter cette connaissance, non seulement avec une lecture séquentielle, mais aussi par la voie d’outils numériques d’exploration outillée, ainsi que d’algorithmes de traitement du langage naturel et d’extraction d’information.

Le module « Pratiques de collecte et encodage des données textuelles» vise à présenter aux étudiants le cycle de vie des corpus textuels, de la collecte à l’exploitation, avec des exemples concrets tirés de projets en cours et de récente publication.

Les étudiants apprendront les notions de « ressource linguistique » et seront capables de comprendre comment les principes FAIR s’appliquent à la gestion de ce type de données. A la fin du cours ils seront capables de repérer des corpus textuels déposés dans des entrepôts numériques, d’en comprendre les métadonnées et formats d’encodage et d’accéder à leur contenu.

Sur le plan pratique, nous allons travailler sur les corpus ParlaMint, une collection de corpus parlementaires comparables, créés pour étudier les discours parlementaires en Europe avant et après la période Covid. Le format d’encodage XML sera présenté pour mieux comprendre les enjeux d’interopérabilité, et les étudiants testeront des requêtes parallèles sur le corpus de l’Assemblée nationale ainsi que sur les données d’autres pays à travers l’interface d’interrogation dédiée.

  • Intégrité scientifique pour une science responsable

Face aux grands défis auxquels sont confrontées nos sociétés à l’aube du millénaire, la Science a son mot à dire. Pour autant, la méthode scientifique est-elle vraiment appropriée par nos concitoyens et les représentants politiques ? Jusqu’à quel point lui font-ils confiance ? Cette confiance n’a-t-elle pas été entachée par de retentissantes affaires de fraude ? Ayant récemment pris conscience de « l’éléphant au milieu de la pièce », la recherche française est en train de se doter d’un dispositif de consolidation de l’intégrité scientifique.

  • Compétences :

– Envisager les enjeux et les conditions de réalisation d’une science responsable, notamment en contexte de science ouverte

– Distinguer les notions d’éthique de la recherche, d’intégrité scientifique, et de conformité légale

– Faire le point sur la mise en place du dispositif national en matière d’intégrité scientifique

  • Intégrité scientifique et procédure administrative
  • Intégrité technique des données – Les objets connectés
  • Intégrité scientifique et propriété intellectuelle


Module 2.2 : Gérer les données et les métadonnées

  • Construire et gérer les métadonnées

Dans ce module nous couvrirons un ensemble de concepts et de technologies pour structurer sémantiquement les données ou métadonnées. Nous introduirons les principes sous-jacents à la gestion des métadonnées (URI, cycle de vie, qualité, standards, etc.) et aux principes des données FAIR (Facile à trouver, Accessible, Interopérable et Réutilisable). Puis, nous présenterons les concepts généraux des approches « données ouvertes » et « données liées » et introduirons le domaine du Web sémantique en s’appuyant sur les technologies sous-jacentes (RDF, SPARQL). Enfin, nous présenterons les différents types de ressource sémantiques (vocabulaires, terminologies, ontologies) et leur technologies (RDFS, OWL) et introduirons rapidement les principes de l’ingénierie ontologique avant d’illustrer l’usage des ontologies à travers des plateformes spécialisées (e.g., AgroPortal).

  • Le métier de Data Scientist

Il se dit que le métier de data scientist serait le plus sexy du siècle, et aujourd’hui on ne compte plus les formations continues, courtes, reconversions avec comme intitulé data science.  Mais finalement en quoi consiste ce métier? Quelle est la différence entre le bon et le mauvais data scientist?

Ce cours collaboratif, qui utilisera les expériences de chacun, va apporter des éléments pour pouvoir trouver des réponses, parce que oui cela serait trop simple si il y avait une seule et unique bonne réponse.

L’objectif de ce cours est de comprendre toutes les facettes du métier de data scientist parce que si avoir des connaissances scientifiques semble évident, il faut beaucoup d’autres compétences, et certaines sont loin d’être évidentes.

Ce regard nouveau sur le métier de data scientist, vous permettra de définir vos pistes à suivre, et les impasses à éviter  dans votre carrière.

  • Pérenniser les données


Module 2.3 : Explorer et analyser les données

  • Fouiller des textes et des données

L’exploitation des données pour en extraire des connaissances nouvelles et applicables est en enjeu majeur dans tous les domaines scientifiques.

Ce module permet en premier lieu de présenter les principales catégories de méthodes en fonction du type de données manipulées (e.g. numériques ou symboliques), les principales tâches de fouille de données (apprentissage supervisé, non supervisé, extraction de motifs, …) et les principaux enjeux (e.g. passage à l’échelle).

Ces méthodes sont replacées dans le paysage plus large de l’intelligence artificielle. Une attention particulière est portée à la présentation des méthodes d’évaluation de la qualité.

Le module inclut la manipulation de quelques méthodes à l’aide d’un outil simple à prendre en main  et ne nécessitant pas de compétence en programmation.

  • A la fin de ce cours, vous saurez :

– orienter le choix d’une méthode de fouille de données adaptée au problème et aux données,

– repérer l’enchaînement des actions de préparation et de traitement des données à réaliser,

– mettre en œuvre quelques unes des méthodes de fouille de données avec un outil simple sur des données simples,

– évaluer une méthode de fouille de données sur un problème donné.

  • Techniques de fouille

L’analyse des masses de données textuelles nécessite l’utilisation de méthodes mêlant harmonieusement différentes disciplines comme l’informatique, la linguistique ou les statistiques. L’ensemble de ces méthodes utiles pour traiter de telles données, souvent hétérogènes, forme le socle de la Science des Données Textuelles. Dans ce cadre, les approches de fouille de textes permettent de découvrir des connaissances utiles pour des experts issus généralement de différents domaines (santé, agriculture, etc.). Ce module présentera les fondements des approches proposées et leur mise en œuvre à travers l’utilisation de différents outils et méthodologies dans le contexte de plusieurs projets pluridisciplinaires autour des thématiques de sécurité alimentaire et One Health (une seule santé).

Les méthodes de fouille de textes mobilisent les approches éprouvées de fouille de données (cf. première partie du module) en y intégrant des traitements dédiés et des représentations spécifiquement adaptées aux données textuelles. Cet enseignement décrira des méthodes de fouille de textes qui seront appliquées à deux tâches spécifiques, à savoir l’extraction de la terminologie à partir de textes et la classification automatique de données textuelles. L’enseignement permettra d’acquérir des compétences sur les concepts fondamentaux de Science des Données Textuelles en y adossant un volet applicatif via la présentation d’outils et méthodes dédiées.

  • Fouiller des textes et des données. Extraction et partage d’information
  • Exploration de textes – ISTEX/Gargantext

Chaque année, le monde de la recherche accélère et développe sa production scientifique.

L’apport massif de données et de publications, associé à la multiplication des canaux de diffusion, complexifie l’exploration de la littérature scientifique.

En 2018, la production scientifique annuelle dépassait les 3 millions d’articles publiés dans plus de 33 100 journaux d’éditeurs scientifiques [STM Report, 2018].

Une étude du journal Nature Research révèle qu’un article sur cinq n’est jamais cité parmi plus de 39 millions d’articles de recherche référencés dans le Web Of Science entre 1900 à fin 2015.

Par ailleurs, le taux de citation s’accompagne d’une augmentation du nombre de références bibliographiques dans les articles qui sont passés en moyenne de 25 références en 2000 à plus de 40 références en 2015 [The science that’s never been cited, 2018].

Pour suivre cette augmentation de volumétrie, les équipes de recherche du CNRS développent des outils et des services de visualisation et de fouille de textes.

Ces logiciels ont pour objectif d’assister les acteurs de la recherche dans la constitution de corpus, l’analyse documentaire et l’extraction d’information.

Lors de cette formation, les participants pourront améliorer leurs connaissances des enjeux et des ressources liés à la fouille de texte et de données

Les ateliers pratiques permettront aux participants de manipuler des plateformes et des logiciels en explorant des cas d’usage concrets :

–          La plateforme ISTEX qui est un réservoir de plus de 23 millions de ressources pluridisciplinaires à destination des personnels de l’ESR

–          La cartographie GarganText pour visualiser et naviguer dans les concepts et les mots-clés de corpus documentaire.

  • Exception de TDM (droit d’auteur/droit des bases de données)

Module 2.4 : Sécuriser les données

  • Sécurisation technique des données (cloud, serveurs, localisation, etc.)
  • Sécurisation juridique des données (confidentialité/PI)

Module 2.5 : Protéger les données personnelles

  • RGPD et exception de recherche

L’objectif du cours est d’assimiler les atouts et les contraintes liés à la protection des données à caractère personnel dans le cadre de la recherche scientifique.

L’état actuel du droit s’explique par un changement de paradigme initié par le Règlement Général sur la Protection des Données (RGPD).

Ce texte a profondément bouleversé, non seulement, les procédures à mettre en oeuvre dans le cadre de la recherche (autorisation CNIL qui peuvent encore subsister, Analyses d’impact sur la protection des données, registre des activités de traitement…), mais encore, a totalement refondu la philosophie du droit des données à caractère personnel.

Le RGPD étant encore récent, nous n’avons qu’un retour d’expérience parcellaire sur son application. Il est donc nécessaire de comprendre quelle était la philosophie du droit puis pourquoi et comment elle a évolué.

Dans le même temps, la Commission Nationale de l’Informatique et des Libertés (CNIL) affine sa doctrine (et non sa jurisprudence puisque ce n’est pas une juridiction), mais la connaissance de ses délibérations rendues avant le RGPD est encore utile pour lever les zones d’ombre auxquels les chercheurs publics et privés peuvent être confrontés.

Si l’objet du cours est d’apporter une connaissance immédiatement opérationnelle, cet apport pour perdurer s’appuie sur une approche théorique dans le but de permettre aux personnes qui le suivent de raisonner en droit des données à caractère personnel.

  • Anonymiser les données – L’appariement des données de santé

Les données de santé ont un potentiel considérable pour la recherche, l’innovation et l’amélioration de la prise en charge des patients, notamment lorsque l’on parvient à intégrer différentes sources de données.

Mais leur caractère intrinsèquement personnel et sensible fait courir des risques de ré-identification et d’usage non souhaité.

Ainsi, il existe une tension permanente entre le besoin d’exploiter et intégrer des données de santé et l’impératif de confidentialité.

  • A la fin de ce cours, vous saurez :
  • – Quelles sont les principales bases de données de santé françaises et les enjeux associés ;
  • – Pourquoi il peut être utile d’apparier plusieurs bases de données de santé pour la recherche et la santé publique ;
  • – Quel est le pouvoir de ré-identification des bases nationales de données de santé hospitalière ;
  • – Quelles sont les principales méthodes d’anonymisation des données de santé.
  • Grégoire Mercier
  • RGPD et données de santé

Le régime actuel de la protection des données personnelles résulte de la combinaison d’’un règlement européen (le RGPD de l’UE entré en vigueur le 25 mai 2018) et de la loi nationale Informatique et libertés de 1978 modifiée. Des dispositions spécifiques aux « données concernant la santé » sont inscrites dans le règlement européen, auxquelles la loi française ajoute des conditions supplémentaires.

L’objectif de cet enseignement est d’introduire aux notions clés de la protection des données personnelles en focalisant sur cette catégorie particulière que sont les données de santé. Les dispositions sur les recherches mobilisant des données de santé sont également traitées.

  • Compétences :

Maîtriser les notions essentielles de la protection des données personnelles — et des données de santé, en particulier ;

– Identifier les acteurs du traitement et leurs responsabilités ;

– Connaître les droits des personnes concernées et les conditions de leur information ;

– Identifier les procédures de déclaration ou de demande d’autorisation de traitement et les conditions de leur mise en œuvre.