Comprendre l’environnement des données de la recherche

La première partie de la formation permet de comprendre l’environnement des données de la recherche:

  • Qu’est-ce que la recherche collaborative ?
  • Comment financer une recherche orientée vers la collecte et l’analyse de données ?
  • Quelles sont les stratégies de développement de projets de data science ?
  • Quelles sont les règles juridiques et/ou de gouvernance qui s’appliquent aux données ?

Elle se décline en trois modules :

  • Infrastructures de données, réseaux, plateformes, etc. (cartographie)

Ce cours introductif s’inscrit dans l’objectif général de compréhension de l’environnement des données dans le domaine scientifique. Il vise à dresser un état global des dispositifs actuels permettant de donner accès aux résultats et données de la recherche, en cherchant à identifier aussi bien les acteurs concernés que les logiques à l’œuvre au niveau national et international.

Les données de la recherche ont tendance à être considérées comme un objet en soi. Or, elles s’inscrivent dans l’écosystème plus général de construction et de diffusion de la science. Ce cours a donc pour objectif de cartographier la place des données de la recherche au sein de cet écosystème pour mieux identifier non seulement les infrastructures, réseaux et plateformes, mais aussi les acteurs, notions et enjeux qui sous-tendent les problématiques liées à la gestion des données de la recherche et qui seront approfondis dans les cours suivants.

Compétences :

– Définir les notions et éléments clés permettant d’appréhender les enjeux liés à la gestion des données de la recherche ;

– Inscrire ces enjeux dans le paysage global de la production et de la diffusion des résultats de la recherche ;

– Identifier les réseaux et infrastructures utiles dans le cadre des activités de gestion des données de la recherche

  • Qu’est-ce que l’open access/ l’open science ? Un regard sur la fabrique des politiques publiques de la recherche

Durant cette séance, nous allons replacer les enjeux de gestion et d’ingénierie des données dans le contexte plus général de la construction de politiques publiques de recherche orientées vers la science ouverte. Des premières initiatives autour du libre accès/accès ouvert (open access) jusqu’aux dernières mesures annoncées en France sur la science ouverte (PNSO2), nous découvrirons les différentes facettes de la science ouverte/open science. Ce premier cours d’introduction vous permettra de mieux vous repérer dans une diversité de problématiques que recoupent l’open science, de cerner les points de frictions entre différentes parties prenantes dans le cas de l’open access et d’en appréhender les enjeux juridiques (droits de la propriété intellectuelle) et économiques associées (modèles économiques, place des données). Une large place sera laissée aux échanges pour permettre également aux participant.e.s en ce début de DU de se connaître et de faire part de leurs expériences/premier contact avec la science ouverte.

Pré-requis : aucun si ce n’est avoir la possibilité de vous connecter avec le son et la vidéo pour les échanges en cours (format interactif)

A la fin du cours, vous aurez été familiarisé.e.s avec :

– quelques dates clefs de l’open access, de l’open science et des politiques publiques de recherche asssociées

– quelques parties prenantes de l’open science/open access et des frictions/alliances associées

– différents acronymes employés aujourd’hui sur l’open access/open science (DMP, APC, RoR, PNSO etc.)

– des enjeux juridiques, économiques et organisationnels sous-jacents à l’open access (modèle économique, usage de licences, gouvernance, communs)

– l’utilisation du langage markdown pour des documents collaboratifs et des présentations

Pour participer à ce module, il faut obligatoirement suivre les modules suivants : « Module 1.2 : Recherche, gouvernance et données » et « Module 1.3 : Données, innovation et droit ».

  • Gouvernance des données
  • L’institut de la science des données de Montpellier (ISDM)

Les données de la recherche font appel à de nombreuses compétences et métiers variés, aux usages et langages hétérogènes, de la gestion à l’analyse. Les outils de la science des données offrent de nombreuses opportunités. Cependant, ces outils sont parfois méconnus par les usagers ou producteurs de données, sans nécessairement appréhender correctement leur potentiel et/ou leurs limites, manquant de compétences en interne. Il apparaît alors la nécessité de proposer un centre de compétences autour de la donnée dans une organisation, en service support.

Dans ce cours, nous aborderons la diversité des aspects liés à la science des données, ainsi que leur gestion, et la structuration d’un centre de compétences correspondant. Après un aperçu des structures au niveau national et international, nous présenterons le cas de l’Institut de la Science des Données de Montpellier, inauguré en janvier 2020.

Compétences :

– Appréhender la diversité des métiers et des acteurs liés à la donnée;

– Connaître des exemples de structuration de centres de compétences « données » au niveau national et international;

– Gérer la variété des interlocuteurs et métiers sur un projet lié à la donnée.

  • Research Data Alliance (RDA)

La Research Data Alliance (RDA, https://www.rd-alliance.org/) est une organisation internationale dont l’objectif est de faciliter le partage des données de la recherche. Elle compte plus de 12 000 membres venant de 145 pays. C’est un forum international unique, dont une des richesses est la diversité des profils des participants (chercheurs, gestionnaires de projets, personnels des bibliothèques, ingénieurs informaticiens, curateurs de données, personnes qui travaillent dans des ministères ou des agences de financement, etc). La diversité des sujets qu’elle aborde, qui couvrent de nombreux aspects du partage des données qui peuvent être techniques ou sociologiques, ou une combinaison des deux, est également remarquable. Ces sujets sont proposés par les membres de la communauté, et pris en charge par des Groupes d’Intérêt, qui sont constitués sur la durée, et des Groupes de Travail mis en place sur une durée limitée pour préparer des recommandations. La RDA est soutenue par la France dans le cadre du Plan National pour la Science Ouverte (https://www.rd-alliance.org/groups/rda-france), et son chapitre français RDA France, développé par le CNRS, regroupe une communauté qui est aussi très diverse. Le séminaire présentera la RDA et RDA France, leurs communautés et leurs activités, montrera comment participer à celles-ci, et donnera des exemples des travaux et des recommandations de la RDA dans différents domaines.

Pour participer à ce module, il faut avoir obligatoirement suivi les modules suivants : « Module 1.1 : Territoires, innovation et financement » et suivre le « Module 1.3 : Données, innovation et droit ».

Ce module permet, à travers la résolution d’un cas pratique qui sera déployé sur deux jours, de présenter les principales règles qui s’appliquent aux données de la recherche scientifique. Les règles seront appréhendées sous l’angle du droit français et du droit européen.

  • Protéger les innovations fondées sur les données

Il s’agit tout d’abord de présenter et de comprendre les règles qui s’appliquent lorsque les données constituent des innovations (bases de données ou logiciels) susceptibles d’être privatisées via les droits de propriété intellectuelle en cas de partenariat public/privé en matière de recherche-développement.

  • Libérer les données de la recherche (open science)

Il s’agit ensuite de présenter les règles qui s’appliquent aux données de la recherche scientifique en tant que données publiques (open data), c’est-à-dire produites ou reçues par une administration et de comprendre les enjeux de la politique d’ouverture des données publiques.

A la fin de ce cours, vous saurez :

– Expliquer les enjeux de la science ouverte au prisme du droit positif ;

– Orienter le choix des règles à appliquer aux jeux de données de la recherche ;

– Mettre en œuvre les méthodes de raisonnement en droit des données de la recherche.

Pour participer à ce module, il faut obligatoirement suivre le module suivant : « Module 3.4 : Valoriser et réutiliser les données »

  • Pascal Bonnet
  • Sandrine Gropp
  • Françoise Genova
  • Célya Gruson-Daniel
  • Agnès Robin
  • Kenneth Maussang

Plus d’infos sur les intervenants

Maîtriser les outils d’analyse des données de la recherche

La deuxième partie de la formation permet de se former à la maîtrise des outils d’analyse des données de la recherche, c’est-à-dire les outils destinés à extraire, contextualiser, fouiller, sécuriser et protéger les données.

Elle se décline en cinq modules :

  • Reproductibilité des résultats de la recherche
  • Pratiques de collecte et encodage des données textuelles

Une grande partie de l’information que les êtres humains produisent est représentée sous forme de données textuelles non structurées. Numériser, collecter, gérer et encoder ces données est fondamental pour pouvoir avoir accès et exploiter cette connaissance, non seulement avec une lecture séquentielle, mais aussi par la voie d’outils numériques d’exploration outillée, ainsi que d’algorithmes de traitement du langage naturel et d’extraction d’information.

Le module « Pratiques de collecte et encodage des données textuelles » vise à présenter aux étudiants le cycle de vie des corpus textuels, de la collecte à l’exploitation, avec des exemples concrets tirés de projets en cours et de récente publication.

Les étudiants apprendront les notions de « ressource linguistique » et seront capables de comprendre comment les principes FAIR s’appliquent à la gestion de ce type de données. A la fin du cours ils seront capables de repérer des corpus textuels déposés dans des entrepôts numériques, d’en comprendre les métadonnées et formats d’encodage et d’accéder à leur contenu.

Sur le plan pratique, nous allons travailler sur les corpus ParlaMint, une collection de corpus parlementaires comparables, créés pour étudier les discours parlementaires en Europe avant et après la période Covid. Le format d’encodage XML sera présenté pour mieux comprendre les enjeux d’interopérabilité, et les étudiants testeront des requêtes parallèles sur le corpus de l’Assemblée nationale ainsi que sur les données d’autres pays à travers l’interface d’interrogation dédiée.

  • Intégrité scientifique pour une science responsable

Face aux grands défis auxquels sont confrontées nos sociétés à l’aube du millénaire, la Science a son mot à dire. Pour autant, la méthode scientifique est-elle vraiment appropriée par nos concitoyens et les représentants politiques ? Jusqu’à quel point lui font-ils confiance ? Cette confiance n’a-t-elle pas été entachée par de retentissantes affaires de fraude ? Ayant récemment pris conscience de « l’éléphant au milieu de la pièce », la recherche française est en train de se doter d’un dispositif de consolidation de l’intégrité scientifique.

Compétences :

– Envisager les enjeux et les conditions de réalisation d’une science responsable, notamment en contexte de science ouverte

– Distinguer les notions d’éthique de la recherche, d’intégrité scientifique, et de conformité légale

– Faire le point sur la mise en place du dispositif national en matière d’intégrité scientifique

  • Intégrité scientifique et procédure administrative
  • Intégrité technique des données – Les objets connectés
  • Intégrité scientifique et propriété intellectuelle
  • Construire et gérer les métadonnées

Dans ce module nous couvrirons un ensemble de concepts et de technologies pour structurer sémantiquement les données ou métadonnées. Nous introduirons les principes sous-jacents à la gestion des métadonnées (URI, cycle de vie, qualité, standards, etc.) et aux principes des données FAIR (Facile à trouver, Accessible, Interopérable et Réutilisable). Puis, nous présenterons les concepts généraux des approches « données ouvertes » et « données liées » et introduirons le domaine du Web sémantique en s’appuyant sur les technologies sous-jacentes (RDF, SPARQL). Enfin, nous présenterons les différents types de ressource sémantiques (vocabulaires, terminologies, ontologies) et leur technologies (RDFS, OWL) et introduirons rapidement les principes de l’ingénierie ontologique avant d’illustrer l’usage des ontologies à travers des plateformes spécialisées (e.g., AgroPortal).

  • Le métier de Data Scientist

Il se dit que le métier de data scientist serait le plus sexy du siècle, et aujourd’hui on ne compte plus les formations continues, courtes, reconversions avec comme intitulé data science.  Mais finalement en quoi consiste ce métier? Quelle est la différence entre le bon et le mauvais data scientist?

Ce cours collaboratif, qui utilisera les expériences de chacun, va apporter des éléments pour pouvoir trouver des réponses, parce que oui cela serait trop simple si il y avait une seule et unique bonne réponse.

L’objectif de ce cours est de comprendre toutes les facettes du métier de data scientist parce que si avoir des connaissances scientifiques semble évident, il faut beaucoup d’autres compétences, et certaines sont loin d’être évidentes.

Ce regard nouveau sur le métier de data scientist, vous permettra de définir vos pistes à suivre, et les impasses à éviter  dans votre carrière.

  • Pérenniser les données
  • Fouiller des textes et des données

L’exploitation des données pour en extraire des connaissances nouvelles et applicables est en enjeu majeur dans tous les domaines scientifiques.

Ce module permet en premier lieu de présenter les principales catégories de méthodes en fonction du type de données manipulées (e.g. numériques ou symboliques), les principales tâches de fouille de données (apprentissage supervisé, non supervisé, extraction de motifs, …) et les principaux enjeux (e.g. passage à l’échelle).

Ces méthodes sont replacées dans le paysage plus large de l’intelligence artificielle. Une attention particulière est portée à la présentation des méthodes d’évaluation de la qualité.

Le module inclut la manipulation de quelques méthodes à l’aide d’un outil simple à prendre en main  et ne nécessitant pas de compétence en programmation.

A la fin de ce cours, vous saurez :

– orienter le choix d’une méthode de fouille de données adaptée au problème et aux données,

– repérer l’enchaînement des actions de préparation et de traitement des données à réaliser,

– mettre en oeuvre quelques unes des méthodes de fouille de données avec un outil simple sur des données simples,

– évaluer une méthode de fouille de données sur un problème donné.

  • Techniques de fouille

L’analyse des masses de données textuelles nécessite l’utilisation de méthodes mêlant harmonieusement différentes disciplines comme l’informatique, la linguistique ou les statistiques. L’ensemble de ces méthodes utiles pour traiter de telles données, souvent hétérogènes, forme le socle de la Science des Données Textuelles. Dans ce cadre, les approches de fouille de textes permettent de découvrir des connaissances utiles pour des experts issus généralement de différents domaines (santé, agriculture, etc.). Ce module présentera les fondements des approches proposées et leur mise en œuvre à travers l’utilisation de différents outils et méthodologies dans le contexte de plusieurs projets pluridisciplinaires autour des thématiques de sécurité alimentaire et One Health (une seule santé).

Les méthodes de fouille de textes mobilisent les approches éprouvées de fouille de données (cf. première partie du module) en y intégrant des traitements dédiés et des représentations spécifiquement adaptées aux données textuelles. Cet enseignement décrira des méthodes de fouille de textes qui seront appliquées à deux tâches spécifiques, à savoir l’extraction de la terminologie à partir de textes et la classification automatique de données textuelles. L’enseignement permettra d’acquérir des compétences sur les concepts fondamentaux de Science des Données Textuelles en y adossant un volet applicatif via la présentation d’outils et méthodes dédiées.

  • Fouiller des textes et des données. Extraction et partage d’information
  • Exploration de textes – ISTEX/Gargantext

Chaque année, le monde de la recherche accélère et développe sa production scientifique.

L’apport massif de données et de publications, associé à la multiplication des canaux de diffusion, complexifie l’exploration de la littérature scientifique.

En 2018, la production scientifique annuelle dépassait les 3 millions d’articles publiés dans plus de 33 100 journaux d’éditeurs scientifiques [STM Report, 2018].

Une étude du journal Nature Research révèle qu’un article sur cinq n’est jamais cité parmi plus de 39 millions d’articles de recherche référencés dans le Web Of Science entre 1900 à fin 2015.

Par ailleurs, le taux de citation s’accompagne d’une augmentation du nombre de références bibliographiques dans les articles qui sont passés en moyenne de 25 références en 2000 à plus de 40 références en 2015 [The science that’s never been cited, 2018].

Pour suivre cette augmentation de volumétrie, les équipes de recherche du CNRS développent des outils et des services de visualisation et de fouille de textes.

Ces logiciels ont pour objectif d’assister les acteurs de la recherche dans la constitution de corpus, l’analyse documentaire et l’extraction d’information.

Lors de cette formation, les participants pourront améliorer leurs connaissances des enjeux et des ressources liés à la fouille de texte et de données

Les ateliers pratiques permettront aux participants de manipuler des plateformes et des logiciels en explorant des cas d’usage concrets :

–          La plateforme ISTEX qui est un réservoir de plus de 23 millions de ressources pluridisciplinaires à destination des personnels de l’ESR

–          La cartographie GarganText pour visualiser et naviguer dans les concepts et les mots-clés de corpus documentaire.

  • Exception de TDM (droit d’auteur/droit des bases de données)
  • Sécurisation technique des données (cloud, serveurs, localisation, etc.)
  • Sécurisation juridique des données (confidentialité/PI)
  • RGPD et exception de recherche

L’objectif du cours est d’assimiler les atouts et les contraintes liés à la protection des données à caractère personnel dans le cadre de la recherche scientifique.

L’état actuel du droit s’explique par un changement de paradigme initié par le Règlement Général sur la Protection des Données (RGPD).

Ce texte a profondément bouleversé, non seulement, les procédures à mettre en oeuvre dans le cadre de la recherche (autorisation CNIL qui peuvent encore subsister, Analyses d’impact sur la protection des données, registre des activités de traitement…), mais encore, a totalement refondu la philosophie du droit des données à caractère personnel.

Le RGPD étant encore récent, nous n’avons qu’un retour d’expérience parcellaire sur son application. Il est donc nécessaire de comprendre quelle était la philosophie du droit puis pourquoi et comment elle a évolué.

Dans le même temps, la Commission Nationale de l’Informatique et des Libertés (CNIL) affine sa doctrine (et non sa jurisprudence puisque ce n’est pas une juridiction), mais la connaissance de ses délibérations rendues avant Le RGPD est encore utile pour lever les zones d’ombre auxquels les chercheurs publics et privés peuvent être confrontés.

Si l’objet du cours est d’apporter une connaissance immédiatement opérationnelle, cet apport pour perdurer s’appuie sur une approche théorique dans le but de permettre aux personnes qui le suivent de raisonner en droit des données à caractère personnel.

  • Anonymiser les données – L’appariement des données de santé

Les données de santé ont un potentiel considérable pour la recherche, l’innovation et l’amélioration de la prise en charge des patients, notamment lorsque l’on parvient à intégrer différentes sources de données.

Mais leur caractère intrinsèquement personnel et sensible fait courir des risques de réidentification et d’usage non souhaité.

Ainsi, il existe une tension permanente entre le besoin d’exploiter et intégrer des données de santé et l’impératif de confidentialité.

A la fin de ce cours, vous saurez :

– Quelles sont les principales bases de données de santé françaises et les enjeux associés ;

– Pourquoi il peut être utile d’apparier plusieurs bases de données de santé pour la recherche et la santé publique ;

– Quel est le pouvoir de ré-identification des bases nationales de données de santé hospitalière ;

– Quelles sont les principales méthodes d’anonymisation des données de santé.

  • RGPD et données de santé

Le régime actuel de la protection des données personnelles résulte de la combinaison d’’un règlement européen (le RGPD de l’UE entré en vigueur le 25 mai 2018) et de la loi nationale Informatique et libertés de 1978 modifiée. Des dispositions spécifiques aux « données concernant la santé » sont inscrites dans le règlement européen, auxquelles la loi française ajoute des conditions supplémentaires.

L’objectif de cet enseignement est d’introduire aux notions clés de la protection des données personnelles en focalisant sur cette catégorie particulière que sont les données de santé. Les dispositions sur les recherches mobilisant des données de santé sont également traitées.

Compétences :

– Maîtriser les notions essentielles de la protection des données personnelles — et des données de santé, en particulier ;

– Identifier les acteurs du traitement et leurs responsabilités ;

– Connaître les droits des personnes concernées et les conditions de leur information ;

– Identifier les procédures de déclaration ou de demande d’autorisation de traitement et les conditions de leur mise en œuvre.

  • Philippe Amiel
  • Alain Foucaran
  • Francesca Frontini
  • Kamel Gadouche
  • Clément Jonquet
  • Anne Laurent
  • Julien Le Clainche
  • Olivier Le Gall
  • Claire Nedellec
  • Christophe Perignon
  • Agnès Robin
  • Maxime Ragot
  • Mathieu Roche
  • Marie-Christine Sordino
  • Gille Vieira

Plus d’infos sur les intervenants

Gérer l’ouverture des données de la recherche

La troisième partie propose de former à l’ouverture des données de la recherche. Elle consiste ainsi à apprendre à partager, publier, mais aussi stocker et archiver les données de façon sécurisée et de manière à ce qu’elles puissent éventuellement donner lieu à une réutilisation et/ou une valorisation.

Elle se décline en quatre modules :

  • Qu’est-ce que le FAIR ?

Les principes FAIR – de l’acronyme Findable, Accessible, Interoperable, Reusable – vous accompagnent pour mettre en oeuvre de bonnes pratiques dans le but assurer la citation et ré-usage des données de la recherche, de faciliter leur découverte et leur diffusion mais aussi leur stockage et leur conservation. Désormais de nombreux organismes de financement, comme la commission européen ou l’agence nationale pour la recherche , exigent le respect de ces principes par les producteurs de données dans l’objectif d’en garantir l’intégrité mais aussi augmenter l’impact de leurs investissements dans la recherche. Ces deux jours de formation ont pour objectif de connaître et de comprendre comment mettre en œuvre l’ensemble de ces principes, de s’assurer que vos données de recherche y sont conformes et d’en vérifier leur visibilité, leur accessibilité et leur potentiel de réutilisation.

Compétences : 

– Connaître les principes FAIR et les mettre en oeuvre

– Vérifier si vos données sont conformes aux principes FAIR

  • Les données de la recherche : enregistrements de terrain

Sur le terrain, le chercheur en sciences humaines et sociales utilise parfois l’enregistrement pour appuyer ses publications. Ces données de terrain, une fois déposées dans des institutions, deviennent des « archives sonores ». La matinée a pour objectif d’appréhender la spécificité de ces archives, d’en connaître le traitement et d’en envisager les enjeux juridiques et éthiques pour leur diffusion et leur conservation jusqu’au très long terme.

  • Le PGD, enjeux financier et institutionnel : quelles obligations pour les porteurs de projets ?

Après avoir balayé d’une manière générale le contexte  de la science ouverte et ses enjeux, le focus se portera sur comment les bailleurs de fonds ont intégré cette dimension dans leurs programmations et appels à projets. Au-delà d’une obligation, la dimension science ouverte fait partie intégrante de la stratégie de dissémination et d’exploitation des porteurs de projets. Cette formation permettra de présenter comment les bailleurs de fonds se sont emparés du sujet, les outils qu’ils ont mis en place pour accompagner au mieux les porteurs de projets et les obligations qui reposent sur ces derniers.

A l’issue de la formation, les participants devront :

– Connaître les thématiques de la Science ouverte et leurs implications pour la recherche

– Connaître les obligations qui reposent sur les bénéficiaires de financement public

  • Construire un Plan de gestion de données. Elaboration et rédaction

Le Plan de gestion de données (PGD) ou Data management plan (DMP) fait désormais partie des documents indispensables à l’accompagnement d’un projet de recherche scientifique ou d’une thèse : il explicite comment sont obtenues, collectées, traitées et sauvegardées les données tout au long de leur cycle de vie. Rédigé dès le début du projet, le PGD est un document évolutif exigé par les financeurs de projet européens comme nationaux, et qui s’inscrit dans une démarche de science ouverte. Il permet de décrire les jeux de données produits au cours du projet, de clarifier les aspects éthiques et juridiques ainsi que les responsabilités autour des données, de garantir l’accès aux données et de définir leur partage, leur sauvegarde comme leur archivage.

Ce module de formation s’articulera autour d’aspects théoriques qui permettront de comprendre le contexte, les enjeux et les perspectives liées à la gestion des données de la recherche ; mais aussi pratiques avec l’utilisation d’outils d’aide à la rédaction (notamment l’outil du CNRS DMP-OPIDoR : https://dmp.opidor.fr/) et de relecture de PGD.

Pour participer à ce module, il faut obligatoirement suivre le module suivant : « Module 3.3 : Diffuser et partager les données ».

  • Construire une infrastructure de données
  • Fonctionnalités des entrepôts de données pour le stockage et la réutilisation des données
  • L’infrastructure de recherche Huma-Num : des services pour les données en SHS. Méthodologie de dépôt de données de recherche de qualité

La séance de la matinée sera dédiée à un panorama des infrastructures de recherche en France, avec un focus sur les infrastructures de recherche dédiées aux sciences humaines et sociales (SHS).

Y sera présenté en particulier « Huma-Num », une infrastructure de recherche qui propose à la communauté scientifique du domaine des SHS, une offre de services dédiée aux données de la recherche répondant à l’ensemble de leur cycle de vie.

Dans ce cadre, Huma-Num a développé Nakala, un entrepôt de données de recherche pour les SHS, qui sera brièvement présenté dans l’objectif d’aborder les critères pour accompagner et permettre de faire un choix éclairé d’un entrepôt parmi l’offre actuelle.

La deuxième partie de séance sera menée sous forme de TP durant lequel nous étudierons la question de la qualité des données qui sont déposées dans un entrepôt, en lien avec les principes FAIR.

A partir de fichiers et d’un tableur de métadonnées reposant sur le schéma de description Dublin Core, nous analyserons les bonnes pratiques de description d’une donnée (choix des propriétés et formalisme des encodages). Seront également abordées les questions d’organisation et de structuration des données.

L’objectif est d’identifier quelques pistes et moyens techniques pour une exploitation fine et contrôlée des données de recherche par les agrégateurs et moteurs de recherche spécialisés.

Compétences :

– Appréhender le fonctionnement d’une infrastructure de recherche et les spécificités des SHS

– Accompagner au choix et/ou choisir selon des critères objectifs un entrepôt de données adapté

– Connaître les enjeux d’une description fine et de qualité des données de recherche

– Exploiter les fonctionnalités d’exposition et de moissonnage d’un entrepôt pour améliorer le référencement des données de recherche

  • Solutions d’archivage : l’expertise des archivistes

Le contexte légal lié aux données produites dans le cadre de la Recherche, la stratégie globale et l’organisation de l’archivage numérique, les facteurs critiques d’un projet d’archivage numérique

– Comment mettre en place une archive numérique sur la base de services indépendants ayant chacun des responsabilités, des fonctions, des ressources et des compétences bien définies ?

– Quelles sont les possibilités de mutualisation et de coopération ?

– Comment gérer les risques liés au projet ?

– Comment maîtriser les coûts, les modèles d’évaluation ?

– Comment intégrer des exigences de sécurité ?

– Quelle certification peut être envisagée ?

La vue d’ensemble du contexte normatif, le Modèle de Référence OAIS et les autres normes généralistes du domaine

– Panorama du paysage normatif.

– Classification des domaines, rôle et objets des différentes normes et présentation plus détaillée des normes généralistes dédiées à l’archivage des informations sous forme numérique.

Les plateformes logicielles existantes sur la pérennisation

– Présentation de l’offre disponible sur le marché, qui est à présent plus mûre, et peut être comparée avec le Modèle de Référence OAIS.

– Les SAE orientés planification de la préservation : PAC, SPAR , VITAM, etc. ;

– Les outils libres de référencement/indexation : DataVerse, Zenodo, DSpace, etc.

Compétences :

A la fin du cours, vous connaîtrez les dispositifs réglementaires liés au cycle de vie des données de Recherche. Vous aurez une vue globale des concepts, normes et standards du domaine de la préservation numérique à long-terme, que vous saurez différencier du stockage sécurisé. Vous aurez également un aperçu des solutions logicielles pouvant être envisagées pour préserver et/ou rendre accessible les données scientifiques.

  • Obtenir une certification CTS
  • Stratégies de diffusion et de partage des données (open access, publimétrie)

Le cours met l’accent sur les pratiques des chercheurs en matière de diffusion et de partage de données. Quelles sont leurs motivations et leurs attitudes par rapport à l’ouverture des données, quels sont leurs comportements ? Quelles sont les fonctions et les finalités d’une telle ouverture, du point de vue des chercheurs ? Quelles sont les récompenses et les incitations pour diffuser et partager les données ? Quel est le lien avec la publication des résultats dans les revues scientifiques ? Le cours place les pratiques des chercheurs dans le contexte de l’écosystème de la science ouverte, avec des rappels et des renvois vers d’autres cours, en particulier sur l’environnement de la science ouverte, sur les entrepôts, sur la certification et sur les data papers. Le cours (re)posera également la question de la définition des données et de leur signification pour les chercheurs et dans le processus de la recherche.

Compétences  :

– Connaître les principaux résultats des enquêtes sur les pratiques des chercheurs.

– Comprendre les pratiques dans le contexte de l’écosystème de la science ouverte, en particulier par rapport aux entrepôts de données et aux revues scientifiques.

– Connaître les critères de qualité liés à la diffusion et au partage des données.

  • Rédiger un Data paper

Publier un Data paper permet d’informer la communauté scientifique de l’existence, de l’originalité, de la qualité et de la disponibilité d’un jeu de données. Le Data paper sert à mettre en valeur un jeu de données, en le rendant accessible, de préférence dans un entrepôt de données, et en apportant suffisamment d’informations pour que d’autres chercheurs puissent comprendre, interpréter et réutiliser les données. Concrètement, le Data paper décrit un jeu de données, détaille la méthode d’obtention et montre son potentiel pour de futures utilisations. Il ne présente généralement ni résultats, ni analyses, ni discussion. Il se publie dans un Data journal ou dans une revue classique qui accepte ce type d’article.

La formation présentera : le concept, les objectifs et les enjeux du Data paper ainsi que les bénéfices pour les auteurs ; la structure du Data paper en s’appuyant sur les modèles de différentes revues ; des conseils de rédaction tenant compte des critères d’évaluation ; les revues scientifiques publiant des Data papers, les entrepôts de données et les critères pour les choisir ; les sites de recherche de données. Des mises en pratique permettront de s’approprier les informations et outils présentés.

A la fin du cours, vous devriez être capable de :

– Comprendre ce qu’est un Data paper

– Maîtriser les points clés de la rédaction en comprenant les critères d’évaluation

– Choisir une revue et un entrepôt de données

– Évaluer le potentiel de vos données

– Publier un Data paper

  • S’identifier en tant que chercheur

Dans un contexte scientifique de plus en plus concurrentiel (augmentation continue du nombre de chercheurs, classements internationaux, financement sur projets,…), les chercheurs sont soumis à une double injonction : ils doivent assurer un volume de publication important et régulier (« Publish or perish »)  mais aussi faire en sorte que leurs travaux soient visibles de leurs pairs académiques « Be visible or vanish.» D’autre part, les mouvements d’ouverture, au premier desquels celui de la science ouverte, incitent fortement les acteurs de la recherche à diffuser les résultats de leurs activités. Partant de ce double constat, les acteurs de la recherche doivent mettre en place des stratégies de visibilité, a minima afin d’être facilement identifiés en tant qu’auteurs de leurs travaux (publication, données, évaluation,…).

L’objectif de ce cours sera à la fois de montrer pourquoi les chercheurs ont intérêt à bien maîtriser leur identité numérique (visibilité académique, e-reputation, paternité scientifique) et comment choisir et articuler les outils disponibles.

A la fin de ce cours, vous saurez :

– Quels sont les enjeux liés à l’identité numérique

– Identifier les différentes catégories d’outils disponibles et les stratégies possibles en matière d’identité numérique

– Quelles bonnes pratiques adopter (respect du droit, interopérabilité des outils,…)

Pour participer à ce module, il faut avoir obligatoirement suivi le module suivant : « Module 3.1 : Construire un plan de gestion de données (PGD) ».

  • Stratégies d’innovation, financement, valorisation

La valorisation économique des données de la recherche est une mission à part entière des établissements d’enseignements supérieurs et de recherche, aux côtés de leurs fonctions traditionnelles d’enseignement et de recherche. L’intégration des étudiants dans les différents formats de projets permet l’acculturation des nouvelles générations à l’innovation par la recherche, leur sensibilisation aux métiers de l’entreprise et facilite leur insertion dans le monde professionnel.

La valorisation des données de la recherche est le processus de développement qui permet aux chercheurs d’avoir un effet socio-économique et qui permet  de créer des entreprises ou de transférer des savoir et savoir-faire à des entreprises capables de créer de nouveaux produits et procédés pour être leader sur leur marché. Ces mêmes données de la recherche fondamentale, à la base des innovations, peuvent également transformer positivement nos vies au quotidien.

Les sciences humaines et sociales doivent être intégrées dans ce processus de création de valeur socio-économique car elles ont pour rôle, indispensable et essentiel, d’analyser précocement l’incidence des innovations sur l’amélioration de la condition humaine dans le respect de son écosystème environnemental.

Le plus souvent, les données scientifiques, encore trop fondamentales, doivent être encore travaillées, classées et protégées pour être utilisables par les acteurs socio-économiques. Alors pour détecter et soutenir les résultats scientifiques porteurs d’innovations la Région soutient les chercheuses et chercheurs qui souhaitent aller jusqu’à une preuve de concept ou un transfert ou une création de startup portant parfois des innovations de rupture.

Les innovations développées, à travers le licensing des brevets, aident à l’internationalisation des PME qui sont entrées dans le cercle vertueux de la recherche appliquée qui vise les marchés internationaux. Ces PME qui exportent réalisent globalement des investissements de recherche et de développement deux fois supérieurs à ceux des PME non exportatrices et génèrent un chiffre d’affaires plus de trois fois supérieur.

Différents dispositifs régionaux sont à la disposition des laboratoires publics qui travaillent avec les entreprises régionales innovantes dans le cadre de projets de R&D&I, régionaux, nationaux et européens, en faisant intervenir des chercheurs et des étudiants qui visent un emploi, une création d’entreprise innovante ou une reprise d’entreprises.

  • Licences ouvertes Données publiques (Open data)

Le cours abordera plusieurs aspects de la politique data des collectivités territoriales en France. La première partie sera accès sur les politiques open data en France, elle balayera l’histoire de la mise en place de cette politique publique, l’état actuel de l’open data, quelques points légaux et juridiques et enfin les enjeux actuels tel que la normalisation des données ou encore les jeux d’acteurs autour de la data (publics / privés).

La seconde partie sera un focus sur le cas montpelliérain illustré à partir d’exemples de réutilisation de données et le travail spécifique autour des données géographiques et d’un acteur tel que OpenStreetMap.

La troisième et dernière partie délaissera l’unique aspect de l’ouverture des données pour aborder les politiques de « smart city » qui animent les principales métropoles en France à travers divers exemples, du déploiement d’Iot à la mise en place d’un service public de la donnée.

  • Stratégies de valorisation des données scientifiques

Pour participer à ce module, il faut avoir obligatoirement suivi le module suivant : « Module 1.3 : Données, innovation et droit ».

  • Hugo Catherine
  • Laurence Dedieu-Engelmann
  • Emilie Domanico
  • Françoise Genova
  • Véronique Ginouvès
  • Célya Gruson-Daniel
  • Laure Lefrançois
  • Pascal Neveu
  • Olivier Rouchon
  • Joachim Schöpfel
  • Jérémie Valentin

Plus d’infos sur les intervenants

Candidater
Contact