Gérer l’ouverture des données de la recherche

Module 3.1 : Construire un plan de gestion de données (PGD)

  • Qu’est-ce que le FAIR ?

Les principes FAIR – de l’acronyme Findable, Accessible, Interoperable, Reusable – vous accompagnent pour mettre en oeuvre de bonnes pratiques dans le but assurer la citation et ré-usage des données de la recherche, de faciliter leur découverte et leur diffusion mais aussi leur stockage et leur conservation. Désormais de nombreux organismes de financement, comme la commission européen ou l’agence nationale pour la recherche , exigent le respect de ces principes par les producteurs de données dans l’objectif d’en garantir l’intégrité mais aussi augmenter l’impact de leurs investissements dans la recherche. Ces deux jours de formation ont pour objectif de connaître et de comprendre comment mettre en œuvre l’ensemble de ces principes, de s’assurer que vos données de recherche y sont conformes et d’en vérifier leur visibilité, leur accessibilité et leur potentiel de réutilisation.

  • Compétences : 

– Connaître les principes FAIR et les mettre en oeuvre

– Vérifier si vos données sont conformes aux principes FAIR

  • Les données de la recherche : enregistrements de terrain

Sur le terrain, le chercheur en sciences humaines et sociales utilise parfois l’enregistrement pour appuyer ses publications. Ces données de terrain, une fois déposées dans des institutions, deviennent des « archives sonores ». La matinée a pour objectif d’appréhender la spécificité de ces archives, d’en connaître le traitement et d’en envisager les enjeux juridiques et éthiques pour leur diffusion et leur conservation jusqu’au très long terme.

  • Le PGD, enjeux financier et institutionnel : quelles obligations pour les porteurs de projets ?

Après avoir balayé d’une manière générale le contexte  de la science ouverte et ses enjeux, le focus se portera sur comment les bailleurs de fonds ont intégré cette dimension dans leurs programmations et appels à projets. Au-delà d’une obligation, la dimension science ouverte fait partie intégrante de la stratégie de dissémination et d’exploitation des porteurs de projets. Cette formation permettra de présenter comment les bailleurs de fonds se sont emparés du sujet, les outils qu’ils ont mis en place pour accompagner au mieux les porteurs de projets et les obligations qui reposent sur ces derniers.

  • A l’issue de la formation, les participants devront:

– Connaître les thématiques de la Science ouverte et leurs implications pour la recherche

– Connaître les obligations qui reposent sur les bénéficiaires de financement public

  • Construire un plan de gestion de données : Élaboration et rédaction

Le Plan de gestion de données (PGD) ou Data management plan (DMP) fait désormais partie des documents indispensables à l’accompagnement d’un projet de recherche scientifique ou d’une thèse : il explicite comment sont obtenues, collectées, traitées et sauvegardées les données tout au long de leur cycle de vie. Rédigé dès le début du projet, le PGD est un document évolutif exigé par les financeurs de projet européens comme nationaux, et qui s’inscrit dans une démarche de science ouverte. Il permet de décrire les jeux de données produits au cours du projet, de clarifier les aspects éthiques et juridiques ainsi que les responsabilités autour des données, de garantir l’accès aux données et de définir leur partage, leur sauvegarde comme leur archivage.

Ce module de formation s’articulera autour d’aspects théoriques qui permettront de comprendre le contexte, les enjeux et les perspectives liées à la gestion des données de la recherche ; mais aussi pratiques avec l’utilisation d’outils d’aide à la rédaction (notamment l’outil du CNRS DMP-OPIDoR : https://dmp.opidor.fr/) et de relecture de PGD.

  • Le PGD, outils et cas pratiques

Pour participer à ce module, il faut obligatoirement suivre le module suivant : « Module 3.3 : Diffuser et partager les données ».

Module 3.2 : Stocker et archiver les données

  • Construire une infrastructure de données
  • Fonctionnalités des entrepôts de données pour le stockage et la réutilisation des données
  • L’infrastructure de recherche Huma-Num : des services pour les données en SHS. Méthodologie de dépôt de données de recherche de qualité

La séance de la matinée sera dédiée à un panorama des infrastructures de recherche en France, avec un focus sur les infrastructures de recherche dédiées aux sciences humaines et sociales (SHS).

Y sera présenté en particulier « Huma-Num », une infrastructure de recherche qui propose à la communauté scientifique du domaine des SHS, une offre de services dédiée aux données de la recherche répondant à l’ensemble de leur cycle de vie.

Dans ce cadre, Huma-Num a développé Nakala, un entrepôt de données de recherche pour les SHS, qui sera brièvement présenté dans l’objectif d’aborder les critères pour accompagner et permettre de faire un choix éclairé d’un entrepôt parmi l’offre actuelle.

La deuxième partie de séance sera menée sous forme de TP durant lequel nous étudierons la question de la qualité des données qui sont déposées dans un entrepôt, en lien avec les principes FAIR.

A partir de fichiers et d’un tableur de métadonnées reposant sur le schéma de description Dublin Core, nous analyserons les bonnes pratiques de description d’une donnée (choix des propriétés et formalisme des encodages). Seront également abordées les questions d’organisation et de structuration des données.

L’objectif est d’identifier quelques pistes et moyens techniques pour une exploitation fine et contrôlée des données de recherche par les agrégateurs et moteurs de recherche spécialisés.

  • Compétences :

– Appréhender le fonctionnement d’une infrastructure de recherche et les spécificités des SHS

– Accompagner au choix et/ou choisir selon des critères objectifs un entrepôt de données adapté

– Connaître les enjeux d’une description fine et de qualité des données de recherche

– Exploiter les fonctionnalités d’exposition et de moissonnage d’un entrepôt pour améliorer le référencement des données de recherche

  • Solutions d’archivage : l’expertise des archivistes

Le contexte légal lié aux données produites dans le cadre de la Recherche, la stratégie globale et l’organisation de l’archivage numérique, les facteurs critiques d’un projet d’archivage numérique

– Comment mettre en place une archive numérique sur la base de services indépendants ayant chacun des responsabilités, des fonctions, des ressources et des compétences bien définies ?

– Quelles sont les possibilités de mutualisation et de coopération ?

– Comment gérer les risques liés au projet ?

– Comment maîtriser les coûts, les modèles d’évaluation ?

– Comment intégrer des exigences de sécurité ?

– Quelle certification peut être envisagée ?

La vue d’ensemble du contexte normatif, le Modèle de Référence OAIS et les autres normes généralistes du domaine

– Panorama du paysage normatif.

– Classification des domaines, rôle et objets des différentes normes et présentation plus détaillée des normes généralistes dédiées à l’archivage des informations sous forme numérique.

Les plateformes logicielles existantes sur la pérennisation

– Présentation de l’offre disponible sur le marché, qui est à présent plus mûre, et peut être comparée avec le Modèle de Référence OAIS.

– Les SAE orientés planification de la préservation : PAC, SPAR , VITAM, etc. ;

– Les outils libres de référencement/indexation : DataVerse, Zenodo, DSpace, etc.

  • Compétences :

A la fin du cours, vous connaîtrez les dispositifs réglementaires liés au cycle de vie des données de Recherche. Vous aurez une vue globale des concepts, normes et standards du domaine de la préservation numérique à long-terme, que vous saurez différencier du stockage sécurisé. Vous aurez également un aperçu des solutions logicielles pouvant être envisagées pour préserver et/ou rendre accessible les données scientifiques.

  • Obtenir une certification CTS

Module 3.3 : Diffuser et partager les données

  • Stratégies de diffusion et de partage des données (open access, publimétrie)

Le cours met l’accent sur les pratiques des chercheurs en matière de diffusion et de partage de données. Quelles sont leurs motivations et leurs attitudes par rapport à l’ouverture des données, quels sont leurs comportements ? Quelles sont les fonctions et les finalités d’une telle ouverture, du point de vue des chercheurs ? Quelles sont les récompenses et les incitations pour diffuser et partager les données ? Quel est le lien avec la publication des résultats dans les revues scientifiques ? Le cours place les pratiques des chercheurs dans le contexte de l’écosystème de la science ouverte, avec des rappels et des renvois vers d’autres cours, en particulier sur l’environnement de la science ouverte, sur les entrepôts, sur la certification et sur les data papers. Le cours (re)posera également la question de la définition des données et de leur signification pour les chercheurs et dans le processus de la recherche.

  • Compétences  :

– Connaître les principaux résultats des enquêtes sur les pratiques des chercheurs.

– Comprendre les pratiques dans le contexte de l’écosystème de la science ouverte, en particulier par rapport aux entrepôts de données et aux revues scientifiques.

– Connaître les critères de qualité liés à la diffusion et au partage des données.

  • Rédiger un Data paper

Publier un Data paper permet d’informer la communauté scientifique de l’existence, de l’originalité, de la qualité et de la disponibilité d’un jeu de données. Le Data paper sert à mettre en valeur un jeu de données, en le rendant accessible, de préférence dans un entrepôt de données, et en apportant suffisamment d’informations pour que d’autres chercheurs puissent comprendre, interpréter et réutiliser les données. Concrètement, le Data paper décrit un jeu de données, détaille la méthode d’obtention et montre son potentiel pour de futures utilisations. Il ne présente généralement ni résultats, ni analyses, ni discussion. Il se publie dans un Data journal ou dans une revue classique qui accepte ce type d’article.

La formation présentera : le concept, les objectifs et les enjeux du Data paper ainsi que les bénéfices pour les auteurs ; la structure du Data paper en s’appuyant sur les modèles de différentes revues ; des conseils de rédaction tenant compte des critères d’évaluation ; les revues scientifiques publiant des Data papers,les entrepôts de données et les critères pour les choisir ; les sites de recherche de données. Des mises en pratique permettront de s’approprier les informations et outils présentés.

  • A la fin du cours, vous devriez être capable de :

– Comprendre ce qu’est un Data paper

– Maîtriser les points clés de la rédaction en comprenant les critères d’évaluation

– Choisir une revue et un entrepôt de données

– Évaluer le potentiel de vos données

– Publier un Data paper

  • S’identifier en tant que chercheur

Dans un contexte scientifique de plus en plus concurrentiel (augmentation continue du nombre de chercheurs, classements internationaux, financement sur projets,…), les chercheurs sont soumis à une double injonction : ils doivent assurer un volume de publication important et régulier (« Publish or perish »)  mais aussi faire en sorte que leurs travaux soient visibles de leurs pairs académiques « Be visible or vanish.» D’autre part, les mouvements d’ouverture, au premier desquels celui de la science ouverte, incitent fortement les acteurs de la recherche à diffuser les résultats de leurs activités. Partant de ce double constat, les acteurs de la recherche doivent mettre en place des stratégies de visibilité, a minima afin d’être facilement identifiés en tant qu’auteurs de leurs travaux (publication, données, évaluation,…).

L’objectif de ce cours sera à la fois de montrer pourquoi les chercheurs ont intérêt à bien maîtriser leur identité numérique (visibilité académique, e-reputation, paternité scientifique) et comment choisir et articuler les outils disponibles.

  • A la fin de ce cours, vous saurez :

– Identifier les enjeux liés à l’identité numérique

– Identifier les différentes catégories d’outils disponibles et les stratégies possibles en matière d’identité numérique

– Identifier les bonnes pratiques adopter (respect du droit, interopérabilité des outils,…)

Pour participer à ce module 3.3, il faut avoir obligatoirement suivi le module suivant : « Module 3.1 : Construire un plan de gestion de données (PGD) ».

Module 3.4 : Valoriser et réutiliser les données

  • Stratégies d’innovation, financement, valorisation

La valorisation économique des données de la recherche est une mission à part entière des établissements d’enseignements supérieurs et de recherche, aux côtés de leurs fonctions traditionnelles d’enseignement et de recherche. L’intégration des étudiants dans les différents formats de projets permet l’acculturation des nouvelles générations à l’innovation par la recherche, leur sensibilisation aux métiers de l’entreprise et facilite leur insertion dans le monde professionnel.

La valorisation des données de la recherche est le processus de développement qui permet aux chercheurs d’avoir un effet socio-économique et qui permet  de créer des entreprises ou de transférer des savoir et savoir-faire à des entreprises capables de créer de nouveaux produits et procédés pour être leader sur leur marché. Ces mêmes données de la recherche fondamentale, à la base des innovations, peuvent également transformer positivement nos vies au quotidien.

Les sciences humaines et sociales doivent être intégrées dans ce processus de création de valeur socio-économique car elles ont pour rôle, indispensable et essentiel, d’analyser précocement l’incidence des innovations sur l’amélioration de la condition humaine dans le respect de son écosystème environnemental.

Le plus souvent, les données scientifiques, encore trop fondamentales, doivent être encore travaillées, classées et protégées pour être utilisables par les acteurs socio-économiques. Alors pour détecter et soutenir les résultats scientifiques porteurs d’innovations la Région soutient les chercheuses et chercheurs qui souhaitent aller jusqu’à une preuve de concept ou un transfert ou une création de startup portant parfois des innovations de rupture.

Les innovations développées, à travers le licensing des brevets, aident à l’internationalisation des PME qui sont entrées dans le cercle vertueux de la recherche appliquée qui vise les marchés internationaux. Ces PME qui exportent réalisent globalement des investissements de recherche et de développement deux fois supérieurs à ceux des PME non exportatrices et génèrent un chiffre d’affaires plus de trois fois supérieur.

Différents dispositifs régionaux sont à la disposition des laboratoires publics qui travaillent avec les entreprises régionales innovantes dans le cadre de projets de R&D&I, régionaux, nationaux et européens, en faisant intervenir des chercheurs et des étudiants qui visent un emploi, une création d’entreprise innovante ou une reprise d’entreprises.

  • Licences ouvertes Données publiques (Open data)

Le cours abordera plusieurs aspects de la politique data des collectivités territoriales en France. La première partie sera accès sur les politiques open data en France, elle balayera l’histoire de la mise en place de cette politique publique, l’état actuel de l’open data, quelques points légaux et juridiques et enfin les enjeux actuels tel que la normalisation des données ou encore les jeux d’acteurs autour de la data (publics / privés).

La seconde partie sera un focus sur le cas montpelliérain illustré à partir d’exemples de réutilisation de données et le travail spécifique autour des données géographiques et d’un acteur tel que OpenStreetMap.

La troisième et dernière partie délaissera l’unique aspect de l’ouverture des données pour aborder les politiques de « smart city » qui animent les principales métropoles en France à travers divers exemples, du déploiement d’Iot à la mise en place d’un service public de la donnée.

  • Stratégies de valorisation des données scientifiques

Pour participer à ce module 3.3, il faut avoir obligatoirement suivi le module suivant : « Module 1.3 : Données, innovation et droit ».