Gérer ses données
-
Déposer ses données dans un entrepôt
Définition
Les entrepôts de données de recherche (Research Data Repository ou Data Repository) sont des services en ligne permettant la collecte, la description, la conservation, la recherche et la diffusion des données de la recherche.
Pourquoi déposer des données dans un entrepôt ?
Les avantages d’un dépôt des données de la recherche :
- La conservation des données dans un environnement sécurisé
- La visibilité des données et accès facilité pour les moteurs de recherche
- L’interopérabilité des données grâce à l’utilisation de standards de métadonnées
- La découverte, réutilisation et citation du jeu de données facilitées par son identifiant pérenne
- La gestion des modalités de partage des données par l’attribution de licences de diffusion
- Le respect des recommandations des financeurs et institutions sur l’ouverture des données
- La reproductibilité de la recherche, intégrité et validation scientifique améliorées
- La valorisation des données par leur réutilisation dans de nouvelles études et innovations.
-
Choisir son entrepôt de données
Il existe de très nombreux entrepôts de données ; ils peuvent être répartis selon trois catégories : généralistes, disciplinaires (en archéologie, histoire, économie…), ou institutionnels (dépôt de données de l’EHESS Didoména). Ils peuvent également être propres à un projet de recherche ou à un éditeur.
Le choix d’un entrepôt dépend de la nature des données, du projet de recherche dans le cadre duquel elles ont été produites et des objectifs du déposant.
Pour rechercher un entrepôt, vous pouvez consulter le répertoire d’entrepôts de données Re3Data (Registry of Research Data Repositories),
En 2022, le MESR met en place un entrepôt national des données de la recherche Recherche Data gouv.
Conseils pour choisir un entrepôt
L’entrepôt doit permettre de décrire les données selon les principes FAIR et d’obtenir un identifiant pérenne (DOI) pour les jeux de données.
Il faut également privilégier les entrepôts certifiés notamment par le Core Trust Seal.
Enfin, il est recommandé de vérifier les licences proposées par l’entrepôt, notamment leur conformité à la législation française sur les données publiques
Pour aller plus loin :
Les répertoires pour trouver des entrepôts des données de la recherche
- Re3Data : répertoire d’entrepôts de données créé en 2012 par le consortium international DataCite. Re3data renseigne sur plus de 2450 entrepôts et sur les licences proposées par chacun.
- Repository Finder : outil permettant de trouver un entrepôt de données. Cet outil, hébergé par DataCite, cherche des entrepôts dans le répertoire Re3data.
- Fairsharing : guide sur les normes, standards, entrepôts et recommandations en termes de données et métadonnées.
- Cat OPIDoR : catalogue des services français dédiés aux données scientifiques, hébergé par le CNRS. Cat OPIDoR présente une liste de 58 entrepôts de données en France.
- Liste des entrepôts de données certifiés par CoreTrustSeal
Les fiches de synthèse sur les entrepôts de données
- La fiche synthétique « Dépôts et entrepôts » du site DoRANum
- La rubrique « Choisir un entrepôt » du site de l’INRAe
Quelques entrepôts de données :
-
Le plan de gestion des données
Plan de gestion des données (PGD) – Data Management Plan (DMP)
Un plan de gestion des données (PGD) est un document formel pour prévoir le cycle de vie des données acquises et/ou générées lors d’un projet de recherche. Il s’appuie sur les principes FAIR (Findability, Accessibility, Interoperability, Reuse).
l doit présenter la façon dont sont gérées, analysées, stockées, exposées et archivées les données du projet et décrire les choix réalisés en termes de métadonnées, formats des bases de données, méthodes et sécurité d’accès, durées d’archivage, ainsi que les coûts associés à la gestion des données et les personnes qui en ont la charge.
C’est un document vivant et évolutif qui est mis à jour et enrichi au fur et à mesure de l'évolution du projet. Il varie en fonction des exigences du projet et des demandes des agences de financement.
Dans certains cas, comme les projets ANR ou Horizon Europe, il constitue un livrable exigé. Dans le cadre de projets financés par ces organismes, un plan de gestion des données doit être rédigé dans les 6 mois qui suivent le début d’un projet avec une mise à jour à mi-projet (si le projet est supérieur à 30 mois) et en fin de projet. Les données doivent être ouvertes autant que possible et déposées en vue de la validation des résultats publiés.
a forme peut varier en fonction des agences de financement. Ces dernières proposent des modèles : modèle ANR et modèle Horizon Europe ; certaines universités, institutions ou organismes de recherche développent également leur propre modèle de plan de gestion des données.
Afin d’aider les équipes de recherche, le site DMP-Opidor propose un outil de rédaction qui permet, à partir d’un modèle choisi, de rédiger son plan de gestion et de consulter des recommandations pour chaque rubrique.
La rédaction d’un plan de gestion des données est un travail d’équipe qui sollicite non seulement les chercheurs mais également le personnel technique, le personnel IST et éventuellement les juristes au sein de l’université.
Pour aller plus loin :
- Outil de rédaction des plans de gestion des données DMP-OPIDor : https://dmp.opidor.fr/
- Plan de gestion de données - Pourquoi et comment rédiger un plan de gestion de données ? : https://doranum.fr/plan-gestion-donnees-dmp/
- Webinaire « Plan de gestion des données » : https://doranum.fr/plan-gestion-donnees-dmp/webinaire-pgd-bonnes-pratiques-de-redaction-et-outils/
- Tutoriel sur l’outil de rédaction DMP OPIDoR : https://doranum.fr/tutoriel-sur-loutil-de-redaction-dmp-opidor/
- Grille de relecture de Plans de Gestion de Données – modèle ANR : https://doranum.fr/grille-de-relecture-de-plans-de-gestion-de-donnees-modele-anr/
- Science Europe - Practical Guide to the International Alignment of Research Data Management : https://www.scienceeurope.org/media/4brkxxe5/se_rdm_practical_guide_extended_final.pdf